Pendahuluan − Rumah Coding

Table of Contents

Pemodelan Linear Regression - This article is part of a series.

Part 1: This Article

Part 2: Dasar-Dasar Linear Regression

Part 3: Simple Linear Regression

Part 4: Multiple Linear Regression

Part 5: Ridge Linear Regression

Part 6: Lasso Linear Regression

Part 7: ElasticNet Linear Regression

Part 8: Evaluasi Model

Part 9: Asumsi pada Linear Regression

Part 10: Ringkasan

Part 11: Quiz

Part 12: Tugas Programming

Pada bagian ini, kita akan membahas dasar-dasar Linear Regression serta peranannya dalam machine learning. Selain itu kita juga akan mempelajari mengapa Linear Regression menjadi konsep yang penting untuk dipahami.

A. Definisi Linear Regression
#

Linear Regression adalah teknik statistik yang pertama kali dikembangkan oleh Francis Galton pada abad ke-19. Konsep utama Linear Regression adalah untuk menemukan hubungan linier antara satu atau lebih independent variable (variabel bebas) dengan dependent variable (variabel terikat). Dalam konteks machine learning, Linear Regression digunakan untuk membuat model prediktif yang dapat memprediksi nilai variabel terikat berdasarkan nilai variabel bebas.

Hubungan linear merupakan keterkaitan antara dua atau lebih variabel yang dapat diwakili oleh persamaan garis lurus atau kurva linear. Dalam konteks Linear Regression, hubungan antara variabel bebas (\(\mathbf{X}\)) dan variabel terikat (\(\mathbf{Y}\)) dijelaskan oleh suatu persamaan linear.

Istilah “regresi” berasal dari kata “regress” yang digunakan oleh Francis Galton, seorang ilmuwan dan ahli statistik abad ke-19 yang memprakarsai pengembangan konsep ini. Galton menggunakan istilah ini untuk menggambarkan fenomena di mana tinggi anak-anak cenderung “regress” atau mendekati rata-rata tinggi orang tua.

Dalam sebuah studi yang dilakukannya, Galton menemukan bahwa jika tinggi orang tua jauh di atas atau di bawah rata-rata populasi, keturunan mereka memiliki kecenderungan untuk mendekati rata-rata tinggi populasi. Meskipun anak-anak orang tua yang sangat tinggi atau sangat pendek mungkin masih di atas atau di bawah rata-rata, mereka cenderung “regress” ke arah rata-rata.

Istilah “regresi” digunakan untuk menggambarkan konsep ini, dan kemudian diterapkan pada metode statistik yang dikembangkan oleh Galton untuk memodelkan hubungan linier antara variabel bebas dan variabel terikat. Oleh karena itu, istilah “Linear Regression” mencerminkan ide bahwa hubungan antara dua variabel cenderung “mengikuti” atau “mendekati” garis lurus. Meskipun konsep ini mungkin tidak selalu sesuai dengan setiap konteks atau aplikasi, istilah tersebut tetap melekat dalam dunia statistik dan machine learning.

Dalam konteks machine learning, Linear Regression termasuk dalam jenis supervised learning. Supervised learning berarti bahwa model dilatih menggunakan dataset yang sudah memiliki label atau jawaban yang benar. Dalam kasus Linear Regression, model dilatih menggunakan pasangan data variabel bebas dan variabel terikat, sehingga dapat mempelajari pola hubungan di antara keduanya untuk membuat prediksi di masa depan.

B. Sejarah Pengembangan Linear Regression
#

Pada Abad ke-19: Francis Galton memperkenalkan konsep Linear Regression untuk mengukur hubungan antara tinggi orang tua dan anak-anak mereka.
Awal Abad ke-20: Karl Pearson memperkenalkan metode least squares yang menjadi dasar perhitungan koefisien regresi.
Pertengahan Abad ke-20: Linear Regression mulai diterapkan dalam berbagai disiplin ilmu, terutama dalam ekonomi dan sains sosial.
Era Modern: Dengan perkembangan teknologi dan komputasi, penerapan Linear Regression semakin meluas, dan metode machine learning seperti Linear Regression dengan cepat menjadi pilihan populer.

C. Tujuan Pemodelan Linear Regression dengan Machine Learning
#

Tujuan utama penerapan Linear Regression dalam machine learning adalah untuk membuat model yang dapat memprediksi nilai variabel terikat berdasarkan nilai variabel bebas. Hal ini membantu dalam analisis dan pemahaman pola hubungan antar variabel, serta memungkinkan prediksi yang akurat.

D. Perbedaan dengan Pendekatan Klasik
#

Dalam konteks Linear Regression, perbedaan antara pendekatan klasik dan pendekatan machine learning sangat memengaruhi cara kita memahami dan menerapkan model.

1. Kompleksitas Model
#

Pendekatan Klasik: Cenderung menggunakan model Linear Regression sederhana dengan asumsi yang lebih terbatas tentang bentuk hubungan antar variabel. Model ini lebih mudah diinterpretasikan tetapi mungkin tidak mampu menangkap pola yang kompleks dalam data.
Pendekatan Machine Learning: Memungkinkan penggunaan model yang lebih kompleks, bahkan non-linear, untuk menangkap pola yang lebih rumit dalam data. Model ini dapat secara otomatis menyesuaikan diri dengan keberagaman dan kompleksitas yang lebih tinggi.

2. Adaptasi terhadap Data
#

Pendekatan Klasik: Cenderung memiliki batasan dalam kemampuannya menangani data yang rumit atau tidak terstruktur. Bergantung pada asumsi yang lebih kaku tentang hubungan antar variabel.
Pendekatan Machine Learning: Lebih adaptif terhadap variasi dan kompleksitas data. Model dapat menyesuaikan diri dengan pola yang mungkin sulit diidentifikasi oleh metode klasik.

3. Ketersediaan Data
#

Pendekatan Klasik: Memerlukan data yang memenuhi asumsi Linear Regression, seperti homoskedastisitas dan independensi residu. Asumsi-asumsi ini sering kali sulit dipenuhi di dunia nyata.
Pendekatan Machine Learning: Lebih toleran terhadap pelanggaran asumsi-asumsi klasik dan dapat memberikan hasil yang baik bahkan dengan data yang tidak sepenuhnya memenuhi asumsi-asumsi tersebut.

4. Interpretabilitas
#

Pendekatan Klasik: Model Linear Regression sederhana lebih mudah diinterpretasikan karena memiliki persamaan matematis yang sederhana. Koefisien dalam persamaan memberikan gambaran langsung tentang kontribusi variabel bebas terhadap variabel terikat.
Pendekatan Machine Learning: Model kompleks, terutama dalam deep learning, seringkali sulit diinterpretasikan karena representasi mereka dapat menjadi sangat kompleks. Ini dapat menjadi tantangan jika interpretabilitas model adalah prioritas.

5. Penggunaan dalam Machine Learning
#

Pendekatan Klasik: Dapat dianggap sebagai bentuk khusus dari machine learning, tetapi cenderung kurang fleksibel dan kurang mampu menangani permasalahan yang lebih kompleks.
Pendekatan Machine Learning: Menyediakan kerangka kerja yang lebih luas dan dapat menangani berbagai tugas, termasuk Linear Regression, dengan kemampuan adaptasi dan generalisasi yang lebih tinggi.

Meskipun keduanya menggunakan prinsip dasar Linear Regression, pendekatan klasik dan machine learning memiliki perbedaan signifikan dalam fleksibilitas, adaptabilitas, dan kompleksitas model yang dapat digunakan. Pemilihan antara keduanya seringkali tergantung pada sifat data, tujuan analisis, dan kebutuhan interpretabilitas model.

Pentingnya pemahaman terhadap perbedaan antara pendekatan klasik dan machine learning dalam konteks Linear Regression menjadi kunci untuk mengoptimalkan penggunaan model ini dalam berbagai situasi. Kelima aspek krusial ini, yaitu kompleksitas model, adaptasi terhadap data, ketersediaan data, interpretabilitas, dan penggunaan dalam machine learning, akan menjadi fokus diskusi selanjutnya. Melalui pembahasan ini, kita akan memahami bagaimana pendekatan klasik dan machine learning memberikan kontribusi unik mereka masing-masing dalam merancang model Linear Regression. Dengan mengeksplorasi setiap aspek, kita dapat lebih baik memahami kapan dan bagaimana memilih pendekatan yang paling sesuai untuk kebutuhan spesifik analisis dan prediksi.