- Blog/
Pengantar Statistik untuk Data Science - Bagian 2
Table of Contents
Pengantar Statistik untuk Data Science - This article is part of a series.
IV. Distribusi Peluang #
A. Pengantar Distribusi Peluang
Dalam statistik, distribusi peluang merujuk pada distribusi probabilitas dari semua nilai yang mungkin dari suatu variabel acak atau peristiwa. Ini memberikan gambaran tentang kemungkinan munculnya setiap nilai atau rentang nilai dalam suatu populasi atau sampel. Distribusi peluang sering digunakan dalam analisis statistik untuk memodelkan, menganalisis, dan membuat inferensi tentang data.
Distribusi peluang dapat dibagi menjadi dua jenis utama: distribusi diskrit dan distribusi kontinu. Distribusi diskrit menggambarkan variabel acak yang memiliki sejumlah nilai terpisah yang dapat dihitung, seperti jumlah koin yang dilempar atau jumlah siswa dalam kelas. Contoh distribusi diskrit termasuk distribusi binomial, distribusi Poisson, dan distribusi geometris. Di sisi lain, distribusi kontinu menggambarkan variabel acak yang dapat mengambil nilai di antara dua titik tertentu dalam rentang tertentu, seperti tinggi atau berat badan individu. Contoh distribusi kontinu termasuk distribusi normal, distribusi t, dan distribusi chi-squared.
Pemahaman tentang distribusi peluang sangat penting dalam statistik karena memungkinkan analisis yang lebih mendalam tentang data. Dengan mengetahui distribusi yang sesuai untuk data tertentu, kita dapat membuat estimasi, prediksi, dan kesimpulan yang lebih akurat tentang populasi yang lebih luas. Selain itu, distribusi peluang juga penting dalam berbagai bidang, termasuk ilmu sosial, ilmu alam, dan ekonomi, di mana peneliti sering menggunakan metode statistik untuk menguji hipotesis dan membuat keputusan berdasarkan data yang tersedia.
B. Distribusi Normal
Distribusi normal, juga dikenal sebagai distribusi Gaussian, adalah salah satu distribusi peluang yang paling umum digunakan dalam statistik. Distribusi ini sering digunakan karena banyak fenomena alam dan sosial yang memiliki pola distribusi yang mendekati bentuk kurva normal. Distribusi normal memiliki bentuk kurva lonjong simetris yang dikenal sebagai kurva lonceng.
Karakteristik utama dari distribusi normal adalah bahwa nilai-nilai datanya terpusat di sekitar nilai rata-rata (mean) dan tersebar secara simetris di kedua sisi mean. Dalam distribusi normal, mean, median, dan modus semuanya memiliki nilai yang sama. Kurva normal juga ditentukan oleh dua parameter: mean (μ) dan standar deviasi (σ). Mean menunjukkan pusat distribusi, sementara standar deviasi mengukur seberapa jauh data tersebar dari mean.
Distribusi normal memiliki banyak aplikasi dalam analisis statistik. Misalnya, distribusi ini sering digunakan dalam uji hipotesis, estimasi interval, dan prediksi dalam berbagai bidang seperti ekonomi, ilmu sosial, ilmu alam, dan keuangan. Selain itu, distribusi normal juga menjadi dasar bagi banyak metode statistik yang lebih lanjut, seperti uji z, uji t, dan analisis regresi.
Pemahaman tentang distribusi normal sangat penting karena memungkinkan kita untuk membuat inferensi tentang populasi berdasarkan sampel yang diambil. Dengan menggunakan prinsip distribusi normal, kita dapat melakukan berbagai analisis statistik yang memberikan wawasan yang berharga tentang data yang diamati.
C. Distribusi Binomial
Distribusi binomial adalah salah satu distribusi peluang yang paling umum digunakan dalam statistik. Distribusi ini muncul ketika ada dua hasil yang mungkin dari suatu percobaan, seperti sukses atau gagal, ya atau tidak, hadir atau tidak hadir. Distribusi binomial sering digunakan untuk menghitung probabilitas sukses dalam serangkaian uji coba independen yang memiliki probabilitas kesuksesan yang sama.
Karakteristik utama dari distribusi binomial adalah bahwa setiap percobaan memiliki hanya dua hasil yang mungkin: sukses atau gagal. Misalnya, melempar koin adalah contoh klasik dari percobaan binomial di mana hasilnya bisa kepala atau ekor. Distribusi binomial ditentukan oleh dua parameter: jumlah percobaan (n) dan probabilitas keberhasilan (p).
Salah satu aplikasi paling umum dari distribusi binomial adalah dalam teori peluang dan statistik inferensial, di mana digunakan untuk menghitung probabilitas sukses dalam serangkaian percobaan independen. Distribusi ini juga sering digunakan dalam berbagai bidang, termasuk ilmu sosial, biologi, ekonomi, dan teknik.
Dalam analisis statistik, distribusi binomial memberikan dasar untuk berbagai teknik inferensial, seperti uji hipotesis, estimasi interval, dan analisis regresi. Dengan memahami prinsip distribusi binomial, kita dapat membuat prediksi yang akurat tentang hasil percobaan berulang dan mengambil keputusan yang didasarkan pada probabilitasnya.
D. Distribusi Poisson
Distribusi Poisson adalah distribusi probabilitas yang menggambarkan jumlah peristiwa langka yang terjadi dalam interval waktu atau ruang tertentu. Distribusi ini sering digunakan untuk memodelkan kejadian yang jarang terjadi namun memiliki tingkat kejadian yang stabil dalam jangka waktu tertentu.
Distribusi Poisson didefinisikan oleh satu parameter, yaitu λ (lambda), yang mewakili rata-rata jumlah peristiwa yang terjadi dalam interval waktu atau ruang yang diberikan. Distribusi ini memiliki beberapa sifat khas, termasuk bahwa nilai harapan (mean) dan variansnya sama dan distribusi tersebut berkelok-kelok ke kanan jika nilai λ meningkat.
Contoh umum penggunaan distribusi Poisson adalah dalam pemodelan kejadian jarang seperti jumlah panggilan masuk ke pusat panggilan dalam satu jam, jumlah kecelakaan lalu lintas di suatu persimpangan dalam sehari, atau jumlah partikel radioaktif yang terurai dalam satu detik. Distribusi ini juga digunakan dalam berbagai bidang ilmu, termasuk ilmu ekonomi, biologi, fisika, dan teknik.
Dalam analisis data, distribusi Poisson sering digunakan untuk membuat perkiraan tentang kemungkinan frekuensi peristiwa langka dalam interval waktu atau ruang tertentu. Dengan memahami distribusi Poisson, para peneliti dan praktisi dapat membuat prediksi yang akurat tentang kejadian jarang dan mengambil tindakan yang sesuai berdasarkan hasil analisis probabilistik.
V. Uji Hipotesis #
A. Pengantar Uji Hipotesis
Uji hipotesis adalah prosedur statistik yang digunakan untuk membuat keputusan tentang pernyataan atau asumsi yang dibuat tentang parameter populasi berdasarkan data sampel. Tujuan utama dari uji hipotesis adalah untuk menentukan apakah perbedaan atau hubungan antara kelompok atau variabel yang diamati adalah signifikan secara statistik, atau apakah perbedaan tersebut hanya terjadi secara kebetulan.
Proses uji hipotesis melibatkan dua pernyataan, yaitu hipotesis nol (H0) dan hipotesis alternatif (H1). Hipotesis nol adalah pernyataan yang diajukan tanpa bukti atau asumsi awal bahwa tidak ada efek atau perbedaan yang signifikan antara kelompok atau variabel yang diuji. Hipotesis alternatif, di sisi lain, adalah pernyataan yang menyatakan adanya efek atau perbedaan yang signifikan.
Langkah-langkah umum dalam uji hipotesis meliputi:
- Merumuskan hipotesis nol (H0) dan hipotesis alternatif (H1).
- Memilih uji statistik yang sesuai berdasarkan jenis data dan distribusinya.
- Mengumpulkan data dan menghitung nilai uji statistik.
- Menentukan nilai signifikansi (alpha) yang digunakan untuk mengambil keputusan.
- Membandingkan nilai uji statistik dengan ambang batas yang ditentukan untuk menentukan apakah hipotesis nol ditolak atau tidak ditolak.
Uji hipotesis digunakan secara luas dalam berbagai bidang, termasuk ilmu sosial, ilmu alam, kedokteran, dan ekonomi. Dengan memahami prinsip-prinsip dasar uji hipotesis, para peneliti dan praktisi dapat membuat kesimpulan yang kuat tentang keberadaan hubungan atau perbedaan dalam data mereka, serta mengambil keputusan yang berdasarkan bukti statistik yang solid.
B. Langkah-langkah Uji Hipotesis
Langkah-langkah dalam melakukan uji hipotesis melibatkan serangkaian prosedur yang sistematis untuk memastikan validitas analisis statistik. Berikut adalah langkah-langkah umum yang terlibat dalam melakukan uji hipotesis:
-
Merumuskan Hipotesis: Langkah pertama dalam uji hipotesis adalah merumuskan hipotesis nol (H0) dan hipotesis alternatif (H1). Hipotesis nol adalah pernyataan yang diajukan tanpa bukti, sementara hipotesis alternatif adalah pernyataan yang menyatakan adanya efek atau perbedaan yang signifikan.
-
Menentukan Uji Statistik: Pemilihan uji statistik yang tepat sangat penting untuk menjalankan analisis dengan benar. Ini bergantung pada jenis data yang diamati dan tujuan dari pengujian hipotesis.
-
Menentukan Nilai Signifikansi: Sebelum melakukan uji statistik, penting untuk menentukan nilai signifikansi (alpha) yang digunakan untuk mengambil keputusan. Nilai alpha adalah ambang batas yang digunakan untuk menentukan apakah hasil pengujian statistik signifikan secara statistik atau tidak.
-
Mengumpulkan dan Menganalisis Data: Langkah ini melibatkan pengumpulan data yang relevan dan analisis data menggunakan uji statistik yang telah dipilih.
-
Menghitung Statistik Uji: Setelah data terkumpul, statistik uji yang sesuai dihitung berdasarkan rumus yang sesuai dengan uji statistik yang digunakan.
-
Mengambil Keputusan: Nilai uji statistik kemudian dibandingkan dengan nilai kritis yang ditentukan berdasarkan alpha yang telah dipilih. Jika nilai uji statistik lebih besar dari nilai kritis, hipotesis nol ditolak, dan kita menerima hipotesis alternatif. Namun, jika nilai uji statistik tidak melebihi nilai kritis, kita gagal menolak hipotesis nol.
-
Interpretasi Hasil: Langkah terakhir adalah menginterpretasikan hasil uji hipotesis dan membuat kesimpulan berdasarkan temuan statistik.
Dengan mengikuti langkah-langkah ini, para peneliti dapat melakukan uji hipotesis dengan benar dan mengambil kesimpulan yang valid berdasarkan bukti statistik yang solid.
C. Uji T (T-Test)
Uji t, atau t-test, adalah salah satu teknik statistik yang paling umum digunakan untuk membandingkan rata-rata antara dua kelompok data. Ini adalah alat yang kuat untuk menentukan apakah perbedaan antara dua kelompok adalah hasil kebetulan atau benar-benar signifikan secara statistik. Uji t tersedia dalam dua bentuk: uji t satu-sampel dan uji t dua-sampel.
Uji T Satu-Sampel: Uji t satu-sampel digunakan ketika kita ingin membandingkan rata-rata sampel dengan nilai rata-rata yang diketahui atau hipotesis nol tertentu. Misalnya, kita dapat menggunakan uji t satu-sampel untuk menentukan apakah rata-rata kinerja siswa dalam ujian lebih tinggi dari nilai rata-rata kelas secara umum.
Uji T Dua-Sampel: Uji t dua-sampel digunakan untuk membandingkan dua kelompok independen atau tidak berpasangan. Ini adalah alat yang sering digunakan untuk menguji apakah ada perbedaan signifikan antara dua kelompok yang berbeda, seperti kelompok kontrol dan kelompok perlakuan dalam eksperimen ilmiah.
Langkah-Langkah dalam Melakukan Uji T:
-
Merumuskan Hipotesis: Seperti pada uji hipotesis lainnya, langkah pertama adalah merumuskan hipotesis nol dan hipotesis alternatif.
-
Memilih Jenis Uji T: Berdasarkan jenis data dan desain eksperimen, kita memilih apakah akan menggunakan uji t satu-sampel, uji t dua-sampel, atau salah satu dari variasi lainnya.
-
Mengumpulkan Data: Data harus dikumpulkan dari kedua kelompok dengan hati-hati dan dengan metode yang konsisten.
-
Menghitung Statistik Uji: Setelah data terkumpul, statistik uji t dihitung berdasarkan rumus yang sesuai dengan jenis uji t yang digunakan.
-
Menginterpretasi Hasil: Nilai t yang dihitung kemudian dibandingkan dengan nilai kritis yang sesuai dari tabel distribusi t untuk menentukan apakah perbedaan antara dua kelompok adalah signifikan secara statistik.
Uji t adalah alat yang berguna dan fleksibel dalam statistik inferensial yang dapat digunakan untuk berbagai macam aplikasi dalam penelitian ilmiah dan analisis data.
D. Uji Chi-Square
Uji Chi-Square adalah teknik statistik non-parametrik yang digunakan untuk menentukan apakah terdapat hubungan antara dua variabel kategorikal. Ini sering digunakan untuk menguji independensi antara dua variabel dalam tabel kontingensi. Dalam konteks uji hipotesis, uji Chi-Square membantu kita menentukan apakah distribusi frekuensi dari dua variabel independen berbeda secara signifikan.
Langkah-Langkah dalam Melakukan Uji Chi-Square:
-
Merumuskan Hipotesis: Seperti pada uji hipotesis lainnya, langkah pertama adalah merumuskan hipotesis nol dan hipotesis alternatif. Hipotesis nol menyatakan bahwa tidak ada hubungan antara dua variabel, sementara hipotesis alternatif menyatakan bahwa ada hubungan antara keduanya.
-
Membuat Tabel Kontingensi: Data dikumpulkan dan disusun dalam bentuk tabel kontingensi, yang menggambarkan distribusi frekuensi dari dua variabel kategorikal.
-
Menghitung Nilai Chi-Square: Setelah tabel kontingensi dibuat, nilai Chi-Square dihitung berdasarkan rumus yang sesuai dengan jenis tabel dan jumlah variabel. Rumus Chi-Square menghitung seberapa jauh distribusi frekuensi yang diamati dari distribusi yang diharapkan jika hipotesis nol benar.
-
Menghitung Derajat Kebebasan: Derajat kebebasan dihitung berdasarkan jumlah variabel dalam tabel kontingensi.
-
Menginterpretasi Hasil: Nilai Chi-Square yang dihitung kemudian dibandingkan dengan nilai kritis dari distribusi Chi-Square untuk menentukan apakah terdapat hubungan yang signifikan antara dua variabel. Jika nilai Chi-Square yang dihitung lebih besar dari nilai kritis, kita menolak hipotesis nol dan menyimpulkan bahwa terdapat hubungan antara kedua variabel.
Uji Chi-Square adalah alat yang kuat dalam analisis statistik untuk menguji hubungan antara variabel kategorikal dan sering digunakan dalam berbagai bidang, termasuk ilmu sosial, kedokteran, dan ilmu biologi.
VI. Korelasi dan Regresi #
A. Pengantar Korelasi dan Regresi
Korelasi dan regresi adalah dua konsep penting dalam statistik yang digunakan untuk memahami hubungan antara dua atau lebih variabel. Meskipun keduanya berbeda dalam tujuan dan metode analisis, keduanya membantu kita memahami bagaimana satu variabel berhubungan dengan variabel lainnya.
Korelasi mengukur kekuatan dan arah hubungan antara dua variabel numerik. Metrik korelasi seperti koefisien korelasi Pearson memberikan informasi tentang sejauh mana perubahan dalam satu variabel berkaitan dengan perubahan dalam variabel lainnya. Korelasi bisa positif, negatif, atau tidak ada hubungan sama sekali.
Regresi, di sisi lain, adalah metode untuk memodelkan hubungan antara satu atau lebih variabel independen (predictor) dan satu variabel dependen (target). Tujuannya adalah untuk memahami bagaimana perubahan dalam variabel independen mempengaruhi variabel dependen. Regresi linear adalah jenis regresi yang paling umum, di mana hubungan antara variabel dijelaskan dengan menggunakan garis lurus.
Korelasi dan regresi adalah alat yang sangat penting dalam analisis data dan digunakan dalam berbagai konteks, mulai dari ilmu sosial dan ekonomi hingga ilmu alam dan kesehatan. Dengan menggunakan teknik ini, kita dapat mengidentifikasi pola, memprediksi tren, dan membuat keputusan yang lebih baik berdasarkan data yang ada.
B. Korelasi Pearson
Korelasi Pearson, juga dikenal sebagai koefisien korelasi Pearson, adalah metode yang paling umum digunakan untuk mengukur korelasi antara dua variabel numerik. Koefisien korelasi Pearson berkisar antara -1 hingga 1, di mana nilai 1 menunjukkan hubungan linier positif sempurna, nilai -1 menunjukkan hubungan linier negatif sempurna, dan nilai 0 menunjukkan tidak ada hubungan linier antara dua variabel.
Formula untuk koefisien korelasi Pearson adalah:
\[ r = \frac{{\sum (x_i - \bar{x})(y_i - \bar{y})}}{{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}} \]
di mana \( r \) adalah koefisien korelasi, \( x_i \) dan \( y_i \) adalah nilai dari variabel pertama dan kedua, \( \bar{x} \) dan \( \bar{y} \) adalah rata-rata dari variabel pertama dan kedua, dan \( \sum \) menunjukkan penjumlahan dari semua data.
Koefisien korelasi Pearson memberikan informasi tentang sejauh mana hubungan antara dua variabel adalah linear. Namun, penting untuk diingat bahwa korelasi tidak menyiratkan kausalitas. Dua variabel dapat berkorelasi tinggi tanpa memiliki hubungan sebab-akibat yang sebenarnya.
Penggunaan korelasi Pearson sangat umum dalam berbagai bidang, termasuk ilmu sosial, ekonomi, ilmu alam, dan kedokteran. Dengan memahami tingkat korelasi antara variabel, analis dapat membuat keputusan yang lebih baik berdasarkan data dan membuat prediksi tentang perilaku masa depan.
C. Regresi Linier
Regresi linier adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen (variabel respons) dan satu atau lebih variabel independen (variabel prediktor). Tujuannya adalah untuk menemukan garis lurus terbaik yang sesuai dengan data observasi.
Model regresi linier dinyatakan dalam bentuk persamaan matematika \(Y = a + bX + \varepsilon\), di mana \(Y\) adalah variabel dependen, \(X\) adalah variabel independen, \(a\) adalah intercept, \(b\) adalah koefisien regresi, dan \(\varepsilon\) adalah kesalahan acak.
Terdapat dua jenis regresi linier: regresi linier sederhana, di mana hanya ada satu variabel independen, dan regresi linier berganda, di mana ada lebih dari satu variabel independen.
Proses untuk membangun model regresi linier melibatkan menemukan nilai koefisien \(a\) dan \(b\) yang memberikan garis terbaik yang sesuai dengan data observasi. Hal ini sering dilakukan dengan menggunakan metode kuadrat terkecil, di mana kesalahan kuadrat dari jarak antara titik data dan garis regresi diminimalkan.
Regresi linier adalah salah satu teknik yang paling umum digunakan dalam analisis data karena sederhana dan mudah diinterpretasikan. Ini digunakan dalam berbagai aplikasi, termasuk ekonomi, ilmu sosial, ilmu alam, dan bisnis, untuk membuat prediksi dan memahami hubungan antara variabel.
D. Regresi Logistik
Regresi logistik adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen (prediktor) dan variabel dependen biner (variabel respons), yang hanya memiliki dua nilai kategorikal. Tujuannya adalah untuk memprediksi probabilitas terjadinya kejadian dalam kategori yang ditentukan.
Model regresi logistik menggunakan fungsi logistik untuk mentransformasikan output linier dari variabel prediktor menjadi probabilitas yang berkisar antara 0 dan 1. Fungsi logistik atau sigmoid function memiliki bentuk \(P(Y=1) = \frac{1}{1 + e^{-z}}\), di mana \(P(Y=1)\) adalah probabilitas kejadian terjadi, \(z\) adalah fungsi linear dari variabel prediktor, dan \(e\) adalah bilangan Euler.
Proses pembuatan model regresi logistik melibatkan estimasi koefisien yang terbaik sesuai dengan data observasi. Ini biasanya dilakukan dengan menggunakan teknik optimasi seperti metode maksimum likelihood.
Regresi logistik sering digunakan dalam berbagai bidang, termasuk ilmu kedokteran, ilmu sosial, ilmu politik, dan bisnis, untuk membuat prediksi dan mengidentifikasi faktor-faktor yang berkontribusi terhadap kejadian tertentu. Misalnya, dalam kedokteran, regresi logistik digunakan untuk memprediksi risiko penyakit berdasarkan faktor-faktor risiko tertentu. Dalam bisnis, itu digunakan untuk memprediksi apakah pelanggan akan membeli produk tertentu berdasarkan karakteristik demografis mereka.
VII. Pengantar ke Machine Learning #
A. Hubungan antara Statistik dan Machine Learning
Statistik dan machine learning adalah dua bidang yang saling terkait erat dan saling melengkapi. Meskipun memiliki pendekatan yang berbeda, keduanya digunakan untuk mengekstraksi pengetahuan dari data. Statistik fokus pada pemahaman tentang populasi berdasarkan sampel data yang diambil, sementara machine learning berfokus pada pengembangan algoritma yang memungkinkan komputer untuk belajar dari data dan membuat prediksi atau keputusan tanpa secara eksplisit diprogram.
Machine learning sering kali bergantung pada prinsip-prinsip statistik dalam pengembangannya. Misalnya, banyak algoritma machine learning menggunakan teknik statistik seperti regresi, clustering, dan uji hipotesis sebagai bagian dari proses pembelajaran dan evaluasi. Selain itu, pemahaman yang kuat tentang konsep dasar statistik seperti probabilitas, distribusi, dan inferensi sangat penting dalam analisis dan interpretasi hasil dari model machine learning.
Di sisi lain, machine learning juga memberikan kontribusi signifikan terhadap kemajuan dalam statistik. Metode machine learning, seperti algoritma deep learning, telah memungkinkan peningkatan dalam pemrosesan data yang kompleks dan analisis pola yang rumit yang mungkin sulit untuk dipahami dengan metode statistik konvensional.
Kombinasi antara statistik dan machine learning memungkinkan pengembangan model yang lebih canggih dan prediktif, yang dapat digunakan untuk memecahkan berbagai masalah di berbagai bidang seperti ilmu data, kecerdasan buatan, ilmu sosial, kedokteran, dan lain-lain. Dengan mengintegrasikan pengetahuan dan teknik dari kedua bidang ini, kita dapat memperoleh pemahaman yang lebih dalam tentang data dan membuat keputusan yang lebih baik dalam dunia yang semakin didorong oleh informasi.
B. Peran Statistik dalam Pemodelan dan Evaluasi Model
Statistik memiliki peran yang sangat penting dalam pemodelan dan evaluasi model dalam konteks machine learning. Salah satu tahapan penting dalam pengembangan model adalah pemilihan variabel atau fitur yang paling relevan untuk digunakan. Di sinilah konsep statistik seperti analisis regresi, analisis multivariat, dan teknik reduksi dimensi menjadi kritis. Statistik membantu dalam identifikasi variabel yang memiliki hubungan kuat dengan variabel target atau yang memberikan informasi yang signifikan dalam memprediksi hasil.
Selain itu, statistik juga digunakan dalam evaluasi kinerja model. Misalnya, konsep seperti validasi silang (cross-validation) adalah teknik statistik yang digunakan untuk mengukur seberapa baik model akan berkinerja pada data baru yang tidak terlihat. Statistik juga digunakan untuk mengukur keakuratan, presisi, recall, dan metrik lainnya yang membantu kita memahami seberapa baik model kita dapat melakukan tugas tertentu.
Selain itu, statistik inferensial memainkan peran penting dalam mengevaluasi signifikansi hasil dari model, khususnya dalam konteks uji hipotesis. Ini membantu kita memahami apakah perbedaan yang diamati antara kelompok atau kondisi adalah hasil kebetulan atau memang ada perbedaan yang signifikan yang dapat diandalkan.
Dengan demikian, integrasi yang tepat antara konsep statistik dan machine learning memastikan bahwa proses pengembangan model tidak hanya didasarkan pada teknik pembelajaran mesin yang canggih, tetapi juga diimbangi dengan kehati-hatian statistik yang diperlukan untuk menghasilkan model yang dapat diandalkan dan bermanfaat secara praktis.