- Blog/
Pengantar Statistik untuk Data Science - Bagian 1
Table of Contents
Pengantar Statistik untuk Data Science - This article is part of a series.
I. Pendahuluan #
Statistik adalah cabang ilmu yang berhubungan dengan pengumpulan, analisis, interpretasi, dan penyajian data. Ini adalah alat penting yang digunakan untuk memahami fenomena yang diamati dalam berbagai bidang, mulai dari ilmu sosial hingga ilmu alam, dari bisnis hingga teknik. Dengan statistik, kita dapat membuat keputusan yang lebih baik berdasarkan data yang tersedia, mengidentifikasi tren, dan membuat prediksi tentang masa depan. Statistik memungkinkan kita untuk mengubah data mentah menjadi informasi yang bermakna, sehingga memudahkan pemahaman tentang pola dan hubungan yang ada dalam data.
Dalam konteks data science, statistik memiliki peran yang sangat penting. Data science adalah bidang interdisipliner yang menggunakan metode, proses, algoritma, dan sistem ilmiah untuk mengekstraksi pengetahuan dan wawasan dari data dalam berbagai bentuk. Statistik menyediakan dasar matematis dan metodologis untuk banyak teknik yang digunakan dalam data science, termasuk analisis data eksploratif, pemodelan prediktif, dan machine learning. Oleh karena itu, pemahaman yang kuat tentang konsep statistik adalah kunci untuk berhasil dalam data science.
Pada artikel ini, kita akan menjelajahi dasar-dasar statistik yang paling relevan untuk data science. Kita akan membahas berbagai konsep dan metode statistik, mulai dari ukuran pusat (mean, median dan modus) dan penyebaran (Rentang, Varians, Deviasi Standar) hingga distribusi peluang dan uji hipotesis. Selain itu, kita akan melihat bagaimana statistik digunakan dalam analisis data dan pemodelan dalam data science. Artikel ini dirancang untuk memberikan landasan yang kuat dalam statistik bagi siapa saja yang tertarik dalam data science, baik pemula maupun praktisi yang ingin memperdalam pemahaman mereka tentang topik ini.
II. Dasar-dasar Statistik #
A. Pengertian Statistik
Statistik adalah bidang ilmu yang berkaitan dengan pengumpulan, analisis, interpretasi, presentasi, dan pengorganisasian data. Ilmu statistik memungkinkan kita untuk memahami fenomena berdasarkan data yang dikumpulkan dan membantu dalam pengambilan keputusan yang didasarkan pada bukti empiris. Statistik berperan penting dalam berbagai bidang, seperti ekonomi, kedokteran, psikologi, pendidikan, dan tentu saja, data science.
Dalam data science, statistik digunakan untuk berbagai tujuan. Salah satunya adalah untuk menganalisis data secara eksploratif, yang berarti mengidentifikasi pola, tren, dan anomali dalam dataset. Misalnya, dengan menggunakan statistik deskriptif, seorang data scientist dapat menggambarkan karakteristik utama dari data, seperti rata-rata, median, dan varians. Selain itu, statistik inferensial memungkinkan data scientist untuk membuat prediksi dan kesimpulan tentang populasi yang lebih besar berdasarkan sampel data. Ini sangat berguna dalam berbagai aplikasi, mulai dari survei pasar hingga uji klinis obat.
Selain itu, statistik juga mencakup penggunaan berbagai model matematis dan algoritma untuk memecahkan masalah nyata. Misalnya, regresi linear adalah salah satu teknik statistik yang digunakan untuk memprediksi nilai kontinu berdasarkan variabel independen. Dengan alat statistik yang tepat, data scientist dapat mengembangkan model prediktif yang akurat, mengoptimalkan proses bisnis, dan bahkan mengidentifikasi hubungan kausalitas dalam data yang kompleks. Dalam konteks ini, statistik memberikan fondasi yang kuat untuk pengembangan solusi berbasis data yang efektif dan efisien.
B. Populasi dan Sampel
Dalam statistik, memahami konsep populasi dan sampel adalah dasar yang sangat penting. Populasi merujuk pada seluruh kelompok individu, objek, atau peristiwa yang memiliki karakteristik tertentu yang menjadi fokus penelitian. Misalnya, jika kita ingin mengetahui rata-rata tinggi badan orang dewasa di suatu negara, maka seluruh orang dewasa di negara tersebut merupakan populasi. Dalam banyak kasus, populasi bisa sangat besar atau bahkan tidak terbatas, sehingga mengumpulkan data dari seluruh populasi seringkali tidak praktis atau bahkan tidak mungkin.
Karena keterbatasan ini, seringkali kita menggunakan sampel, yaitu subset dari populasi yang dipilih untuk mewakili keseluruhan populasi. Sampel harus dipilih dengan hati-hati agar representatif, yang berarti karakteristiknya harus mencerminkan karakteristik populasi. Misalnya, jika kita mengambil sampel untuk mengetahui rata-rata tinggi badan, kita harus memastikan bahwa sampel tersebut mencakup variasi tinggi badan yang ada dalam populasi, termasuk variasi dalam usia, jenis kelamin, dan latar belakang lainnya.
Ada berbagai metode pengambilan sampel yang dapat digunakan untuk memastikan representativitas, seperti sampel acak sederhana, sampel stratifikasi, dan sampel sistematis. Metode ini dirancang untuk mengurangi bias dan memberikan hasil yang lebih akurat dan dapat diandalkan. Misalnya, dalam sampel acak sederhana, setiap anggota populasi memiliki peluang yang sama untuk dipilih, yang membantu dalam menghindari bias seleksi. Dalam sampel stratifikasi, populasi dibagi menjadi strata atau kelompok, dan sampel acak diambil dari setiap strata untuk memastikan semua kelompok terwakili.
Penggunaan sampel yang representatif memungkinkan data scientist untuk membuat inferensi atau kesimpulan tentang populasi dengan menggunakan teknik statistik inferensial. Misalnya, dengan menggunakan metode estimasi interval, kita dapat memperkirakan parameter populasi seperti rata-rata atau proporsi dengan tingkat kepercayaan tertentu. Ini memungkinkan kita untuk menggeneralize temuan dari sampel ke populasi secara keseluruhan, yang sangat penting dalam banyak aplikasi praktis, mulai dari penelitian ilmiah hingga pengambilan keputusan bisnis. Oleh karena itu, pemahaman yang mendalam tentang populasi dan sampel serta teknik pengambilan sampel yang tepat adalah kunci sukses dalam analisis data yang efektif dan akurat.
C. Jenis-jenis Data
Dalam statistik, jenis-jenis data dapat dikategorikan berdasarkan karakteristik dan sifatnya. Memahami jenis-jenis data ini penting karena menentukan metode analisis yang akan digunakan. Secara umum, data dapat dibagi menjadi dua kategori utama: data kuantitatif dan data kualitatif.
1. Data Kuantitatif
Data kuantitatif adalah data yang dapat diukur dan dinyatakan dalam bentuk angka. Data ini terbagi menjadi dua jenis: data diskrit dan data kontinu.
-
Data Diskrit: Data diskrit adalah data yang dapat dihitung dan hanya mengambil nilai tertentu. Contoh data diskrit adalah jumlah anak dalam sebuah keluarga atau jumlah mobil yang dimiliki seseorang. Data ini biasanya dihitung dalam angka bulat dan tidak memiliki nilai desimal.
-
Data Kontinu: Data kontinu adalah data yang dapat diukur dan mengambil nilai dalam rentang tertentu. Data ini mencakup semua nilai dalam rentang tersebut, termasuk nilai desimal. Contoh data kontinu adalah tinggi badan, berat badan, dan waktu. Data ini dapat diukur dengan tingkat ketelitian yang berbeda, tergantung pada alat ukur yang digunakan.
2. Data Kualitatif
Data kualitatif adalah data yang tidak dinyatakan dalam bentuk angka melainkan dalam bentuk kategori atau label. Data ini dapat dibagi menjadi dua jenis: data nominal dan data ordinal.
-
Data Nominal: Data nominal adalah data kualitatif yang digunakan untuk mengklasifikasikan objek ke dalam kategori yang berbeda tanpa adanya urutan atau peringkat. Contoh data nominal adalah jenis kelamin (laki-laki atau perempuan), warna mata (biru, hijau, cokelat), atau jenis pekerjaan (dokter, guru, insinyur).
-
Data Ordinal: Data ordinal adalah data kualitatif yang memiliki kategori dengan urutan atau peringkat tertentu. Meskipun data ini menunjukkan urutan, perbedaan antara kategori tidak memiliki nilai yang pasti. Contoh data ordinal adalah tingkat kepuasan (sangat puas, puas, netral, tidak puas, sangat tidak puas) atau tingkat pendidikan (SD, SMP, SMA, sarjana, pascasarjana).
3. Data Interval dan Data Rasio
Selain dua kategori utama di atas, data kuantitatif juga dapat dibedakan lebih lanjut menjadi data interval dan data rasio berdasarkan sifat skala pengukurannya.
-
Data Interval: Data interval adalah data kuantitatif yang memiliki jarak yang sama antara nilai-nilainya, namun tidak memiliki titik nol yang absolut. Contoh data interval adalah suhu dalam derajat Celsius atau Fahrenheit. Pada skala ini, 0 derajat tidak berarti ketiadaan suhu.
-
Data Rasio: Data rasio adalah data kuantitatif yang memiliki jarak yang sama antara nilai-nilainya dan memiliki titik nol yang absolut. Contoh data rasio adalah berat, tinggi, dan umur. Pada skala ini, 0 berarti ketiadaan yang sesungguhnya, dan perbandingan antara nilai-nilai memiliki makna yang sebenarnya (misalnya, 20 kg adalah dua kali lebih berat dari 10 kg).
Memahami jenis-jenis data ini sangat penting karena mempengaruhi pemilihan teknik analisis statistik yang tepat. Data kuantitatif sering dianalisis menggunakan statistik deskriptif seperti mean dan standar deviasi, serta teknik inferensial seperti regresi dan uji t. Sementara itu, data kualitatif sering dianalisis menggunakan frekuensi dan proporsi, serta teknik seperti chi-square. Dengan memahami jenis data yang dihadapi, seorang data scientist dapat merancang dan menerapkan metode analisis yang paling sesuai untuk mendapatkan hasil yang akurat dan bermakna.
D. Ukuran Pusat (Mean, Median, Modus)
Ukuran pusat merupakan salah satu konsep penting dalam statistik yang digunakan untuk menggambarkan letak atau posisi sentral dari suatu kumpulan data. Ada tiga ukuran pusat yang umum digunakan, yaitu mean (rata-rata), median, dan modus. Masing-masing ukuran pusat ini memiliki karakteristik dan kegunaan yang berbeda tergantung pada jenis data dan tujuan analisis.
1. Mean (Rata-rata)
Mean adalah nilai rata-rata dari sekumpulan data dan merupakan ukuran pusat yang paling umum digunakan. Mean dihitung dengan menjumlahkan semua nilai data kemudian membagi jumlah tersebut dengan banyaknya data. Rumus mean adalah:
\[ \text{Mean} = \frac{\sum X_i}{n} \]
di mana \(\sum X_i\) adalah jumlah dari semua nilai data dan \(n\) adalah banyaknya data. Contoh, jika kita memiliki data nilai ujian dari lima siswa: 70, 80, 90, 85, dan 95, maka mean dari nilai tersebut adalah:
\[ \text{Mean} = \frac{70 + 80 + 90 + 85 + 95}{5} = 84 \]
Mean sangat sensitif terhadap nilai ekstrem atau outlier. Jika ada nilai yang sangat tinggi atau sangat rendah dalam data, mean bisa terpengaruh dan mungkin tidak mewakili distribusi data dengan baik.
2. Median
Median adalah nilai tengah dari sekumpulan data yang telah diurutkan. Jika jumlah data ganjil, median adalah nilai di tengah-tengah; jika jumlah data genap, median adalah rata-rata dari dua nilai tengah. Untuk menghitung median, data pertama-tama diurutkan dari yang terkecil hingga terbesar, kemudian nilai tengah diidentifikasi. Contoh, untuk data nilai ujian: 70, 80, 90, 85, 95, setelah diurutkan menjadi 70, 80, 85, 90, 95, median adalah 85. Jika data adalah 70, 80, 90, 85, 95, 100, setelah diurutkan menjadi 70, 80, 85, 90, 95, 100, median adalah:
\[ \text{Median} = \frac{85 + 90}{2} = 87.5 \]
Median tidak terpengaruh oleh nilai ekstrem sehingga lebih stabil sebagai ukuran pusat ketika data memiliki outlier.
3. Modus
Modus adalah nilai yang paling sering muncul dalam sekumpulan data. Modus dapat digunakan untuk data kuantitatif dan kualitatif. Satu set data mungkin memiliki satu modus (unimodal), dua modus (bimodal), atau lebih dari dua modus (multimodal). Contoh, jika kita memiliki data nilai ujian: 70, 80, 90, 80, 85, modus dari nilai tersebut adalah 80 karena muncul dua kali, lebih sering daripada nilai lainnya.
Modus sangat berguna ketika kita ingin mengetahui nilai yang paling umum atau paling sering muncul dalam data. Namun, dalam beberapa kasus, data mungkin tidak memiliki modus jika tidak ada nilai yang berulang, atau sebaliknya, bisa memiliki banyak modus jika beberapa nilai muncul dengan frekuensi yang sama.
Kesimpulan
Setiap ukuran pusat—mean, median, dan modus—memiliki kelebihan dan kekurangannya sendiri. Mean memberikan gambaran umum yang baik tentang lokasi pusat data, tetapi bisa terpengaruh oleh nilai ekstrem. Median menawarkan representasi yang lebih stabil di hadapan outlier, dan modus mengidentifikasi nilai yang paling umum dalam data. Memilih ukuran pusat yang tepat bergantung pada karakteristik data dan tujuan analisis, sehingga memahami perbedaan dan penggunaan masing-masing sangat penting dalam statistik dan data science.
E. Ukuran Penyebaran (Rentang, Varians, Deviasi Standar)
Ukuran penyebaran adalah konsep penting dalam statistik yang digunakan untuk menggambarkan seberapa tersebar data dalam suatu dataset. Ukuran ini memberikan informasi tambahan yang tidak bisa diperoleh dari ukuran pusat (mean, median, modus). Tiga ukuran penyebaran yang umum digunakan adalah rentang, varians, dan deviasi standar. Masing-masing ukuran ini membantu untuk memahami distribusi data dengan lebih baik.
1. Rentang (Range)
Rentang adalah selisih antara nilai maksimum dan nilai minimum dalam suatu dataset. Rentang memberikan gambaran kasar tentang sebaran data, namun sangat sensitif terhadap nilai ekstrem atau outlier. Rumus rentang adalah:
\[ \text{Rentang} = X_{\text{maks}} - X_{\text{min}} \]
Contoh, jika kita memiliki data nilai ujian: 70, 80, 90, 85, 95, maka rentangnya adalah:
\[ \text{Rentang} = 95 - 70 = 25 \]
Meskipun rentang memberikan informasi dasar tentang penyebaran data, itu tidak memberikan gambaran tentang distribusi data di antara nilai-nilai minimum dan maksimum.
2. Varians
Varians mengukur seberapa jauh masing-masing nilai dalam dataset dari mean. Varians adalah rata-rata dari kuadrat selisih setiap nilai data terhadap mean. Rumus varians untuk populasi dan sampel berbeda sedikit:
Untuk populasi:
\[ \sigma^2 = \frac{\sum (X_i - \mu)^2}{N} \]
Untuk sampel:
\[ s^2 = \frac{\sum (X_i - \bar{X})^2}{n - 1} \]
di mana \(\mu\) adalah mean populasi, \(\bar{X}\) adalah mean sampel, \(N\) adalah jumlah populasi, dan \(n\) adalah jumlah sampel. Contoh, jika kita memiliki data nilai ujian: 70, 80, 90, 85, 95, dan mean (\(\bar{X}\)) adalah 84, maka variansnya adalah:
$$ \begin{align} s^2 &= \frac{(70-84)^2 + (80-84)^2 + (90-84)^2 + (85-84)^2 + (95-84)^2}{5-1} \nonumber \\ &= \frac{196 + 16 + 36 + 1 + 121}{4} \nonumber \\ &= 92.5 \nonumber \end{align} $$
Varians memberikan gambaran yang lebih rinci tentang penyebaran data dibandingkan rentang, tetapi hasilnya dalam satuan kuadrat yang mungkin sulit diinterpretasikan.
3. Deviasi Standar
Deviasi standar adalah akar kuadrat dari varians dan memberikan ukuran sebaran yang berada dalam satuan yang sama dengan data asli, sehingga lebih mudah diinterpretasikan. Rumus deviasi standar untuk populasi dan sampel adalah:
Untuk populasi:
\[ \sigma = \sqrt{\frac{\sum (X_i - \mu)^2}{N}} \]
Untuk sampel:
\[ s = \sqrt{\frac{\sum (X_i - \bar{X})^2}{n - 1}} \]
Dengan data yang sama seperti sebelumnya, deviasi standar sampelnya adalah:
\[ s = \sqrt{92.5} \approx 9.62 \]
Deviasi standar memberikan informasi yang sangat berguna tentang seberapa tersebar nilai-nilai data di sekitar mean. Data dengan deviasi standar kecil menunjukkan bahwa nilai-nilai data cenderung dekat dengan mean, sedangkan deviasi standar yang besar menunjukkan bahwa nilai-nilai data lebih tersebar luas.
Kesimpulan
Ukuran penyebaran seperti rentang, varians, dan deviasi standar memberikan wawasan penting tentang distribusi data dalam suatu dataset. Rentang memberikan gambaran kasar tentang sebaran data, tetapi sangat dipengaruhi oleh outlier. Varians memberikan ukuran yang lebih rinci tentang sebaran data dari mean, namun sulit diinterpretasikan karena satuannya dalam bentuk kuadrat. Deviasi standar, sebagai akar kuadrat dari varians, menyediakan ukuran yang lebih mudah dipahami dan diinterpretasikan. Memahami dan menggunakan ukuran penyebaran ini penting untuk analisis data yang lebih komprehensif dalam statistik dan data science.
III. Visualisasi Data #
A. Pengantar Visualisasi Data
Visualisasi data adalah proses representasi data dalam bentuk grafis seperti grafik, diagram, atau peta. Tujuan utama visualisasi data adalah untuk membantu dalam memahami dan menganalisis data dengan cara yang lebih intuitif dan mudah dimengerti. Dengan visualisasi, pola, tren, dan korelasi yang mungkin tersembunyi dalam data numerik dapat lebih mudah diidentifikasi. Ini sangat penting dalam dunia data science karena memungkinkan para analis dan peneliti untuk mencerna informasi yang kompleks dengan lebih cepat dan membuat keputusan berdasarkan data yang lebih informatif.
Visualisasi data tidak hanya membantu dalam eksplorasi dan analisis data tetapi juga dalam komunikasi hasil analisis kepada orang lain yang mungkin tidak memiliki latar belakang teknis yang kuat. Dalam banyak kasus, visualisasi yang efektif dapat menceritakan sebuah cerita yang kuat yang angka-angka saja tidak bisa sampaikan. Ada berbagai alat dan teknik yang digunakan dalam visualisasi data, mulai dari grafik sederhana hingga visualisasi interaktif yang kompleks.
B. Histogram
Histogram adalah salah satu jenis grafik yang paling umum digunakan dalam visualisasi data. Histogram menampilkan distribusi data numerik dan memberikan gambaran tentang frekuensi atau jumlah kejadian suatu nilai dalam dataset. Ini sangat berguna untuk memahami bagaimana data tersebar, apakah ada skewness, atau apakah ada outlier dalam dataset.
Histogram dibuat dengan membagi rentang nilai data menjadi beberapa interval yang disebut “bin”. Setiap bin mewakili rentang nilai tertentu, dan tinggi dari setiap batang (bar) dalam histogram menunjukkan jumlah observasi dalam bin tersebut. Misalnya, jika kita memiliki data tentang tinggi badan sekelompok orang, histogram dapat menunjukkan berapa banyak orang yang memiliki tinggi badan dalam rentang 150-160 cm, 160-170 cm, dan seterusnya.
Contoh Implementasi Histogram dalam Python:
import matplotlib.pyplot as plt
# Contoh data tinggi badan
data = [150, 152, 160, 162, 165, 170, 172, 175, 180, 182, 185, 190, 192, 195]
# Membuat histogram
plt.hist(data, bins=5, edgecolor='black')
# Menambahkan judul dan label
plt.title('Distribusi Tinggi Badan')
plt.xlabel('Tinggi Badan (cm)')
plt.ylabel('Frekuensi')
# Menampilkan histogram
plt.show()
Dalam contoh di atas, histogram dibuat menggunakan matplotlib
, salah satu pustaka visualisasi data yang populer di Python. Data tinggi badan dibagi menjadi lima bin, dan histogram yang dihasilkan menunjukkan frekuensi data dalam setiap bin. Dengan melihat histogram, kita bisa dengan cepat melihat rentang tinggi badan yang paling umum dalam dataset.
Histogram sangat berguna dalam tahap eksplorasi data awal untuk memahami struktur dasar dari data yang kita miliki. Ini membantu mengidentifikasi pola distribusi seperti apakah data normal, skewed, atau memiliki outlier yang signifikan. Dengan pemahaman yang lebih baik tentang distribusi data, kita bisa memilih metode analisis dan teknik pemodelan yang lebih sesuai untuk data tersebut.
C. Diagram Batang (Bar Chart)
Diagram batang atau bar chart adalah salah satu jenis visualisasi data yang digunakan untuk menampilkan data kategorikal. Dalam bar chart, setiap kategori diwakili oleh sebuah batang, dan tinggi atau panjang batang tersebut sesuai dengan nilai atau frekuensi kategori tersebut. Bar chart sangat efektif untuk membandingkan ukuran atau frekuensi dari beberapa kategori sekaligus.
Bar chart dapat dibuat dalam orientasi vertikal atau horizontal. Batang vertikal biasanya digunakan ketika kategori lebih sedikit atau label kategori pendek, sedangkan batang horizontal lebih efektif untuk kategori dengan nama panjang atau ketika ada banyak kategori yang ditampilkan. Misalnya, bar chart bisa digunakan untuk menampilkan jumlah penjualan berbagai produk dalam sebuah toko selama satu bulan.
Contoh Implementasi Bar Chart dalam Python:
import matplotlib.pyplot as plt
# Contoh data penjualan produk
products = ['Produk A', 'Produk B', 'Produk C', 'Produk D']
sales = [150, 200, 100, 250]
# Membuat bar chart
plt.bar(products, sales, color='blue')
# Menambahkan judul dan label
plt.title('Penjualan Produk Bulan Ini')
plt.xlabel('Produk')
plt.ylabel('Jumlah Penjualan')
# Menampilkan bar chart
plt.show()
Dalam contoh di atas, kita menggunakan matplotlib
untuk membuat bar chart yang menampilkan penjualan empat produk. Tinggi setiap batang menunjukkan jumlah penjualan untuk setiap produk, memungkinkan kita untuk dengan cepat melihat produk mana yang terjual paling banyak dan mana yang paling sedikit.
D. Diagram Lingkaran (Pie Chart)
Diagram lingkaran atau pie chart adalah jenis visualisasi data yang digunakan untuk menampilkan proporsi atau persentase dari keseluruhan data. Diagram ini berbentuk lingkaran yang dibagi menjadi beberapa irisan (slice), masing-masing mewakili kategori data tertentu. Ukuran setiap irisan menunjukkan proporsi kategori tersebut terhadap keseluruhan data. Pie chart sangat efektif untuk menggambarkan bagian-bagian dari keseluruhan dan bagaimana satu bagian dibandingkan dengan bagian lainnya.
Pie chart biasanya digunakan ketika ingin menunjukkan bagaimana keseluruhan dibagi menjadi bagian-bagian yang lebih kecil. Contohnya termasuk penggunaan anggaran, distribusi populasi, atau pangsa pasar dari beberapa perusahaan. Namun, pie chart harus digunakan dengan hati-hati, terutama ketika ada banyak kategori, karena bisa menjadi sulit dibaca dan diinterpretasikan.
Contoh Implementasi Pie Chart dalam Python:
import matplotlib.pyplot as plt
# Contoh data pangsa pasar
companies = ['Perusahaan A', 'Perusahaan B', 'Perusahaan C', 'Perusahaan D']
market_share = [30, 40, 20, 10]
# Membuat pie chart
plt.pie(market_share, labels=companies, autopct='%1.1f%%', startangle=140)
# Menambahkan judul
plt.title('Pangsa Pasar Perusahaan')
# Menampilkan pie chart
plt.show()
Dalam contoh di atas, pie chart dibuat menggunakan matplotlib
untuk menunjukkan pangsa pasar empat perusahaan. Setiap irisan mewakili satu perusahaan, dan ukuran irisannya menunjukkan proporsi pangsa pasar perusahaan tersebut. Fitur autopct='%1.1f%%'
menambahkan persentase pada setiap irisan, sehingga lebih mudah untuk melihat proporsi masing-masing perusahaan.
Pie chart memberikan cara yang jelas dan ringkas untuk menunjukkan bagian-bagian dari keseluruhan, namun untuk perbandingan yang lebih rinci dan lebih banyak kategori, bar chart atau bentuk visualisasi lainnya mungkin lebih efektif. Kedua jenis diagram ini, bar chart dan pie chart, merupakan alat yang penting dalam gudang senjata seorang data scientist untuk menyajikan data dengan cara yang informatif dan mudah dipahami.
III. Visualisasi Data
E. Diagram Pencar (Scatter Plot)
Diagram pencar atau scatter plot adalah jenis visualisasi data yang digunakan untuk menampilkan hubungan antara dua variabel numerik. Setiap titik dalam scatter plot mewakili satu observasi atau data point dalam dataset, dengan sumbu x dan y menunjukkan nilai variabel masing-masing. Scatter plot sangat berguna untuk menemukan pola, korelasi, atau tren dalam data, serta untuk mengidentifikasi outlier atau anomali.
Scatter plot sering digunakan untuk mengeksplorasi korelasi antara dua variabel. Jika titik-titik pada scatter plot mengikuti pola tertentu, seperti bergerak ke arah atas atau ke arah bawah saat variabel lainnya bertambah, maka itu menunjukkan adanya hubungan antara kedua variabel tersebut. Namun, jika titik-titik tersebar acak tanpa pola yang jelas, maka itu menunjukkan tidak adanya korelasi.
Contoh Implementasi Scatter Plot dalam Python:
import matplotlib.pyplot as plt
# Contoh data tinggi dan berat badan
height = [160, 170, 165, 175, 155]
weight = [60, 70, 65, 80, 50]
# Membuat scatter plot
plt.scatter(height, weight, color='blue')
# Menambahkan judul dan label sumbu
plt.title('Hubungan Tinggi dan Berat Badan')
plt.xlabel('Tinggi (cm)')
plt.ylabel('Berat Badan (kg)')
# Menampilkan scatter plot
plt.show()
Dalam contoh di atas, scatter plot digunakan untuk menampilkan hubungan antara tinggi dan berat badan dari beberapa individu. Setiap titik pada scatter plot mewakili satu orang, dengan sumbu x menunjukkan tinggi dan sumbu y menunjukkan berat badan. Jika ada hubungan antara kedua variabel ini, kita mungkin melihat pola atau tren pada scatter plot.
Scatter plot adalah salah satu alat yang paling berguna dalam analisis data eksploratif, karena memungkinkan kita untuk dengan cepat melihat hubungan antara dua variabel dan mengidentifikasi pola atau anomali dalam data. Selain itu, scatter plot juga sering digunakan dalam pemodelan dan prediksi, terutama dalam machine learning, untuk memahami hubungan antara fitur dan target yang ingin diprediksi.
IV. Distribusi Peluang
- A. Pengantar Distribusi Peluang
- B. Distribusi Normal
- C. Distribusi Binomial
- D. Distribusi Poisson
V. Uji Hipotesis
- A. Pengantar Uji Hipotesis
- B. Langkah-langkah Uji Hipotesis
- C. Uji T (T-Test)
- D. Uji Chi-Square
VI. Korelasi dan Regresi
- A. Pengantar Korelasi dan Regresi
- B. Korelasi Pearson
- C. Regresi Linier
- D. Regresi Logistik
VII. Pengantar ke Machine Learning
- A. Hubungan antara Statistik dan Machine Learning
- B. Peran Statistik dalam Pemodelan dan Evaluasi Model
VIII. Kesimpulan
- A. Ringkasan Materi yang Dibahas
- B. Relevansi Statistik dalam Dunia Data Science