Skip to main content
  1. Belajar/
  2. Data Science with Python/
  3. Visualisasi Data Lanjutan dengan Seaborn/

Visualisasi Data Berdasarkan Tipe Variabel

12 mins· loading · loading ·
Statistik Deskriptif dengan Python - This article is part of a series.
Part 4: This Article

Setelah kita memahami dasar-dasar visualisasi dengan Seaborn, kita dapat membahas lebih lanjut bagaimana Seaborn memungkinkan kita untuk memvisualisasikan data berdasarkan tipe variabelnya. Mari pelajari beberapa teknik yang dapat diterapkan.

A. Visualisasi Data Numerik
#

1. Box Plot untuk Variabel Numerik
#

Box plot, atau diagram kotak, adalah plot yang sangat berguna untuk memvisualisasikan distribusi dan statistik deskriptif dari variabel numerik. Plot ini dapat menampilkan median, kuartil, serta mengidentifikasi keberadaan outlier.

Fungsi Box Plot:

  • Menunjukkan sebaran data secara grafis.
  • Memberikan gambaran tentang skewness dan keberadaan outlier.
  • Membandingkan distribusi dari beberapa kategori.

Tujuan Box Plot:

  • Mengidentifikasi keberadaan outlier.
  • Membandingkan sebaran data antara kategori atau grup.

Dengan Seaborn, membuat box plot menjadi lebih mudah dan informatif.

# Box plot untuk sepal length berdasarkan spesies
sns.boxplot(x='species', y='sepal length (cm)', data=iris_df, palette='Set3')
plt.title('Box Plot untuk Sepal Length Berdasarkan Spesies')
plt.show()

Hasilnya:

Dalam contoh ini, kita dapat melihat distribusi sepal length untuk setiap spesies secara jelas dengan menggunakan box plot.

2. Violin Plot untuk Menyajikan Distribusi
#

Violin plot merupakan gabungan dari box plot dan KDE (Kernel Density Estimation). Plot ini memberikan visualisasi yang lebih kaya tentang distribusi variabel, memungkinkan kita melihat kepadatan data pada berbagai nilai.

Fungsi Violin Plot:

  • Menyajikan distribusi variabel secara lebih detail daripada box plot.
  • Menunjukkan densitas data pada berbagai nilai.

Tujuan Violin Plot:

  • Melihat distribusi variabel secara lebih rinci.
  • Membandingkan distribusi antara beberapa kategori.
# Violin plot untuk petal length berdasarkan spesies
sns.violinplot(x='species', y='petal length (cm)', data=iris_df, palette='Set2', inner='quartile')
plt.title('Violin Plot untuk Petal Length Berdasarkan Spesies')
plt.show()

Hasilnya:

Violin plot memungkinkan kita untuk melihat densitas distribusi variabel secara lebih rinci, sementara garis di tengahnya merepresentasikan box plot.

3. Heatmaps untuk Korelasi
#

Heatmaps digunakan untuk memvisualisasikan matriks data numerik dengan warna. Ini sangat efektif untuk menunjukkan korelasi antara variabel-variabel.

Fungsi:

  • Menyajikan korelasi antara variabel-variabel numerik.
  • Memberikan pandangan holistik tentang hubungan dalam dataset.

Tujuan:

  • Menilai kekuatan dan arah korelasi antara variabel. Identifikasi pola hubungan dalam data.
# Memilih kolom-kolom numerik dari dataframe iris_df
numeric_columns = iris_df.select_dtypes(include=['float64']).columns
correlation_matrix = iris_df[numeric_columns].corr()

# Plot Heatmap
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Heatmap Korelasi antara Variabel Numerik pada Dataset Iris")
plt.show()

Penjelasan:

  • Menggunakan dataset iris yang disertakan dengan Seaborn.
  • Membuat matriks korelasi menggunakan fungsi corr() pada dataset.
  • Menggunakan sns.heatmap() untuk membuat heatmap dari matriks korelasi.
  • Parameter annot=True menambahkan nilai pada setiap sel.
  • Parameter cmap="coolwarm" memberikan palet warna untuk heatmap.
  • Parameter fmt=".2f" mengatur format nilai desimal pada anotasi.

Hasilnya:

4. Pair Plot untuk Menganalisis Seluruh Variabel
#

Pair plot memungkinkan kita untuk melihat hubungan antara semua pasangan variabel dalam dataset. Ini sangat berguna untuk analisis eksploratif yang komprehensif.

Fungsi Pair Plot:

  • Menunjukkan scatter plot dan histogram untuk setiap pasangan variabel.
  • Memungkinkan analisis eksploratif yang komprehensif.

Tujuan Pair Plot:

  • Menilai korelasi antara variabel.
  • Mengidentifikasi pola dan tren dalam data.
# Pair plot untuk seluruh variabel
sns.pairplot(iris_df, hue='species', palette='Dark2', markers=['o', 's', 'D'])
plt.suptitle('Pair Plot untuk Seluruh Variabel Berdasarkan Spesies', y=1.02)
plt.show()

Hasilnya:

Pair plot akan menghasilkan matriks scatter plot dan histogram, memungkinkan kita untuk melihat distribusi dan hubungan variabel-variabel tersebut.

B. Visualisasi Data Kategorikal
#

1. Count Plot untuk Variabel Kategorikal
#

Count plot adalah plot sederhana yang digunakan untuk menghitung dan menampilkan frekuensi setiap kategori pada variabel kategorikal.

Fungsi Count Plot:

  • Menunjukkan frekuensi atau jumlah observasi dalam setiap kategori.
  • Memberikan gambaran seimbangnya distribusi dalam dataset.

Tujuan Count Plot:

  • Memahami distribusi variabel kategorikal.
  • Identifikasi seimbang atau tidaknya dataset pada kategori tertentu.
# Count plot untuk jumlah spesies
sns.countplot(x='species', data=iris_df, palette='pastel')
plt.title('Count Plot untuk Jumlah Setiap Spesies')
plt.show()

Hasilnya:

Count plot menampilkan jumlah observasi dalam setiap kategori, membantu kita memahami seimbangnya distribusi dalam dataset.

2. Bar Plot untuk Rata-Rata Kategorikal
#

Bar plot adalah plot yang efektif untuk menunjukkan rata-rata atau total variabel numerik untuk setiap kategori pada variabel kategorikal.

Fungsi:

  • Menyajikan rata-rata atau total variabel numerik untuk setiap kategori.
  • Membandingkan besaran kategori-kategori.

Tujuan:

  • Membandingkan besaran variabel numerik berdasarkan kategori.
  • Menunjukkan perbedaan rata-rata atau total antar kategori.

Contoh Bar Plot:

import seaborn as sns
import matplotlib.pyplot as plt

# Menggunakan dataframe iris_df dari materi pendahuluan
bar_data = iris_df.groupby("species")["sepal length (cm)"].mean().reset_index()

# Plot Bar Plot
sns.barplot(x="species", y="sepal length (cm)", data=bar_data, palette="pastel")
plt.title("Rata-Rata Sepal Length untuk Setiap Spesies Iris")
plt.show()

Penjelasan:

  • Menggunakan dataset iris.
  • Menghitung rata-rata sepal length untuk setiap spesies menggunakan groupby() dan mean().
  • Membuat bar plot dengan sns.barplot().
  • Parameter palette="pastel" memberikan palet warna untuk bar plot.

Hasilnya:

3. Swarm Plot untuk Pemetaan Data Poin
#

Swarm plot memetakan setiap data poin pada sumbu kategorikal, memberikan gambaran lebih jelas tentang distribusi.

Fungsi:

  • Memetakan setiap data poin pada sumbu kategorikal.
  • Menunjukkan sebaran data poin dalam setiap kategori.

Tujuan:

  • Melihat distribusi data poin pada variabel kategorikal.
  • Identifikasi pola dan tren pada setiap kategori.

Contoh Swarm Plot:

import seaborn as sns
import matplotlib.pyplot as plt

# Menggunakan dataframe iris_df dari materi pendahuluan
# Plot Swarm Plot
sns.swarmplot(x="species", y="sepal length (cm)", data=iris_df, palette="Set2")
plt.title("Swarm Plot untuk Distribusi Sepal Length pada Setiap Spesies Iris")
plt.show()

Penjelasan:

  • Menggunakan dataset iris.
  • Membuat swarm plot untuk distribusi sepal length pada setiap spesies menggunakan sns.swarmplot().
  • Parameter palette="Set2" memberikan palet warna untuk swarm plot.

Hasilnya:

Statistik Deskriptif dengan Python - This article is part of a series.
Part 4: This Article