Skip to main content
  1. Belajar/
  2. Data Science with Python/
  3. Visualisasi Data dengan Matplotlib/

Studi Kasus: Visualisasi Dataset Iris

9 mins· loading · loading ·
Visualisasi Data dengan Matplotlib - This article is part of a series.
Part 5: This Article

Visualisasi data menjadi lebih bermakna ketika diterapkan pada dataset nyata. Dalam contoh ini, kita akan menggunakan dataset Iris yang populer untuk melakukan berbagai jenis visualisasi.

Dataset Iris adalah dataset klasik dalam dunia ilmu data dan sering digunakan untuk pembelajaran dan eksplorasi visualisasi data. Dataset ini memiliki empat fitur (panjang dan lebar kelopak, panjang dan lebar mahkota) dan tiga kelas (setosa, versicolor, virginica).

A. Memuat Dataset Iris
#

Sebelum kita memulai eksplorasi visualisasi, langkah pertama yang perlu kita lakukan adalah memuat dataset Iris.

from sklearn.datasets import load_iris
import pandas as pd

# Memuat Dataset Iris
iris = load_iris()
data = iris.data
feature_names = iris.feature_names
target = iris.target
target_names = iris.target_names

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
target = pd.Series(iris.target, name='class')
iris_dataset = pd.concat([df, target], axis=1)

# Menampilkan beberapa sample dari Dataset Iris
print("Beberapa Sample dari Dataset Iris:")
print(iris_dataset.sample(5))

Output:

Beberapa Sample dari Dataset Iris:
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  class
104                6.5               3.0                5.8               2.2      2
97                 6.2               2.9                4.3               1.3      1
83                 6.0               2.7                5.1               1.6      1
115                6.4               3.2                5.3               2.3      2
66                 5.6               3.0                4.5               1.5      1

B. Visualisasi Scatter Plot untuk Fitur Sepal
#

Pertama, kita akan menggunakan scatter plot untuk memvisualisasikan panjang dan lebar kelopak dari setiap bunga dalam dataset. Warna dan marker yang berbeda akan mewakili kelas yang berbeda, memberikan gambaran visual yang jelas tentang distribusi data pada fitur-fitur tersebut.

import matplotlib.pyplot as plt

# Visualisasi Scatter Plot untuk Panjang dan Lebar Kelopak
plt.scatter(data[:, 0], data[:, 1], c=target, cmap='viridis', edgecolor='k', s=50, label=target_names)
plt.xlabel('Panjang Kelopak (cm)')
plt.ylabel('Lebar Kelopak (cm)')
plt.title('Scatter Plot untuk Fitur Sepal')
plt.legend(title='Kelas')
plt.show()

Hasil Plot:

C. Visualisasi Histogram untuk Fitur Petal
#

Selanjutnya, kita akan menggunakan histogram untuk memvisualisasikan distribusi panjang mahkota. Histogram memberikan gambaran tentang frekuensi munculnya nilai-nilai pada suatu rentang, membantu kita memahami karakteristik distribusi data.

import matplotlib.pyplot as plt

# Visualisasi Histogram untuk Panjang Mahkota
plt.hist(data[:, 2], bins=20, color='skyblue', edgecolor='black')
plt.xlabel('Panjang Mahkota (cm)')
plt.ylabel('Frekuensi')
plt.title('Histogram untuk Panjang Mahkota')
plt.show()

Hasil Plot:

D. Visualisasi Bar Plot Rata-rata untuk Setiap Kelas
#

Untuk mendapatkan pemahaman yang lebih dalam tentang perbedaan antara kelas-kelas pada dataset Iris, kita dapat membuat bar plot rata-rata setiap fitur untuk setiap kelas. Ini membantu kita melihat bagaimana karakteristik setiap kelas dapat dibedakan berdasarkan nilai rata-rata fitur-fitur tersebut.

Format Penggunaan:

import matplotlib.pyplot as plt
import numpy as np

# Menghitung Rata-rata Setiap Fitur untuk Setiap Kelas
mean_per_class = [data[target == i].mean(axis=0) for i in range(len(target_names))]

# Visualisasi Bar Plot Rata-rata
bar_width = 0.35
index = np.arange(len(feature_names))

for i, class_name in enumerate(target_names):
    plt.bar(index + i * bar_width, mean_per_class[i], bar_width, label=class_name)

plt.xlabel('Fitur')
plt.ylabel('Rata-rata')
plt.title('Rata-rata Setiap Fitur untuk Setiap Kelas')
plt.xticks(index + bar_width / 2, feature_names)
plt.legend(title='Kelas')
plt.show()

Hasil Plot:

E. Visualisasi Pie Chart untuk Proporsi Kelas
#

Terakhir, kita akan menggunakan pie chart untuk memvisualisasikan proporsi setiap kelas dalam dataset Iris. Pie chart memberikan gambaran visual yang jelas tentang seberapa besar kontribusi masing-masing kelas terhadap dataset secara keseluruhan.

Format Penggunaan:

import matplotlib.pyplot as plt

# Menghitung Proporsi Kelas dalam Dataset
class_counts = [np.sum(target == i) for i in range(len(target_names))]

# Visualisasi Pie Chart untuk Proporsi Kelas
plt.pie(class_counts, labels=target_names, autopct='%1.1f%%', startangle=90)
plt.title('Proporsi Kelas dalam Dataset Iris')
plt.show()

Hasil Plot:

Visualisasi Data dengan Matplotlib - This article is part of a series.
Part 5: This Article