Persiapan Lingkungan Pengembangan
Table of Contents
Visualisasi Data Lanjutan dengan Seaborn - This article is part of a series.
Sebelum memasuki dunia visualisasi data dengan Seaborn, langkah pertama yang perlu diambil adalah mempersiapkan lingkungan kerja (working environment). Hal ini melibatkan instalasi Seaborn dan library pendukungnya, serta memastikan dataset yang digunakan tersedia. Berikut adalah langkah-langkah untuk mempersiapkan lingkungan kerja:
A. Instalasi Seaborn dan Library Pendukung #
Pastikan kamu memiliki Python yang terinstal, dan instal Seaborn bersama dengan library pendukungnya. Buat virtual environment untuk proyek ini agar pengelolaan dependensi lebih teratur.
# Instalasi Seaborn dan library pendukung
pip install seaborn matplotlib pandas
B. Impor Library dan Persiapan Dataset #
Selanjutnya, impor library yang dibutuhkan dan persiapkan dataset yang akan digunakan. Kita akan menggunakan dataset terbuka yang umum digunakan, seperti dataset iris dari Scikit-learn. Dataset ini mencakup informasi tentang sejumlah spesies bunga iris, membuatnya cocok untuk ilustrasi visualisasi dengan Seaborn.
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_iris
# Persiapan dataset iris
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df['species'] = iris.target_names[iris.target]
# Tampilkan beberapa baris pertama dataset iris
print(iris_df.head())
Hasil Print:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target species
0 5.1 3.5 1.4 0.2 0 setosa
1 4.9 3.0 1.4 0.2 0 setosa
2 4.7 3.2 1.3 0.2 0 setosa
3 4.6 3.1 1.5 0.2 0 setosa
4 5.0 3.6 1.4 0.2 0 setosa
Dengan menggunakan dataset iris, kita dapat memperoleh gambaran yang kaya akan berbagai tipe data dan karakteristik, memungkinkan kita untuk mengaplikasikan berbagai teknik visualisasi Seaborn.
C. Eksplorasi Awal Dataset #
Sebelum membuat visualisasi, selalu bijak untuk melakukan eksplorasi awal dataset. Tinjau beberapa baris pertama dataset dan periksa tipe data serta statistik deskriptifnya.
# Melihat beberapa baris pertama dataset iris
print(iris_df.head())
# Menampilkan informasi tipe data dan statistik deskriptif
print(iris_df.info())
print(iris_df.describe())
Hasil Print:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target species
0 5.1 3.5 1.4 0.2 0 setosa
1 4.9 3.0 1.4 0.2 0 setosa
2 4.7 3.2 1.3 0.2 0 setosa
3 4.6 3.1 1.5 0.2 0 setosa
4 5.0 3.6 1.4 0.2 0 setosa
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 sepal length (cm) 150 non-null float64
1 sepal width (cm) 150 non-null float64
2 petal length (cm) 150 non-null float64
3 petal width (cm) 150 non-null float64
4 target 150 non-null int64
5 species 150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
None
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target
count 150.000000 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.054000 3.758667 1.198667 1.000000
std 0.828066 0.433594 1.764420 0.763161 0.819232
min 4.300000 2.000000 1.000000 0.100000 0.000000
25% 5.100000 2.800000 1.600000 0.300000 0.000000
50% 5.800000 3.000000 4.350000 1.300000 1.000000
75% 6.400000 3.300 5.100000 1.800000 2.000000
max 7.900000 4.400000 6.900000 2.500000 2.000000
Dengan melakukan eksplorasi ini, kamu akan mendapatkan gambaran yang lebih baik tentang data yang akan divisualisasikan.