Skip to main content
  1. Belajar/
  2. Data Science with Python/
  3. Visualisasi Data Lanjutan dengan Seaborn/

Persiapan Lingkungan

9 mins· loading · loading ·
Statistik Deskriptif dengan Python - This article is part of a series.
Part 2: This Article

Sebelum memasuki dunia visualisasi data dengan Seaborn, langkah pertama yang perlu diambil adalah mempersiapkan lingkungan kerja (working environment). Hal ini melibatkan instalasi Seaborn dan library pendukungnya, serta memastikan dataset yang digunakan tersedia. Berikut adalah langkah-langkah untuk mempersiapkan lingkungan kerja:

A. Instalasi Seaborn dan Library Pendukung
#

Pastikan kamu memiliki Python yang terinstal, dan instal Seaborn bersama dengan library pendukungnya. Buat virtual environment untuk proyek ini agar pengelolaan dependensi lebih teratur.

# Instalasi Seaborn dan library pendukung
pip install seaborn matplotlib pandas

B. Impor Library dan Persiapan Dataset
#

Selanjutnya, impor library yang dibutuhkan dan persiapkan dataset yang akan digunakan. Kita akan menggunakan dataset terbuka yang umum digunakan, seperti dataset iris dari Scikit-learn. Dataset ini mencakup informasi tentang sejumlah spesies bunga iris, membuatnya cocok untuk ilustrasi visualisasi dengan Seaborn.

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_iris

# Persiapan dataset iris
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df['species'] = iris.target_names[iris.target]

# Tampilkan beberapa baris pertama dataset iris
print(iris_df.head())

Hasil Print:

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target species
0                5.1               3.5                1.4               0.2       0  setosa
1                4.9               3.0                1.4               0.2       0  setosa
2                4.7               3.2                1.3               0.2       0  setosa
3                4.6               3.1                1.5               0.2       0  setosa
4                5.0               3.6                1.4               0.2       0  setosa

Dengan menggunakan dataset iris, kita dapat memperoleh gambaran yang kaya akan berbagai tipe data dan karakteristik, memungkinkan kita untuk mengaplikasikan berbagai teknik visualisasi Seaborn.

C. Eksplorasi Awal Dataset
#

Sebelum membuat visualisasi, selalu bijak untuk melakukan eksplorasi awal dataset. Tinjau beberapa baris pertama dataset dan periksa tipe data serta statistik deskriptifnya.

# Melihat beberapa baris pertama dataset iris
print(iris_df.head())

# Menampilkan informasi tipe data dan statistik deskriptif
print(iris_df.info())
print(iris_df.describe())

Hasil Print:

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target species
0                5.1               3.5                1.4               0.2       0  setosa
1                4.9               3.0                1.4               0.2       0  setosa
2                4.7               3.2                1.3               0.2       0  setosa
3                4.6               3.1                1.5               0.2       0  setosa
4                5.0               3.6                1.4               0.2       0  setosa
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   target             150 non-null    int64  
 5   species            150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
None
       sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)      target
count         150.000000        150.000000         150.000000        150.000000  150.000000
mean            5.843333          3.054000           3.758667          1.198667    1.000000
std             0.828066          0.433594           1.764420          0.763161    0.819232
min             4.300000          2.000000           1.000000          0.100000    0.000000
25%             5.100000          2.800000           1.600000          0.300000    0.000000
50%             5.800000          3.000000           4.350000          1.300000    1.000000
75%             6.400000          3.300                5.100000          1.800000    2.000000
max             7.900000          4.400000           6.900000          2.500000    2.000000

Dengan melakukan eksplorasi ini, kamu akan mendapatkan gambaran yang lebih baik tentang data yang akan divisualisasikan.

Statistik Deskriptif dengan Python - This article is part of a series.
Part 2: This Article