Pendahuluan
Table of Contents
Persiapan Data untuk Machine Learning - This article is part of a series.
Selamat datang pada tutorial “Persiapan Data untuk Machine Learning” Pada bagian pendahuluan ini, kita akan membahas secara rinci pentingnya persiapan data dalam konteks machine learning.
A. Pentingnya Persiapan Data dalam Machine Learning #
Sebelum membangun model machine learning yang handal, langkah pertama yang sangat penting adalah mempersiapkan data dengan baik. Proses ini mencakup serangkaian langkah untuk memastikan bahwa dataset yang digunakan sesuai, clean (bersih), dan siap untuk digunakan untuk melatih model. Persiapan data yang tepat dapat berdampak besar terhadap kinerja akhir model, sehingga menjadi tahap yang sangat penting dalam siklus pengembangan model machine learning.
Tutorial ini bertujuan untuk memberikan pemahaman mendalam tentang langkah-langkah yang diperlukan untuk mempersiapkan data sebelum digunakan dalam model machine learning. Dengan menggunakan dataset “UCI ML Breast Cancer Wisconsin” dari paket scikit-learn sebagai studi kasus, kita akan membahas secara rinci setiap langkah yang diperlukan, termasuk pemahaman data, data cleaning (pembersihan data), eksplorasi data, pra-pemrosesan data, pembagian dataset dan pengelolaan data yang imbalance (tidak seimbang).
Melalui tutorial ini, diharapkan pembaca akan mendapatkan pemahaman yang kuat tentang pentingnya persiapan data, serta memperoleh keterampilan praktis dalam menerapkan langkah-langkah tersebut menggunakan tools seperti scikit-learn dan library Python lainnya.
B. Dataset #
Kita akan menggunakan dataset “UCI ML Breast Cancer Wisconsin” dari library sklearn pada tutorial ini.
1. Pengenalan Dataset “UCI ML Breast Cancer Wisconsin” #
Dataset “UCI ML Breast Cancer Wisconsin” adalah dataset bawaan dalam pustaka sklearn yang digunakan untuk tugas klasifikasi. Dataset ini dikumpulkan dari citra medis sel-sel payudara dan memiliki 30 fitur numerik yang dihasilkan dari analisis gambar sel-sel.
Berikut adalah daftar fitur pada dataset “UCI ML Breast Cancer Wisconsin”:
- Mean Radius: Rata-rata jari-jari sel-sel.
- Mean Texture: Rata-rata tekstur sel-sel.
- Mean Perimeter: Rata-rata keliling sel-sel.
- Mean Area: Rata-rata luas sel-sel.
- Mean Smoothness: Rata-rata kehalusan sel-sel.
- Mean Compactness: Rata-rata kompak sel-sel.
- Mean Concavity: Rata-rata konkafitas sel-sel.
- Mean Concave Points: Rata-rata jumlah titik konkaf pada sel-sel.
- Mean Symmetry: Rata-rata simetri sel-sel.
- Mean Fractal Dimension: Rata-rata dimensi fraktal sel-sel. 11-30. Semua variabel dengan prefiks “SE” (standard error) dan “Worst” (nilai terburuk) dari fitur 1-10.
Dataset “UCI ML Breast Cancer Wisconsin” memiliki satu variabel target, yaitu:
- Target (Malignant/Benign): Klasifikasi apakah sel-sel payudara bersifat jinak (benign) atau ganas (malignant).
2. Instalasi scikit-learn #
Sebelum memulai, pastikan bahwa scikit-learn telah diinstal di lingkungan Python yang Kamu gunakan. Jika belum diinstal, Kamu dapat menginstalnya menggunakan perintah berikut:
pip install -U scikit-learn==1.2.2 scipy seaborn imblearn
Setelah instalasi selesai, kita dapat memuat dataset “UCI ML Breast Cancer Wisconsin” dengan mudah menggunakan scikit-learn.
# Contoh kode untuk memuat dataset
from sklearn.datasets import load_breast_cancer
# Memuat dataset diabetes
# Memuat dataset breast cancer
data = load_breast_cancer()
X, y = data.data, data.target
Dengan cara ini, kita siap untuk memulai langkah-langkah persiapan data menggunakan dataset “UCI ML Breast Cancer Wisconsin” untuk tujuan machine learning. Mari kita eksplorasi lebih lanjut dalam tutorial ini!