Skip to main content
  1. Belajar/
  2. Machine Learning with Python/
  3. 2. Persiapan Data untuk Machine Learning/

Ringkasan

6 mins· loading · loading ·
Persiapan Data untuk Machine Learning - This article is part of a series.
Part 5: This Article

1. Pendahuluan
#

Pada bagian pendahuluan, kita memperkenalkan konsep persiapan data untuk machine learning. Fokus utama adalah pentingnya memahami dan membersihkan data sebelum melibatkan model machine learning. Pengenalan dataset “UCI ML Breast Cancer Wisconsin” memberikan dasar praktis untuk tutorial ini.

2. Tahap-tahap Persiapan Data
#

Tahap-tahap persiapan data melibatkan langkah-langkah kritis seperti profil data awal, menentukan variabel target, analisis statistik deskriptif, identifikasi dan handling missing values, mendeteksi dan mengatasi outliers, membersihkan data yang redundant atau tidak relevan, visualisasi data, analisis korelasi antar variabel, normalisasi data, encoding variabel kategorikal, dan feature scaling. Setiap langkah dirinci dengan contoh kode dan penjelasan yang mendalam.

3. Pembagian Dataset
#

Pembagian dataset menjadi train dan test adalah langkah vital untuk melatih dan menguji model. Fungsi train_test_split dari scikit-learn digunakan untuk membagi dataset secara proporsional, dengan distribusi kelas yang dijaga. Pembagian dataset menjadi tiga bagian (train, validation, dan test) juga dibahas untuk keperluan melatih, mengoptimalkan, dan menguji model.

4. Pengelolaan Data yang Imbalance
#

Pengelolaan data yang tidak seimbang menjadi fokus pada mengatasi masalah kelas minoritas. Diskusi mencakup oversampling dengan SMOTE, undersampling dengan NearMiss, evaluasi model pada data yang tidak seimbang dengan metrik yang relevan seperti precision dan recall, dan penyesuaian parameter model untuk mengatasi ketidakseimbangan kelas.

Ringkasan ini mencakup panduan praktis dan contoh kode untuk membantu pembaca memahami dan mengimplementasikan langkah-langkah persiapan data dan pengelolaan data yang tidak seimbang dalam konteks machine learning.

Persiapan Data untuk Machine Learning - This article is part of a series.
Part 5: This Article