Pengubahan Data
Table of Contents
Pandas Dasar-dasar Manipulasi Data - This article is part of a series.
Pengubahan data adalah tahapan penting dalam analisis data yang memungkinkan penyesuaian dan manipulasi dataset untuk mencapai tujuan analisis yang spesifik. Pandas, sebagai pustaka analisis data yang powerful dalam Python, menyediakan berbagai fungsi untuk mempermudah operasi pengubahan data. Dalam bagian ini, kita akan menjelajahi beberapa teknik pengubahan data yang umum digunakan.
A. Penambahan Kolom Baru #
Penambahan kolom baru merupakan cara efektif untuk memperluas dataset dengan informasi tambahan yang dapat mendukung analisis lebih lanjut. Penggunaan format df['Nama_Kolom_Baru'] = <ekspresi>
memungkinkan kita menambahkan kolom baru dengan nilai yang dihasilkan dari ekspresi tertentu.
Format Penggunaan:
df['Nama_Kolom_Baru'] = <ekspresi>
Contoh Penggunaan:
df['Tahun_Lahir'] = 2022 - df['Usia']
B. Penghapusan Kolom #
Penghapusan kolom merupakan langkah penting dalam membersihkan dataset dari informasi yang tidak diperlukan atau duplikat. Dengan menggunakan format df.drop(['Nama_Kolom'], axis=1, inplace=True)
, kita dapat secara efisien menghapus kolom yang tidak diperlukan dari dataset.
Format Penggunaan:
df.drop(['Nama_Kolom'], axis=1, inplace=True)
Contoh Penggunaan:
df.drop(['Tahun_Lahir'], axis=1, inplace=True)
C. Pengubahan Nilai pada Kolom #
Pengubahan nilai pada kolom memungkinkan kita mengganti atau memodifikasi nilai-nilai tertentu sesuai kebutuhan analisis. Dengan menggunakan format df['Nama_Kolom'].replace({nilai_lama: nilai_baru}, inplace=True)
, kita dapat melakukan penggantian nilai dengan cara yang terstruktur.
Format Penggunaan:
python
df['Nama_Kolom'].replace({nilai_lama: nilai_baru}, inplace=True)
Contoh Penggunaan:
df['Jurusan'].replace({'Teknik Informatika': 'TI', 'Ilmu Komunikasi': 'IK'}, inplace=True)
D. Operasi Matematika pada Kolom #
Operasi matematika pada kolom memungkinkan kita menghitung atau memproses nilai-nilai dalam kolom menggunakan ekspresi matematika tertentu. Dengan menggunakan format df['Nama_Kolom_Baru'] = df['Nama_Kolom'].apply(lambda x: <ekspresi_matematika>)
, kita dapat melakukan operasi matematika pada seluruh kolom.
Format Penggunaan:
df['Nama_Kolom_Baru'] = df['Nama_Kolom'].apply(lambda x: <ekspresi_matematika>)
Contoh Penggunaan:
df['Usia_Dua_Tahun_Lalu'] = df['Usia'].apply(lambda x: x - 2)
E. Pengelompokan dan Agregasi Data #
Pengelompokan dan agregasi data memungkinkan kita untuk merangkum informasi dalam dataset berdasarkan kategori tertentu. Format df.groupby('Nama_Kolom').agg({'Kolom_Agregasi': 'fungsi_agregasi'})
memungkinkan kita mengelompokkan data dan menerapkan berbagai fungsi agregasi.
Format Penggunaan:
df.groupby('Nama_Kolom').agg({'Kolom_Agregasi': 'fungsi_agregasi'})
Contoh Penggunaan:
df.groupby('Jurusan').agg({'Usia': 'mean', 'NIM': 'count'})
F. Pengurutan Data #
Pengurutan data membantu kita menyusun dataset berdasarkan nilai tertentu, mempermudah analisis dan pemahaman pola data. Dengan menggunakan format df.sort_values(by='Nama_Kolom', ascending=True/False, inplace=True)
, kita dapat mengurutkan dataset secara naik atau turun berdasarkan kolom tertentu.
Format Penggunaan:
df.sort_values(by='Nama_Kolom', ascending=True/False, inplace=True)
Contoh Penggunaan:
df.sort_values(by='Usia', ascending=False, inplace=True)
G. Pengubahan Tipe Data Kolom #
Pengubahan tipe data kolom sangat penting untuk memastikan bahwa data diinterpretasikan dengan benar. Dengan menggunakan format df['Nama_Kolom'] = df['Nama_Kolom'].astype('tipe_data_baru')
, kita dapat mengonversi tipe data kolom sesuai kebutuhan.
Format Penggunaan:
df['Nama_Kolom'] = df['Nama_Kolom'].astype('tipe_data_baru')
Contoh Penggunaan:
df['Usia'] = df['Usia'].astype(float)
H. Pengelolaan Data Duplikat #
Pengelolaan data duplikat memastikan bahwa dataset tidak mengandung entri yang serupa, menghindari bias dan kesalahan dalam analisis. Format df.drop_duplicates(subset=['Kolom_Pembanding'], keep='first', inplace=True)
memungkinkan kita menghapus data duplikat berdasarkan kolom tertentu. Dengan mempelajari berbagai teknik pengubahan data ini, kita dapat mengoptimalkan dan mempersiapkan dataset untuk analisis lebih lanjut.
Format Penggunaan:
df.drop_duplicates(subset=['Kolom_Pembanding'], keep='first', inplace=True)
Contoh Penggunaan:
df.drop_duplicates(subset=['NIM'], keep='first', inplace=True)