Membaca Data
Table of Contents
Pandas Dasar-dasar Manipulasi Data - This article is part of a series.
A. Membaca data dari berbagai sumber #
1. Membaca Data dari File CSV #
Membaca data dari file CSV adalah langkah umum dalam manipulasi data. Gunakan fungsi pd.read_csv() untuk membaca data dari file CSV ke dalam DataFrame Pandas.
import pandas as pd
# Membaca data dari file CSV
df_csv = pd.read_csv('nama_file.csv')
2. Membaca Data dari File Excel #
Untuk membaca data dari file Excel, gunakan fungsi pd.read_excel()
. Pandas akan membaca setiap lembar (sheet) secara default, namun kamu dapat menentukan lembar yang diinginkan dengan menyertakan argumen sheet_name.
import pandas as pd
# Membaca data dari file Excel
df_excel = pd.read_excel('nama_file.xlsx', sheet_name='nama_lembar')
3. Membaca Data dari Database SQL #
Pandas juga mendukung pembacaan data langsung dari database SQL. Gunakan fungsi pd.read_sql()
dan berikan koneksi database serta query SQL yang diinginkan.
import pandas as pd
import sqlite3
# Membaca data dari database SQL
conn = sqlite3.connect('nama_database.db')
query = 'SELECT * FROM nama_tabel'
df_sql = pd.read_sql(query, conn)
4. Membaca Data dari Sumber Lainnya #
Pandas mendukung berbagai sumber data lainnya seperti JSON, HTML, dan bahkan web scraping menggunakan fungsi-fungsi seperti pd.read_json()
, pd.read_html()
, dan sebagainya. Pilih metode yang sesuai dengan sumber data kamu.
import pandas as pd
# Membaca data dari sumber lainnya
df_json = pd.read_json('nama_file.json')
df_html = pd.read_html('url_situs')[0] # Perhatikan penggunaan [0] untuk mendapatkan DataFrame pertama dari list yang dihasilkan.
B. Menjelajahi Data Awal #
1. Menampilkan Data Awal dengan head()
#
Setelah membaca data, gunakan metode head()
untuk melihat beberapa baris pertama dari DataFrame. Ini memberikan gambaran cepat tentang struktur dan isi data.
# Menampilkan lima baris pertama data
df.head()
2. Menampilkan Data Akhir dengan tail()
#
Sama seperti head()
, tail()
menampilkan beberapa baris terakhir dari DataFrame. Ini berguna untuk melihat bagaimana data di akhir dataset.
# Menampilkan lima baris terakhir data
df.tail()
3. Mendapatkan Informasi tentang DataFrame dengan info()
#
Fungsi info()
memberikan ringkasan informasi tentang DataFrame, termasuk jumlah non-null values, tipe data, dan penggunaan memori.
# Menampilkan informasi tentang DataFrame
df.info()
C. Menangani Missing Values #
1. Mendeteksi Missing Values dengan isnull()
#
Gunakan metode isnull()
untuk mendeteksi missing values dalam DataFrame. Ini menghasilkan DataFrame boolean yang menunjukkan di mana nilai-nilai null berada.
# Mendeteksi missing values
df.isnull()
2. Menghitung Jumlah Missing Values dengan sum()
#
Menggunakan sum()
pada hasil isnull()
akan memberikan jumlah missing values pada setiap kolom.
# Menghitung jumlah missing values per kolom
df.isnull().sum()
3. Menghapus atau Mengganti Missing Values #
Terakhir, kamu dapat memutuskan apakah akan menghapus baris atau kolom yang mengandung missing values menggunakan dropna()
, atau mengganti missing values dengan nilai tertentu menggunakan fillna()
.
# Menghapus baris yang mengandung missing values
df_cleaned = df.dropna()
# Mengganti missing values dengan nilai tertentu
df_filled = df.fillna(0)