Pandas merupakan salah satu library paling penting dalam ekosistem Python, khususnya untuk data analysis dan Machine Learning. Hampir semua proses Machine Learning diawali dengan kegiatan load dataset dan eksplorasi data. Tahapan ini bertujuan untuk memahami struktur, kualitas, dan karakteristik data sebelum masuk ke tahap preprocessing dan pembuatan model. Pemahaman eksplorasi data dengan Pandas menjadi fondasi utama dalam pembelajaran data berbasis Python.
Artikel ini membahas cara memuat dataset menggunakan Pandas serta teknik eksplorasi data yang umum digunakan dalam proyek Machine Learning dan data analysis.
Dataset yang digunakan dalam Machine Learning jarang berada dalam kondisi sempurna. Sering ditemukan data kosong, format tidak konsisten, atau nilai yang tidak masuk akal. Tanpa eksplorasi data, model Machine Learning berisiko menghasilkan prediksi yang tidak akurat.
Eksplorasi dataset membantu untuk:
Dengan Pandas, seluruh proses ini bisa dilakukan secara cepat dan terstruktur.
Pandas memiliki dua struktur data utama:
Dalam praktiknya, DataFrame adalah struktur yang paling sering digunakan karena menyerupai tabel database atau spreadsheet.
Contoh sederhana membuat DataFrame:
import pandasas pd
data = {
"nama": ["Ani","Budi","Citra"],
"nilai": [85,90,78]
}
df = pd.DataFrame(data)
print(df)
Format CSV adalah format dataset paling umum dalam Machine Learning. Pandas menyediakan fungsi read_csv() untuk memuat file CSV.
import pandasas pd
df = pd.read_csv("dataset_siswa.csv")
print(df.head())
Fungsi head() menampilkan lima baris pertama untuk melihat gambaran awal data.
Pandas juga mendukung file Excel dengan fungsi read_excel().
df = pd.read_excel("dataset_penjualan.xlsx")
Dataset juga bisa dimuat dari URL atau database SQL. Contoh memuat CSV dari URL:
url ="<https://nusacodes.com/dataset/data_penjualan.csv>"
df = pd.read_csv(url)
Beberapa fungsi penting untuk eksplorasi awal:
df.shape
df.columns
df.info()
Penjelasan:
shape menampilkan jumlah baris dan kolomcolumns menampilkan nama kolominfo() menampilkan tipe data dan jumlah data non-nullUntuk kolom numerik, Pandas menyediakan fungsi describe().
df.describe()
Output ini menampilkan nilai rata-rata, median, nilai minimum, maksimum, dan standar deviasi.
Data kosong sering menjadi sumber masalah dalam Machine Learning.
df.isnull().sum()
Hasilnya menunjukkan jumlah nilai kosong di setiap kolom.
df["nilai"]
df[["nama","nilai"]]
df[df["nilai"] >=80]
Filter ini sering digunakan untuk eksplorasi data berdasarkan kriteria tertentu.
Untuk memahami sebaran data, eksplorasi bisa dikombinasikan dengan visualisasi sederhana.
import matplotlib.pyplotas plt
df["nilai"].hist()
plt.title("Distribusi Nilai")
plt.show()
Visualisasi membantu melihat apakah data condong ke nilai tertentu atau menyebar secara merata.
Data duplikat dapat memengaruhi hasil analisis dan model.
df.duplicated().sum()
Untuk menghapus data duplikat:
df = df.drop_duplicates()
Beberapa praktik yang umum dilakukan saat eksplorasi dataset:
Langkah eksplorasi yang baik akan menghemat waktu di tahap berikutnya dan meningkatkan kualitas model Machine Learning.
Dalam alur Machine Learning, Pandas berperan sebagai:
Setelah eksplorasi selesai, data biasanya dikonversi ke format NumPy untuk diproses oleh algoritma Machine Learning seperti Scikit-learn.
Load dan eksplorasi dataset adalah langkah awal yang sangat penting dalam data analysis dan Machine Learning. Dengan Pandas, proses ini dapat dilakukan secara efisien, terstruktur, dan mudah dipahami.
Penguasaan fungsi dasar seperti read_csv(), info(), describe(), dan teknik filtering membantu memahami karakter data secara menyeluruh. Pemahaman eksplorasi dataset dengan Pandas menjadi fondasi penting sebelum melangkah ke tahap preprocessing dan pemodelan Machine Learning yang lebih lanjut.