Feature vs Label: Konsep Penting yang Sering Salah Paham di Machine Learning

Feature vs Label: Konsep Penting yang Sering Salah Paham di Machine Learning

2026-02-05

Dalam Machine Learning, pemahaman terhadap data menjadi faktor penentu keberhasilan sebuah model. Dua istilah yang hampir selalu muncul dan sering menimbulkan salah paham adalah feature dan label. Kesalahan memahami konsep ini dapat menyebabkan kesalahan dalam preprocessing data, pemilihan algoritma, hingga evaluasi model. Oleh karena itu, pembahasan mengenai feature dan label menjadi materi fundamental dalam pembelajaran Machine Learning di Nusacodes.com.

Artikel ini membahas secara mendalam perbedaan feature dan label, fungsi masing-masing, contoh kasus nyata, serta implementasi sederhana menggunakan Python.


Pengertian Feature dalam Machine Learning

Feature adalah variabel input atau atribut yang digunakan oleh model Machine Learning untuk mempelajari pola dari data. Feature merepresentasikan karakteristik atau informasi yang menjelaskan suatu objek.

Contoh feature dalam berbagai kasus:

  • Prediksi harga rumah: luas bangunan, jumlah kamar, lokasi
  • Klasifikasi email spam: jumlah kata, frekuensi kata tertentu, panjang email
  • Prediksi cuaca: suhu, kelembapan, kecepatan angin

Feature biasanya berbentuk data numerik atau kategorikal yang telah diubah ke format numerik melalui proses encoding.


Pengertian Label dalam Machine Learning

Label adalah target atau output yang ingin diprediksi oleh model Machine Learning. Label menjadi acuan utama dalam supervised learning karena model dilatih untuk memetakan feature ke label.

Contoh label:

  • Harga rumah (nilai numerik)
  • Status email (spam atau tidak spam)
  • Kondisi cuaca (hujan atau cerah)

Label hanya digunakan dalam supervised learning. Pada unsupervised learning, dataset tidak memiliki label.


Perbedaan Feature dan Label

Perbedaan mendasar antara feature dan label dapat dilihat dari fungsi dan posisinya dalam dataset.

Aspek Feature Label
Fungsi Input model Output/target
Jumlah Bisa lebih dari satu Biasanya satu
Peran Menjelaskan data Menjadi nilai prediksi
Digunakan pada Semua jenis ML Hanya supervised learning

Kesalahan umum yang sering terjadi adalah memasukkan label ke dalam feature, sehingga model mengalami data leakage dan menghasilkan evaluasi yang tidak realistis.


Contoh Dataset Sederhana

Perhatikan contoh dataset prediksi kelulusan siswa:

Jam Belajar Nilai Ujian Lulus
5 70 1
2 45 0
8 90 1

Pada dataset tersebut:

  • Feature: Jam Belajar, Nilai Ujian
  • Label: Lulus

Kolom "Lulus" menjadi target yang ingin diprediksi berdasarkan feature yang tersedia.


Contoh Implementasi Feature dan Label dengan Python

Berikut contoh sederhana menggunakan Pandas dan Scikit-learn:

import pandasas pd

# Membuat dataset
data = {
"jam_belajar": [5,2,8,6,3],
"nilai_ujian": [70,45,90,75,50],
"lulus": [1,0,1,1,0]
}

df = pd.DataFrame(data)

# Memisahkan feature dan label
X = df[["jam_belajar","nilai_ujian"]]
y = df["lulus"]

print(X)
print(y)

Pada kode tersebut:

  • X berisi feature
  • y berisi label

Struktur ini menjadi standar dalam hampir semua workflow Machine Learning menggunakan Python.


Feature dan Label dalam Supervised Learning

Supervised learning adalah pendekatan Machine Learning yang paling umum digunakan. Model dilatih menggunakan dataset berlabel untuk mempelajari hubungan antara feature dan label.

Contoh algoritma supervised learning:

  • Linear Regression
  • Logistic Regression
  • Decision Tree
  • Random Forest
  • Support Vector Machine

Tanpa label, algoritma-algoritma tersebut tidak dapat melakukan proses pembelajaran.


Feature dan Label dalam Unsupervised Learning

Berbeda dengan supervised learning, unsupervised learning hanya menggunakan feature tanpa label. Tujuan utamanya adalah menemukan pola atau struktur tersembunyi dalam data.

Contoh algoritma unsupervised learning:

  • K-Means Clustering
  • Hierarchical Clustering
  • Principal Component Analysis (PCA)

Pada kasus ini, dataset hanya terdiri dari feature dan tidak memiliki target yang jelas.


Kesalahan Umum dalam Memahami Feature dan Label

Beberapa kesalahan yang sering terjadi dalam praktik Machine Learning:

  • Menggunakan label sebagai feature
  • Salah menentukan kolom target
  • Tidak memisahkan feature dan label sebelum training
  • Mengubah label saat preprocessing feature

Kesalahan tersebut dapat menyebabkan model terlihat sangat akurat saat training tetapi gagal saat diuji pada data baru.


Saram dalam Menentukan Feature dan Label

Beberapa praktik yang direkomendasikan:

  • Tentukan tujuan prediksi terlebih dahulu
  • Pastikan label benar-benar merepresentasikan target
  • Gunakan feature yang relevan dengan label
  • Hindari feature yang mengandung informasi masa depan
  • Lakukan eksplorasi data sebelum pemisahan feature dan label

Pemilihan feature yang tepat sering kali lebih berpengaruh dibandingkan pemilihan algoritma.


Hubungan Feature Engineering dengan Label

Feature engineering adalah proses menciptakan atau memodifikasi feature agar hubungan dengan label menjadi lebih kuat. Proses ini meliputi:

  • Normalisasi dan standarisasi
  • Encoding data kategorikal
  • Membuat feature baru dari data mentah
  • Menghapus feature yang tidak relevan

Label tidak ikut dimodifikasi dalam feature engineering, kecuali pada kasus tertentu seperti encoding label kategorikal.


Feature dan label adalah dua konsep fundamental dalam Machine Learning yang memiliki peran sangat berbeda namun saling berkaitan. Feature berfungsi sebagai input yang menjelaskan data, sedangkan label menjadi target yang ingin diprediksi oleh model.

Pemahaman yang tepat mengenai perbedaan feature dan label membantu menghindari kesalahan fatal dalam pembangunan model Machine Learning. Dengan struktur data yang benar dan pemisahan yang jelas antara feature dan label, proses training, evaluasi, dan deployment model dapat berjalan lebih optimal. Konten edukasi di Nusacodes.com ini menempatkan pemahaman konsep ini sebagai fondasi penting sebelum masuk ke tahap Machine Learning yang lebih kompleks.