Skip links

Analisis Klasifikasi

ANALISIS KLASIFIKASI

Oleh: Fitri Ramadhini

Pengklasifikasian adalah suatu proses mengelompokkan objek ke dalam suatu kelas atau kategori yang telah ditentukan. Pengklasifikasian terjadi dalam berbagai aktivitas manusia, salah satu contohnya adalah ketika menentukan kualitas suatu produk. Pengklasifikasian dalam contoh ini adalah pada kelas kualitas produk tersebut apakah memiliki kualitas yang baik atau kurang baik. Contoh lain adalah mendiagnosa suatu penyakit seorang pasien berdasarkan karakteristik yang berkaitan dengan suatu penyakit yang ada pada pasien tersebut, misalnya untuk mendiagnosa apakah seseorang terkena diabetes atau tidak dengan melihat beberapa karakteristik seperti jenis kelamin, umur, tekanan darah, kolesterol, dan gula darah. Pengklasifikasian dapat dilakukan dengan mengamati karakteristik-karakteristik tersebut apakah seorang pasien terkena penyakit yang sedang diamati atau tidak.

lihat juga artikel terbaru ANALISIS JALUR

Dalam mengklasifikasikan suatu variabel, diperlukan adanya analisis klasifikasi. Analisis klasifikasi adalah metode untuk menganalisis keterkaitan antara beberapa variabel prediktor dan satu variabel respon yang merupakan variabel kualitatif. Beberapa variabel prediktor ini akan digunakan untuk memprediksi kategori atau kelas suatu variabel respon. Metode yang digunakan untuk pengklasifikasian pertama adalah memprediksi peluang dari setiap kategori dari variabel kualitatif sebagai dasar untuk membuat klasifikasi (James et al, 2013).

Dalam statistical learning, analisis klasifikasi termasuk ke dalam metode supervised learningSupervised learning adalah suatu metode pengklasifikasian dimana setiap pengamatan memiliki variabel prediktor yang berkaitan dengan variabel respon.

Manfaat Klasifikasi

    Klasifikasi dalam beberapa hal digunakan sebagai prosedur data mining dan memiliki banyak manfaat dalam kehidupan sehari-hari. Adapun beberapa manfaat dari analisis klasifikasi adalah sebagai berikut:

  • Berguna dalam hal iklan dimana iklan dilakukan di tempat-tempat atau orang-orang tertentu yang mempunyai kecenderungan tertarik pada suatu produk yang diiklankan.
  • Dalam perbankan klasifikasi dapat digunakan untuk memutuskan apakan seseorang layak diberi pinjaman atau tidak.
  • Klasifikasi digunakan dalam mesin pencari di internet dimana akan dapat menyasar seseorang dengan kriteria tertentu.

Binary Classification dan Multiclass Classification

    Banyaknya kelas dalam analisis klasifikasi terbagi menjadi 2 kategori yaitu binary classification dan multiclass classificationBinary classification hanya memiliki 2 kategori atau kelas, contohnya sakit atau tidak sakit, terlambat bayar atau tepat waktu, baik atau buruk, sedangkan multiclass classification memiliki lebih dari 2 kategori atau kelas yang akan diprediksi misalnya untuk melihat kualitas sebuah apel dapat dilihat dari 3 kondisi yaitu normal, memar, atau tersayat.

Classifier

    Ada banyak teknik pengklasifikasian atau algoritma yang menjalankan proses pengklasifikasian yang biasanya disebut dengan classifierClassifier ini digunakan untuk memprediksi suatu respon kualitatif. Beberapa classifier yang banyak digunakan diantaranya adalah K-Nearest Neighbour (KNN), Analisis Diskriminan, Regresi Logistik, Pohon Klasifikasi, Support Vector Machine, Artificial Nerual Network dan beberapa classifier yang merupakan teknik ensemble (Bagging, Random Forest, dan Boosting).

Validasi

    Tidak semua amatan pada data digunakan sebagai data training. Sebagian disisihkan terlebih dahulu untuk menjadi gugus data untuk validasi.
Dilakukan pendugaan atau prediksi terhadap amatan pada gugus validasi, dan kemudian dinilai kemampuan prediksinya menggunakan data tersebut dengan membandingkan kelas hasil prediksi dan kelas yang sebenarnya (Sartono, 2018).

Penilaian Kebaikan Prediksi Suatu Classifier

Dalam prediksi yang dilakukan oleh classifierconfusion matrix berguna untuk melihat kebaikan prediksi dengan melihat nilai accuracy, sensitivity, dan specificity. Confusion matrix menunjukkan suatu prediksi dengan kelas sebenarnya dalam pengklasifikasian. Confusion matrix untuk klasifikasi biner memberikan empat hasil yang berbeda yaitu true positive, false positive, false negative, dan true negative. Kinerja suatu classifier dalam memprediksi akan semakin baik jika nilai accuracy, sensitivity, dan specificity semakin dekat dengan 1. Akan tetapi, nilai accuracy bukanlah suatu nilai yang tepat yang dapat dijadikan sebagai ukuran kebaikan suatu classifier jika suatu kelas pengamatan terjadi masalah ketidakseimbangan (imbalanced class). Masalah ketidakseimbangan kelas akan memberikan nilai accuracy yang menyesatkan. Contohnya, suatu data memiliki kelas dengan kategori baik sebanyak 97% dan kelas dengan kategori buruk sebanyak 3%. Jika classifier memprediksi seluruh kelas adalah kelas baik, maka tingkat akurasi sebesar 97%. Hasil ini terlihat sangat baik, akan tetapi sebenarnya classifier memiliki kesalahan 100% untuk kelas buruk atau 0% dapat mengenali suatu kelas termasuk kategori buruk sehingga jika terjadi masalah ketidakseimbangan kelas pada suatu data, nilai accuracy tidak dapat dijadikan penilaian kebaikan prediksi suatu classifier.

Gambar 1. Confusion Matrix

(Sumber gambar: towardsdatascience.com)

Confusion matrix di atas mempunyai 4 hasil berikut:

  • True positive merupakan kondisi ketika amatan yang berasal dari kelas positif diprediksi positif.
  • False negative merupakan kondisi ketika amatan yang sesungguhnya berasal dari kelas positif diprediksi negatif.
  • False positive merupakan kondisi ketika amatan yang sesungguhnya berasal dari kelas negatif diprediksi positif.
  • True negative merupakan kondisi ketika amatan yang berasal dari kelas negatif diprediksi negatif.

Nilai accuracy, sensitivity, dan specificity dapat dihitung berdasarkan confusion matrix dengan rumus sebagai berikut:

  • Sensitivity/Recall/True Positive Rate
    Merupakan tingkat ketepatan prediksi pada kelas positif, yaitu persentase banyaknya prediksi yang tepat pada amatan-amatan yang sesungguhnya positif.
  • Specificity/Selectivity/True Negative Rate
    Merupakan tingkat ketepatan prediksi pada kelas negatif. yaitu persentase banyaknya prediksi yang tepat pada amatan-amatan yang sesungguhnya negatif.
  • Accuracy
    Merupakan tingkat ketepatan prediksi secara keseluruhan, yaitu persentase banyaknya prediksi yang tepat pada seluruh amatan-amatan dalam gugus data.

Selain dengan melihat confusion matrix, penilaian kebaikan prediksi suatu classifier dapat dilihat dari kurva Receiver Operating Characteritic (ROC) dan Area Under the Curve (AUC). ROC merupakan plot dari true positive rate dengan true negative rate sebagai fungsi dari model batas untuk pengklasifikasian kelas positif dan AUC adalah metrik untuk menghitung keseluruhan kinerja suatu model klasifikasi berdasarkan kurva area under the ROC (towardsdatascience.com).

Leave a comment

This website uses cookies to improve your web experience.
Beranda
Konsultasi
Call Center
Cari Artikel
× Add a menu in "WP Dashboard->Appearance->Menus" and select Display location "WP Bottom Menu"