Skip links

REGRESI LOGISTIK DALAM ANALISIS KLASIFIKASI

REGRESI LOGISTIK DALAM ANALISIS KLASIFIKASI

Oleh: Fitri Ramadhini

Regresi

    Istilah regresi pertama kali diperkenalkan oleh Francis Galton. Galton (1886) dalam Gujarati (2009) mengatakan bahwa meskipun ada kecenderungan orang tua yang tinggi untuk memiliki anak-anak yang tinggi dan orang tua yang pendek untuk memiliki anak-anak yang pendek, rata-rata tinggi anak-anak yang lahir dari orang tua dengan tinggi badan tertentu cenderung bergerak atau mundur (regress) ke arah tinggi rata-rata dalam populasi secara keseluruhan. Dengan kata lain, tinggi anak-anak dari orang tua yang luar biasa tinggi atau luar biasa pendek cenderung bergerak ke arah ketinggian rata-rata populasi.

lihat juga artike terbaru kami disini

    Gujarati (2009) mendefinisikan analisis regresi sebagai kajian terhadap ketergantungan satu variabel (variabel terikat) pada satu atau beberapa variabel (variabel tidak terikat). Variabel terikat disebut juga dengan respons, dan variabel tidak terikat disebut juga sebagai variabel penjelas atau prediktor. Analisis regresi membantu dalam hal melihat perubahan nilai suatu variabel respons ketika salah satu prediktor diterapkan dan prediktor lain bernilai konstan.

Regresi Logistik

    Regresi logistik adalah salah satu metode regresi jika respons berupa kualitatif. Jika pada model regresi dengan respons kuantitatif pendugaan akan dilakukan pada rataan, maka pada model regresi dengan respons kualitatif atau kategorik pendugaan akan dilakukan pada nilai probabilitas modelnya. Kategori dari respons dapat terdiri dari 2 kemungkinan nilai (binary/dichotomous) misalnya ya/tidak, sukses/gagal, dan sakit/tidak sakit, atau kategori respons dapat terdiri lebih dari 2 kemungkinan (multiple category/polychotomous) misalnya rasa dari suatu makanan yaitu asam/manis/asin, atau juga dapat berupa ordinal misalnya sangat setuju/setuju/tidak setuju/sangat tidak setuju.

Tujuan Regresi Logistik

    Rosadi (2011) memaparkan 2 tujuan utama dari regresi logistik, yaitu:

  1. Memprediksi probabilitas terjadinya atau tidak terjadinya event (terjadinya nonevent) berdasarkan nilai-nilai prediktor yang ada. Event merupakan status variabel respons yang menjadi pokok perhatian.
  2. Mengklasifikasikan subjek penelitian berdasarkan ambang (threshold) probabilitas.

Memprediksi respons kualitatif dalam pengamatan dapat disebut sebagai mengklasifikasikan pengamatan itu, karena melibatkan pengamatan tersebut ke suatu kategori atau kelas. Di sisi lain, metode yang sering digunakan untuk klasifikasi pertama adalah memprediksi probabilitas masing-masing kategori dari variabel kualitatif, sebagai dasar untuk membuat klasifikasi (James, 2018 dalam datacamp.com).

Model Regresi Logistik

    Misalkan diperoleh data dengan respons yang terdiri dari 2 kemungkinan yaitu sukses dan gagal yang dapat dijelaskan oleh 2 prediktor, maka model regresi linear adalah sebagai berikut:

Dimana merupakan respons ke- (jika respons sukses (event), dan 0 jika respons gagal (nonevent)) dan dan adalah prediktor 1 dan 2 pada data ke-. Model ini terlihat seperti model regresi linear, akan tetapi respons berupa kategorik sehingga disebut sebagai linear probability model atau LPM. Ini disebabkan nilai harapan bersayarat jika diberikan , dapat diinterpretasikan sebagai probabilitas bersayarat bahwa suatu event akan terjadi jika diberikan , (Gujarati, 2009) atau dalam contoh ini adalah probabilitas respons sukses ketika diberikan prediktor 1 dan 2.

Dalam Rosadi (2011), model regresi logistik atau model logit didasari oleh LPM, dimana LPM merupakan penerapan regresi linear klasik pada respons kategorik atau bertipe kualitatif. LPM mengubah model regresi linear klasik menjadi model probabilitas linear, dengan persamaan

Maka

Karena berupa probabilitas, kemungkinan nilai terbatas antara 0 sampai 1. Namun nilai dari adalah suatu nilai yang mungkin tidak terbatas sehingga hasil estimasi LPM terkadang berada di luar interval [0,1] sehingga diperlukan adanya suatu fungsi yang memetakan nilai ke unit interval, fungsi ini disebut dengan fungsi logistik atau disebut juga dengan fungsi sigmoid yang memiliki kurva berbentuk S dengan interval nilai di antara 0 dan 1.

Gambar 1. Fungsi Logistik

(Sumber: machinelearningmastery.com)

Dari fungsi logistik, diperoleh model logistik linear secara umum sebagai berikut:

Model di atas dapat juga ditulis sebagai berikut:

Dengan adalah rasio odds event (rasio probabbilitas respon berupa event terhadap probabilitas respon berupa nonevent).

Selanjutnya, dengan mengambil logaritma natural dari rasio odds event (logit), diperoleh model logit:

Dengan menggunakan model logit di atas, terlihat bahwa model kembali dalam bentuk linear (seperti regresi linear klasik) dengan output berupa log dari rasio odds event.

Gambar 2. Ilustrasi Transformasi Model Logit

(Sumber: slideplayer.com (KNN Ch. 14))

Koefisien dan diduga berdasarkan data training yang dapat dilakukan dengan metode maximum likelihood estimator (MLE). MLE merupakan metode untuk menduga parameter dari model statistik yang memaksimalkan fungsi likelihood.

Regresi Logistik sebagai Classifier

    Seperti telah dijelaskan sebelumnya bahwa metode yang sering digunakan untuk klasifikasi pertama adalah memprediksi probabilitas masing-masing kategori dari variabel kualitatif. Regresi logistik merupakan classifier dengan metode supervised learning, yatiu suatu metode pengklasifikasian dimana setiap pengamatan memiliki variabel prediktor yang berkaitan dengan variabel respon. Regresi logistik sebagai classifier dalam analisis klasifikasi mengklasifikasikan subjek penelitian berdasarkan ambang (threshold) probabilitas, misalnya jika nilai probabilitas lebih dari 0.5, maka akan dibulatkan menjadi 1 yang artinya pengklasifikasian respon adalah di kelas event. Jika nilai probabilitas kurang dari atau sama dengan 0.5, maka akan dibulatkan menjadi 0 yang artinya pengklasifikasian respon adalah di kelas nonevent. Model regresi yang digunakan berdasarkan data training yang kemudian diaplikasikan ke data testing.

    Pengklasifikasian menggunakan regresi logistik umumnya memiliki 2 kemungkinan atau binary classification (binary logistic regression / regresi logistik biner), misalnya berdasarkan contoh sebelumnya yaitu mengklasifikasikan suatu kelas sukses/gagal. Namun ada saatnya pengklasifikasin lebih dari 2 kemungkinan atau multiclass classification. Regresi logistik ini disebut juga sebagai multinomial logistic regression (regresi logistik multinomial) dimana kategori respons merupakan nominal lebih dari 2 kategori. Regresi logistik multinomial membentuk model regresi logistik biner secara terpisah untuk masing-masing variabel dummy kategori respons. Misalnya, jika mempunyai K kategori, maka akan menghasilkan K-1 model regresi logistik biner. Setiap model merupakan probabilitas kemungkinan suatu kategorinya dibanding dengan kategori referensi.

Selain itu, ada saatnya respons merupakan kategori bertingkat (ordinal), misalnya tingkat kepuasan pelanggan. Regresi logistik ini disebut sebagai ordinal logistic regression (regresi logistik ordinal) yang digunakan untuk menduga respons dengan beberapa kategori dalam skala ordinal.

Leave a comment

This website uses cookies to improve your web experience.
Beranda
Konsultasi
Call Center
Cari Artikel
× Add a menu in "WP Dashboard->Appearance->Menus" and select Display location "WP Bottom Menu"