ANALISIS DISKRIMINAN LINEAR , dalam Pembahasan kali ini, Jika ada prediktor X dan variabel kelas Y, regresi logistik memodelkan peluang bersyarat Y terhadap X atau menggunakan fungsi logistik. Analisis diskriminan linear atau linear discriminant analysis (LDA) memodelkan distribusi X untuk masing-masing kelas Y dan kemudian menggunakan teorema Bayes, yaitu menentukan fungsi kepekatan dari masing-masing kelas yang kemudian digabungkan dengan informasi prior untuk menghasilkan peluang bersyarat kelas Y terhadap X atau . Suatu amatan akan dikelaskan pada kelas ke-k jika peluang bersyaratnya memiliki nilai terbesar dibanding kelas-kelas yang lainnya.
James et al, 2013 menyatakan bahwa ada beberapa alasan memilih LDA dibanding regresi logistik dalam analisis klasifikasi, yaitu:
Ketika suatu kelas benar-benar terpisah, dugaan parameter model regresi logistik menjadi tidak stabil.
Jika banyaknya pengamatan kecil dan distribusi dari prediktor X mendekati normal pada setiap kelas, LDA menjadi lebih stabil dibanding model regresi logistik.
LDA lebih banyak digunakan jika variabel Y memiliki lebih dari dua kelas.
Teorema Bayes dalam Pengklasifikasian
Misal merupakan peluang keseluruhan atau prior dari pengamatan kelas ke-, dengan . Nilai memenuhi
yang dapat diduga dengan
dan merupakan fungsi kepekatan X dari amatan kelas ke-k, dengan kata lain relatif besar jika mempunyai peluang yang tinggi bahwa suatu pengamatan di kelas ke-k memiliki , dan relatif kecil jika suatu pengamatan di kelas ke-k tidak memiliki , maka teorema Bayes dalam hal ini adalah (James et al, 2013):
Dengan adalah posterior probability sebuah amatan dengan prediktor merupakan amatan kelas ke-, yang berarti peluang suatu amatan merupakan kelas ke- jika diberikan prediktor pada amatan tersebut. Hal ini berdasarkan konsep maximum a posteriori sebagai berikut (Sartono, 2018):
Untuk kasus dua kelas, misalnya kelas 0 dan kelas 1, maka:
jika
dan
jika
Prediksi dengan LDA (untuk )
Jika suatu data memiliki 1 prediktor (), untuk mengklasifikasikan suatu amatan pada kelas ke- yang diberikan prediktor dimana nilai merupakan nilai terbesar, diperlukan dugaan terhadap . Fungsi kepekatan dari amatan kelas ke-, dengan 1 prediktor diasumsikan berdistribusi normal:
Dimana dan adalah rataan dan variansi dari parameter untuk kelas ke- serta yang artinya antar kelas memiliki variansi yang homogen sehingga diperoleh:
Dengan menggunakan konsep maximum a posteriori,
Karena logaritma merupakan fungsi yang monoton naik, maka dapat juga dituliskan
Bayes Classifier akan mengklasifikasikan amatan ke kelas yang memaksimumkan nilai . Hal ini ekivalen dengan nilai terbesar dari
Metode LDA dilakukan dengan pendekatan dari Bayes Classifier dengan memasukkan dugaan dari parameter dan ke , yaitu:
Dengan
: jumlah amatan kelas ke-, dengan
: jumlah seluruh amatan
Diperoleh
adalah fungsi diskriminan. James et al, 2013 menyatakan bahwa kata ‘linear’ dalam LDA dari fungsi diskriminan yang merupakan fungsi linear dari . LDA mengklasifikasikan amatan ke kelas yang memaksimumkan nilai .
Prediksi dengan LDA ( untuk )
LDA dengan prediktor lebih dari satu mengasumsikan berdistribusi multivariate normal sehingga:
Dengan adalah vektor rataan, dan adalah matriks varian-kovarian dengn (homogen) sehingga diperoleh (nilai dugaan parameter analog dengan mencari dugaan parameter LDA dengan ):
LDA mengklasifikasikan amatan ke kelas yang memaksimumkan nilai .