Friday 22 June 2012

Belajar Clustering K-means dan Nearest Neighbor


K-Means Nearest NeighborClustering adalah pengelompokan dari record, observasi-observasi atau kasus-kasus ke kelas yang memiliki kemiripan objek-objeknya. Cluster adalah koleksi dari record yang mirip, dan tidak mirip dengan record dari cluster lain. Clustering berbeda dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering. Clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan (Larose 2005).



Secara umum metode utama clustering dapat diklasifikasikan menjadi: Metode partisi, Metode hirarkhi, Metode berdasarkan kepekatan, Metode berdasarkan grid dan Metode berdasarkan model (Han & Kamber 2001).

Baik saya tidak membahas lebih lanjut masalah teorinya. Temen-teman bisa googling sendiri literatur atau buku tentang clustering. 


Ini contoh kasusnya: Berikut contoh scoring hasil Test calon Financial Consultan (FC) dengan penilaian Kemampuan Teknik (meliputi: Penguasaan Product Knowledge, Problem Analisys, dll) dan Non-Teknik (meliputi:Personal Approach, Communication, dll)  

No
Nama
Kemampuan Teknik
Kemampuan non-Teknik
A1
Joni Pradista
2
10
A2
Wilda Kirana
2
5
A3
Puji Astin
8
4
A4
Lukman Priambodo
5
8
A5
Nunik Lumiati
7
5
A6
Ningsih Muliati
6
4
A7
Mc. Jefri Afianto
1
2
A8
Laksmi Wardani
4
9

Dari data diatas akan kita pisah menjadi 3 kelompok, yang tujuannya adalah mencari metode training yang tepat pada masin-masing kelompok FC tersebut.

K-Means Clustering
Pertama kita tentukan saja A1, A4 dan A7 sebagai pusat dari masing-masing Cluster. Pemilihan Center of Cluster bisa dipilih secara acak. Selanjutnya Center of Cluster tersebut kita sebut sebagai seed (benih) menjadi seed1= A1=(2,10), seed2=A4=(5,8) dan seed3=A7=(1,2)
Untuk mengetahui distance kita pakai saja rumus Eucledian distance:
d(a,b)=sqrt((xb-xa)2+(yb-ya)2))
                d(a,b) : jarak antara a dan b

Epoch 1
A1:
d(A1, seed1)=0  , nilai 0 karena A1 sebenarnya adalah Seed1
d(A1, seed2)= 13 >0
d(A1, seed3)= 65 >0
 A2:
d(A2,seed1)= 25 = 5
d(A2, seed2)= 18 = 4.24
d(A2, seed3)= 10 = 3.16 à terkecil
maka  A2 termasuk cluster3
 A3:
d(A3, seed1)= 36 = 6
d(A3, seed2)= 25 = 5 à terkecil
d(A3, seed3)= 53 = 7.28
maka  A3 termasuk cluster2
A4:
d(A4, seed1)= 13
d(A4, seed2)=0 , A4 merupakan  seed2
d(A4, seed3)= 52 >0
A5:
d(A5, seed1)= 50 = 7.07
d(A5, seed2)= 13 = 3.60 à terkecil
d(A5, seed3)= 45 = 6.70
maka A5 termasuk cluster2
A6:
d(A6, seed1)= 52 = 7.21
d(A6, seed2)= 17 = 4.12 à terkecil
d(A6, seed3)= 29 = 5.38
 maka A6 termasuk cluster2
A7:
d(A7, seed1)= 65 >0
d(A7, seed2)= 52 >0
d(A7, seed3)=0  adalah  seed3
A8:
d(A8, seed1)= 5
d(A8, seed2)= 2 à terkecil
d(A8, seed3)= 58

Didapatkan cluster baru sebagai berikut:
1: {A1}, 2: {A3, A4, A5, A6, A8}, 3: {A2, A7}
Pusat dari Cluster yang baru (K-Means):
C1= (2, 10), C2= ((8+5+7+6+4)/5, (4+8+5+4+9)/5) = (6, 6), C3= ((2+1)/2, (5+2)/2) = (1.5, 3.5)
Dari perhitungan Epoch 1 didapat gambar berikut:
Epoch 2
Dengan cara yang sama didapat:
Cluster Baru: 1: {A1, A8}, 2: {A3, A4, A5, A6}, 3: {A2, A7}
Center of Cluster: C1=(3, 9.5), C2=(6.5, 5.25) and C3=(1.5, 3.5).
Epoch 3
Cluster Baru: 1: {A1, A4, A8}, 2: {A3, A5, A6}, 3: {A2, A7}
Center of Cluster: C1=(3.66, 9), C2=(7, 4.33) and C3=(1.5, 3.5).
Perhitungan berakhir pada Epoch 3. Dan didapatlah hasil pengelompokkan  Calon Financial Consultant (FC) sebagai berikut:
No
Nama
Kemampuan Teknik
Kemampuan non-Teknik
Kelompok 1
A2
Wilda Kirana
2
5
A7
Mc. Jefri Afianto
1
2
Kelompok 2
A1
Joni Pradista
2
10
A4
Lukman Priambodo
5
8
A8
Laksmi Wardani
4
9
Kelompok 3
A3
Puji Astin
8
4
A5
Nunik Lumiati
7
5
A6
Ningsih Muliati
6
4

Referensi:
  • Osmar R. Zaïane, Ph.D., Professor, Materi Kuliah: Principles of Knowledge Discovery in Data, University of Alberta, Canada
  • Larose DT. 2004. Discovering Knowledge in Data: An Introduction to Data mining. USA: John Wiley&Sons Inc.
  • Han J, Kamber M. 2001. Data mining: Concepts and Techniques. USA: Academic Press.

Semoga bermanfaat,


Endro A.

No comments:

Post a Comment