endro andriyanto's blog: Belajar Clustering K-means dan Nearest Neighbor

Clustering adalah pengelompokan dari record, observasi-observasi atau kasus-kasus ke kelas yang memiliki kemiripan objek-objeknya. Cluster adalah koleksi dari record yang mirip, dan tidak mirip dengan record dari cluster lain. Clustering berbeda dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering. Clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan (Larose 2005).

Secara umum metode utama clustering dapat diklasifikasikan menjadi: Metode partisi, Metode hirarkhi, Metode berdasarkan kepekatan, Metode berdasarkan grid dan Metode berdasarkan model (Han & Kamber 2001).

Baik saya tidak membahas lebih lanjut masalah teorinya. Temen-teman bisa googling sendiri literatur atau buku tentang clustering.

Ini contoh kasusnya: Berikut contoh scoring hasil Test calon Financial Consultan (FC) dengan penilaian Kemampuan Teknik (meliputi: Penguasaan Product Knowledge, Problem Analisys, dll) dan Non-Teknik (meliputi:Personal Approach, Communication, dll)

No	Nama	Kemampuan Teknik	Kemampuan non-Teknik
A1	Joni Pradista	2	10
A2	Wilda Kirana	2	5
A3	Puji Astin	8	4
A4	Lukman Priambodo	5	8
A5	Nunik Lumiati	7	5
A6	Ningsih Muliati	6	4
A7	Mc. Jefri Afianto	1	2
A8	Laksmi Wardani	4	9

Dari data diatas akan kita pisah menjadi 3 kelompok, yang tujuannya adalah mencari metode training yang tepat pada masin-masing kelompok FC tersebut.

K-Means Clustering

Pertama kita tentukan saja A1, A4 dan A7 sebagai pusat dari masing-masing Cluster. Pemilihan Center of Cluster bisa dipilih secara acak. Selanjutnya Center of Cluster tersebut kita sebut sebagai seed (benih) menjadi seed1= A1=(2,10), seed2=A4=(5,8) dan seed3=A7=(1,2)

Untuk mengetahui distance kita pakai saja rumus Eucledian distance:

d(a,b)=sqrt((xb-xa)2+(yb-ya)2))

d(a,b) : jarak antara a dan b

Epoch 1

A1:

d(A1, seed1)=0 , nilai 0 karena A1 sebenarnya adalah Seed1

d(A1, seed2)= 13 >0

d(A1, seed3)= 65 >0

A2:

d(A2,seed1)= 25 = 5

d(A2, seed2)= 18 = 4.24

d(A2, seed3)= 10 = 3.16 à terkecil

maka A2 termasuk cluster3

A3:

d(A3, seed1)= 36 = 6

d(A3, seed2)= 25 = 5 à terkecil

d(A3, seed3)= 53 = 7.28

maka A3 termasuk cluster2

A4:

d(A4, seed1)= 13

d(A4, seed2)=0 , A4 merupakan seed2

d(A4, seed3)= 52 >0

A5:

d(A5, seed1)= 50 = 7.07

d(A5, seed2)= 13 = 3.60 à terkecil

d(A5, seed3)= 45 = 6.70

maka A5 termasuk cluster2

A6:

d(A6, seed1)= 52 = 7.21

d(A6, seed2)= 17 = 4.12 à terkecil

d(A6, seed3)= 29 = 5.38

maka A6 termasuk cluster2

A7:

d(A7, seed1)= 65 >0

d(A7, seed2)= 52 >0

d(A7, seed3)=0 adalah seed3

A8:

d(A8, seed1)= 5

d(A8, seed2)= 2 à terkecil

d(A8, seed3)= 58

Didapatkan cluster baru sebagai berikut:

1: {A1}, 2: {A3, A4, A5, A6, A8}, 3: {A2, A7}

Pusat dari Cluster yang baru (K-Means):

C1= (2, 10), C2= ((8+5+7+6+4)/5, (4+8+5+4+9)/5) = (6, 6), C3= ((2+1)/2, (5+2)/2) = (1.5, 3.5)

Dari perhitungan Epoch 1 didapat gambar berikut:

Epoch 2

Dengan cara yang sama didapat:

Cluster Baru: 1: {A1, A8}, 2: {A3, A4, A5, A6}, 3: {A2, A7}

Center of Cluster: C1=(3, 9.5), C2=(6.5, 5.25) and C3=(1.5, 3.5).

Epoch 3

Cluster Baru: 1: {A1, A4, A8}, 2: {A3, A5, A6}, 3: {A2, A7}

Center of Cluster: C1=(3.66, 9), C2=(7, 4.33) and C3=(1.5, 3.5).

Perhitungan berakhir pada Epoch 3. Dan didapatlah hasil pengelompokkan Calon Financial Consultant (FC) sebagai berikut:

No	Nama	Kemampuan Teknik	Kemampuan non-Teknik
Kelompok 1
A2	Wilda Kirana	2	5
A7	Mc. Jefri Afianto	1	2
Kelompok 2
A1	Joni Pradista	2	10
A4	Lukman Priambodo	5	8
A8	Laksmi Wardani	4	9
Kelompok 3
A3	Puji Astin	8	4
A5	Nunik Lumiati	7	5
A6	Ningsih Muliati	6	4

Referensi:

Osmar R. Zaïane, Ph.D., Professor, Materi Kuliah: Principles of Knowledge Discovery in Data, University of Alberta, Canada
Larose DT. 2004. Discovering Knowledge in Data: An Introduction to Data mining. USA: John Wiley&Sons Inc.
Han J, Kamber M. 2001. Data mining: Concepts and Techniques. USA: Academic Press.

Semoga bermanfaat,

Endro A.

endro andriyanto's blog

Friday, 22 June 2012

Belajar Clustering K-means dan Nearest Neighbor

No comments:

Post a Comment