Clustering adalah pengelompokan dari record,
observasi-observasi atau kasus-kasus ke kelas yang memiliki kemiripan
objek-objeknya. Cluster adalah koleksi dari record yang mirip, dan tidak mirip
dengan record dari cluster lain. Clustering berbeda dengan klasifikasi, dalam hal
tidak ada variabel target untuk clustering. Clustering tidak
mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel
target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan
himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record
dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan (Larose
2005).
Secara umum metode utama clustering dapat diklasifikasikan
menjadi: Metode partisi, Metode hirarkhi, Metode berdasarkan kepekatan, Metode
berdasarkan grid dan Metode berdasarkan model (Han & Kamber 2001).
Baik saya tidak membahas lebih lanjut masalah teorinya. Temen-teman
bisa googling sendiri literatur atau buku tentang clustering.
Ini contoh kasusnya: Berikut contoh scoring hasil Test calon
Financial Consultan (FC) dengan penilaian Kemampuan Teknik (meliputi: Penguasaan
Product Knowledge, Problem Analisys, dll) dan Non-Teknik (meliputi:Personal
Approach, Communication, dll)
No
|
Nama
|
Kemampuan Teknik
|
Kemampuan non-Teknik
|
A1
|
Joni Pradista
|
2
|
10
|
A2
|
Wilda Kirana
|
2
|
5
|
A3
|
Puji Astin
|
8
|
4
|
A4
|
Lukman Priambodo
|
5
|
8
|
A5
|
Nunik Lumiati
|
7
|
5
|
A6
|
Ningsih Muliati
|
6
|
4
|
A7
|
Mc. Jefri Afianto
|
1
|
2
|
A8
|
Laksmi Wardani
|
4
|
9
|
Dari data diatas akan kita pisah menjadi 3 kelompok, yang
tujuannya adalah mencari metode training yang tepat pada masin-masing kelompok FC
tersebut.
K-Means Clustering
Pertama kita tentukan saja A1, A4 dan A7 sebagai pusat dari masing-masing
Cluster. Pemilihan Center of Cluster bisa dipilih secara acak. Selanjutnya
Center of Cluster tersebut kita sebut sebagai seed (benih) menjadi seed1=
A1=(2,10), seed2=A4=(5,8) dan seed3=A7=(1,2)
Untuk mengetahui distance kita pakai saja rumus Eucledian distance:
d(a,b)=sqrt((xb-xa)2+(yb-ya)2))
d(a,b)
: jarak antara a dan b
Epoch 1
A1:
d(A1, seed1)=0 , nilai
0 karena A1 sebenarnya adalah Seed1
d(A1, seed2)= 13 >0
d(A1, seed3)= 65 >0
A2:
d(A2,seed1)= 25 = 5
d(A2, seed2)= 18 = 4.24
d(A2, seed3)= 10 = 3.16 à terkecil
maka A2 termasuk
cluster3
A3:
d(A3, seed1)= 36 = 6
d(A3, seed2)= 25 = 5 à
terkecil
d(A3, seed3)= 53 = 7.28
maka A3 termasuk cluster2
A4:
d(A4, seed1)= 13
d(A4, seed2)=0 , A4 merupakan seed2
d(A4, seed3)= 52 >0
A5:
d(A5, seed1)= 50 = 7.07
d(A5, seed2)= 13 = 3.60 à terkecil
d(A5, seed3)= 45 = 6.70
maka A5 termasuk cluster2
A6:
d(A6, seed1)= 52 = 7.21
d(A6, seed2)= 17 = 4.12 à terkecil
d(A6, seed3)= 29 = 5.38
maka A6 termasuk cluster2
A7:
d(A7, seed1)= 65 >0
d(A7, seed2)= 52 >0
d(A7, seed3)=0 adalah
seed3
A8:
d(A8, seed1)= 5
d(A8, seed2)= 2 à terkecil
d(A8, seed3)= 58
Didapatkan cluster baru sebagai berikut:
1: {A1}, 2: {A3, A4, A5, A6, A8}, 3: {A2, A7}
Pusat dari Cluster yang baru (K-Means):
C1= (2, 10), C2= ((8+5+7+6+4)/5, (4+8+5+4+9)/5) = (6, 6),
C3= ((2+1)/2, (5+2)/2) = (1.5, 3.5)
Dari perhitungan Epoch 1 didapat gambar berikut:
Epoch 2
Dengan cara yang sama didapat:
Cluster Baru: 1: {A1, A8}, 2: {A3, A4, A5, A6}, 3: {A2, A7}
Center of Cluster: C1=(3, 9.5), C2=(6.5, 5.25) and C3=(1.5,
3.5).
Epoch 3
Cluster Baru: 1: {A1, A4, A8}, 2: {A3, A5, A6}, 3: {A2, A7}
Center of Cluster: C1=(3.66, 9), C2=(7, 4.33) and C3=(1.5,
3.5).
Perhitungan berakhir pada Epoch 3. Dan didapatlah hasil
pengelompokkan Calon Financial
Consultant (FC) sebagai berikut:
No
|
Nama
|
Kemampuan Teknik
|
Kemampuan non-Teknik
|
Kelompok 1
|
|||
A2
|
Wilda Kirana
|
2
|
5
|
A7
|
Mc. Jefri Afianto
|
1
|
2
|
Kelompok 2
|
|||
A1
|
Joni Pradista
|
2
|
10
|
A4
|
Lukman Priambodo
|
5
|
8
|
A8
|
Laksmi Wardani
|
4
|
9
|
Kelompok 3
|
|||
A3
|
Puji Astin
|
8
|
4
|
A5
|
Nunik Lumiati
|
7
|
5
|
A6
|
Ningsih Muliati
|
6
|
4
|
Referensi:
- Osmar R. Zaïane, Ph.D., Professor, Materi Kuliah: Principles of Knowledge Discovery in Data, University of Alberta, Canada
- Larose DT. 2004. Discovering Knowledge in Data: An Introduction to Data mining. USA: John Wiley&Sons Inc.
- Han J, Kamber M. 2001. Data mining: Concepts and Techniques. USA: Academic Press.
Semoga bermanfaat,
Endro A.
No comments:
Post a Comment