Clustering adalah pengelompokan dari record,
observasi-observasi atau kasus-kasus ke kelas yang memiliki kemiripan
objek-objeknya. Cluster adalah koleksi dari record yang mirip, dan tidak mirip
dengan record dari cluster lain. Clustering berbeda dengan klasifikasi, dalam hal
tidak ada variabel target untuk clustering. Clustering tidak
mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel
target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan
himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record
dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan (Larose
2005).
Secara umum metode utama clustering dapat diklasifikasikan
menjadi: Metode partisi, Metode hirarkhi, Metode berdasarkan kepekatan, Metode
berdasarkan grid dan Metode berdasarkan model (Han & Kamber 2001).
Baik saya tidak membahas lebih lanjut masalah teorinya. Temen-teman
bisa googling sendiri literatur atau buku tentang clustering.