klasteri
Klasteru analīze jeb klasteru veidošana ir uzdevums sagrupēt objektu kopumu tā, lai vienas grupas (ko sauc par klasteri) objekti būtu savstarpēji (tādā vai citādā ziņā) līdzīgāki nekā objekti citās grupās (klasteros). Tas ir viens no galvenajiem pētnieciskās datu ieguves uzdevumiem un izplatīts statistiskās datu analīzes paņēmiens, ko izmanto daudzās jomās, tostarp mašīnmācībā, tēlu atpazīšanā, attēlu analīzē, informācijas meklēšanā un bioinformātikā. Klasteru analīze pati par sevi nav viens konkrēts algoritms, bet gan vispārīgs risināms uzdevums. To var veikt ar dažādiem algoritmiem, kas būtiski atšķiras ar savu priekšstatu par to, kas ir klasteris un kā tos efektīvi atrast. Populāri klasteru jēdzieni ietver grupas ar maziem attālumiem starp klastera locekļiem, blīvas datu telpas zonas, intervālus vai īpašus statistiskos sadalījumus. Tāpēc klasteru veidošanu var formulēt kā daudzobjektīvu optimizācijas problēmu. Atbilstošs klasterizācijas algoritms un parametru iestatījumi (tostarp tādas vērtības kā izmantojamā attāluma funkcija, blīvuma slieksnis vai sagaidāmo klasteru skaits) ir atkarīgi no konkrētās datu kopas un paredzētā rezultātu izmantojuma. Klasteru analīze kā tāda nav automātisks uzdevums, bet gan iteratīvs zināšanu atklāšanas vai interaktīvas daudzobjektīvas optimizācijas process, kas ietver izmēģinājumus un neveiksmes. Bieži vien būs jāmaina datu pirmapstrāde un modeļa parametri, līdz rezultāts sasniegs vēlamās īpašības. Līdztekus terminam klasterizācija ir vairāki termini ar līdzīgu nozīmi, tostarp automātiskā klasifikācija, skaitliskā taksonomija, botrioloģija (no grieķu βότρυς "vīnoga") un tipoloģiskā analīze. Sīkākās atšķirības bieži vien ir rezultātu izmantošanā: ja datu ieguves gadījumā interesē iegūtās grupas, tad automātiskajā klasifikācijā interesē iegūtā diskriminējošā spēja. Tas nereti rada pārpratumus starp pētniekiem, kas nāk no datu ieguves un mašīnmācīšanās jomām, jo viņi izmanto vienus un tos pašus terminus un bieži vien arī vienus un tos pašus algoritmus, bet viņu mērķi ir atšķirīgi. Klasteru analīzi antropoloģijā 1932. gadā aizsāka Driver un Kroeber 1932. gadā, psiholoģijā to ieviesa Zubins 1938. gadā un Roberts Tryons 1939. gadā, un slavens ir Cattell, kurš to sāka izmantot 1943. gadā, lai klasificētu iezīmju teorijas personības psiholoģijā.
