klasteriai
Klasterinė analizė arba klasterizavimas - tai užduotis sugrupuoti objektų rinkinį taip, kad tos pačios grupės (vadinamos klasteriu) objektai būtų panašesni (tam tikra prasme) vienas į kitą nei kitų grupių (klasterių) objektai. Tai yra pagrindinis tiriamosios duomenų gavybos uždavinys ir įprastas statistinės duomenų analizės metodas, naudojamas daugelyje sričių, įskaitant mašininį mokymąsi, modelių atpažinimą, vaizdų analizę, informacijos paiešką ir bioinformatiką. Pati klasterinė analizė yra ne vienas konkretus algoritmas, o bendras sprendžiamas uždavinys. Jį galima atlikti įvairiais algoritmais, kurie labai skiriasi savo samprata, kas yra klasteris ir kaip efektyviai juos rasti. Populiarios klasterių sąvokos apima grupes, kurių atstumai tarp klasterio narių yra maži, tankias duomenų erdvės sritis, intervalus arba tam tikrus statistinius pasiskirstymus. Todėl klasterizavimą galima suformuluoti kaip daugiaobjektę optimizavimo problemą. Tinkamas klasterizavimo algoritmas ir parametrų nustatymai (įskaitant tokias vertes kaip naudojama atstumo funkcija, tankio riba arba numatomų klasterių skaičius) priklauso nuo konkretaus duomenų rinkinio ir numatyto rezultatų naudojimo. Klasterių analizė, kaip tokia, nėra automatinė užduotis, o iteracinis žinių atradimo arba interaktyvaus daugiaobjektinio optimizavimo procesas, apimantis bandymus ir nesėkmes. Dažnai teks keisti pirminį duomenų apdorojimą ir modelio parametrus, kol rezultatas pasieks norimas savybes. Be termino "klasterizavimas", yra nemažai panašios reikšmės terminų, įskaitant automatinį klasifikavimą, skaitmeninę taksonomiją, botrologiją (iš graikų kalbos βότρυς "vynuogė") ir tipologinę analizę. Subtilūs skirtumai dažnai pasireiškia rezultatų panaudojimu: duomenų gavybos atveju domimasi gautomis grupėmis, o automatinio klasifikavimo atveju domimasi gauta diskriminacine galia. Dėl to dažnai kyla nesusipratimų tarp tyrėjų, atvykusių iš duomenų gavybos ir automatinio mokymosi sričių, nes jie vartoja tuos pačius terminus ir dažnai tuos pačius algoritmus, tačiau siekia skirtingų tikslų. Klasterinę analizę 1932 m. antropologijoje pradėjo Driveris ir Kroeberis, 1938 m. Zubinas ir 1939 m. Robertas Tryonas ją įdiegė psichologijoje, o nuo 1943 m. ją garsiai naudojo Cattellas asmenybės psichologijoje bruožų teorijos klasifikavimui.
