Hierarchinis ir padalijimas į grupes

Klasterizavimas yra mašininio mokymosi metodas analizuoti duomenis ir suskirstyti į panašių duomenų grupes. Šios grupės ar panašių duomenų rinkiniai yra žinomi kaip grupės. Klasterių analizėje nagrinėjami grupavimo algoritmai, pagal kuriuos klasteriai gali būti atpažįstami automatiškai. Hierarchinės ir skaidomosios yra dvi tokios klasterizacijos algoritmų klasės. Hierarchiniai grupavimo algoritmai suskaido duomenis į klasterių hierarchiją. Paritionaliniai algoritmai padalija duomenų rinkinį į tarpusavyje neskaidomus skaidinius.

Kas yra hierarchinis klasterizavimas?

Hierarchiniai grupavimo algoritmai pakartoja mažesnių grupių sujungimą į didesnes arba didesnių klasterių padalijimą į mažesnius. Bet kuriuo atveju ji sukuria klasterių hierarchiją, vadinamą dendograma. Aglomeratyvioje klasterizacijos strategijoje naudojamasi „iš apačios į viršų“ metodu, sujungiant grupes į didesnes, tuo tarpu dalijančioji klasterizacijos strategija naudoja „iš viršaus į apačią“ metodą, suskaidydama į mažesnius. Paprastai godus požiūris naudojamas nusprendžiant, kurios didesnės / mažesnės grupės naudojamos sujungimui / padalijimui. Euklidinis atstumas, Manheteno atstumas ir kosinuso panašumas yra keletas skaitinių duomenų dažniausiai naudojamų panašumo rodiklių. Neskaitmeniniams duomenims naudojama tokia metrika kaip Hammingo atstumas. Svarbu pažymėti, kad tikrieji stebėjimai (egzemplioriai) nėra reikalingi hierarchiniam grupavimui, nes pakanka tik atstumų matricos. Dendograma yra vizualus klasterių vaizdas, kuris labai aiškiai parodo hierarchiją. Vartotojas gali gauti skirtingas grupes, priklausomai nuo dendogramos pjaustymo lygio.

Kas yra padalijimų grupavimas?

Skirstymo į grupes algoritmai sukuria įvairius skaidinius ir vertina juos pagal tam tikrą kriterijų. Jie taip pat vadinami nehierarchiškais, nes kiekviena instancija yra dedama tiksliai į vieną iš k viena kitą paneigiančių grupių. Kadangi tipiškas skaidinių grupavimo algoritmas yra tik vienas klasterių rinkinys, iš vartotojo reikalaujama įvesti norimą klasterių skaičių (paprastai vadinamą k). Vienas iš dažniausiai naudojamų skaidinių grupavimo algoritmų yra „k“ reiškia grupavimo algoritmas. Prieš pradedant vartotoją, reikia nurodyti klasterių skaičių (k), o algoritmas pirmiausia inicijuoja k skaidinių centrus (arba centroidus). Trumpai tariant, „k“ reiškia grupavimo algoritmas paskirsto narius pagal dabartinius centrus ir iš naujo įvertina centrus, remiantis dabartiniais nariais. Šie du žingsniai kartojami tol, kol bus optimizuota tam tikra klasterio panašumo tikslo funkcija ir klasterių skirtingumo tikslo funkcija. Todėl protingas centrų inicijavimas yra labai svarbus veiksnys norint gauti kokybės rezultatus iš skaidinių grupavimo algoritmų.

Kuo skiriasi hierarchinis ir skaidomasis klasterizavimas?

Hierarchinis ir skaidomasis grupavimas turi pagrindinius veikimo laiko, prielaidų, įvesties parametrų ir iš to kylančių klasterių skirtumus. Paprastai skaidinių grupavimas yra greitesnis nei hierarchinis grupavimas. Hierarchiniam grupavimui reikalingas tik panašumo matas, tuo tarpu dalijamajam grupavimui reikalingos tvirtesnės prielaidos, pavyzdžiui, grupių skaičius ir pradiniai centrai. Hierarchiniam klasteriui nereikia jokių įvesties parametrų, tuo tarpu skaidinių grupavimo algoritmams pradėti reikia skaičiaus grupių. Hierarchinis grupavimas grąžina žymiai prasmingesnį ir subjektyvesnį klasterių suskirstymą, tačiau padalijimas į grupes sukuria tiksliai k grupes. Hierarchiniai grupavimo algoritmai yra tinkamesni kategoriniams duomenims, jei panašumo matą galima atitinkamai apibrėžti.