Forskjell mellom hierarkisk og partiell klynging

Anonim

Hierarchical vs Partition Clustering

Clustering er en maskininnlæringsteknikk for analyse av data og deling inn i grupper med lignende data. Disse gruppene eller settene med lignende data kalles klynger. Klientanalyse ser på klyngalgoritmer som kan identifisere klynger automatisk. Hierarkisk og partiell er to slike klasser av klyngalgoritmer. Hierarkiske klyngalgoritmer bryter opp dataene inn i et hierarki av klynger. Parallasjonsalgoritmer deler datasettet i gjensidig disjoint partisjoner.

Hva er hierarkisk clustering?

Hierarkiske klyngalgoritmer gjentar syklusen ved å slå sammen mindre klynger i større eller dele større klynger til mindre. Uansett, produserer det et hierarki av klynger kalt et dendogram. Agglomerative clustering-strategi bruker bottom-up-tilnærmingen til sammenslåing av klynger til større, mens divisive clustering-strategi bruker topp-ned-tilnærmingen til å splitte inn i mindre. Vanligvis brukes den grådige tilnærmingen til å bestemme hvilke større / mindre klynger som brukes til sammenslåing / deling. Euklidisk avstand, Manhattan avstand og cosinus likhet er noen av de mest brukte metrics av ​​likhet for numeriske data. For ikke-numeriske data brukes beregninger som Hamming-avstanden. Det er viktig å merke seg at de faktiske observasjonene (forekomster) ikke er nødvendige for hierarkisk clustering, fordi bare matrisen av avstander er tilstrekkelig. Dendogram er en visuell representasjon av klyngene, som viser hierarkiet veldig tydelig. Brukeren kan oppnå forskjellig clustering avhengig av hvilket nivå dendogrammet er kuttet.

Hva er partiell clustering?

Partitionelle klyngalgoritmer genererer forskjellige partisjoner og deretter evaluerer dem etter et kriterium. De er også referert til som nonhierarchical som hver forekomst er plassert i nøyaktig en av k gjensidig eksklusive klynger. Fordi bare ett sett med klynger er utdataene fra en typisk partisjonell klyngalgoritme, må brukeren skrive inn ønsket antall klynger (vanligvis kalt k). En av de mest brukte partisjonelle clusteringsalgoritmene er k-betyr clustering algoritmen. Bruker er pålagt å gi antall klynger (k) før start og algoritmen initierer først sentrene (eller sentroidsene) av k-partisjonene. I et nøtteskall k-betyr clustering algoritme deretter tildele medlemmer basert på de nåværende sentrene og estimerer ny sentre basert på de nåværende medlemmene. Disse to trinnene gjentas til en bestemt objektivfunksjon for intra-cluster likhet og inter-cluster dissimilarity-objektivfunksjon er optimalisert.Derfor er fornuftig initialisering av sentre en svært viktig faktor for å skaffe kvalitetsresultater fra partisjonelle clusteringsalgoritmer.

Hva er forskjellen mellom hierarkisk og partiell clustering?

Hierarkisk og partiell clustering har viktige forskjeller i kjøretid, antagelser, inngangsparametere og resulterende klynger. Partisk clustering er vanligvis raskere enn hierarkisk clustering. Hierarkisk klynging krever bare likhetstiltak, mens partisklassering krever sterkere forutsetninger som antall klynger og de første sentrene. Hierarkisk clustering krever ikke noen innspillingsparametere, mens partisjonelle klyngalgoritmer krever at antallet klynger skal begynne å løpe. Hierarkisk clustering returnerer en mye mer meningsfylt og subjektiv deling av klynger, men partisk clustering resulterer i nøyaktig k-klynger. Hierarkiske klyngalgoritmer er mer egnet for kategoriske data så lenge et likhetsmål kan defineres tilsvarende.