La cluster analysis è un metodo di organizzare i dati in gruppi rappresentativi basati su caratteristiche simili . Ciascun membro del cluster ha più in comune con gli altri membri dello stesso gruppo che con i membri degli altri gruppi . Il punto più rappresentativo all’interno del gruppo si chiama il baricentro . Di solito , questa è la media dei valori dei punti di dati nei cluster.Things che vi serve

Calculator

grafico carta

Mostra Altre istruzioni

1

Organizzare i dati . Se i dati consistono di una singola variabile , un istogramma potrebbe essere appropriato . Se sono coinvolti due variabili , grafico i dati su un piano di coordinate . Ad esempio, se stavate guardando l’altezza e il peso dei bambini della scuola in una classe , tracciare i punti di dati per ogni bambino su un grafico , con il peso di essere l’asse orizzontale e l’altezza essendo l’asse verticale . Se sono coinvolti più di due variabili , possono essere necessari matrici per visualizzare i dati.

2

Gruppo i dati in cluster . Ogni cluster dovrebbe comprendere i punti di dati più vicino ad esso . In altezza e peso esempio , gruppo tutti i punti di dati che sembrano essere vicini. Il numero di cluster , e se ogni punto di dati deve essere in un cluster , può dipendere fini dello studio .

3

Per ogni cluster , aggiungere i valori di tutti i membri . Ad esempio , se un gruppo di dati comprendeva i punti (80, 56) , ( 75 , 53 ) , ( 60 , 50) , e ( 68,54 ) , la somma dei valori sarebbe ( 283 , 213 ) .

4

dividere il totale per il numero di membri del cluster . Nell’esempio precedente , 283 diviso per quattro è 70.75 , e 213 divise da quattro è 53.25 , in modo che il baricentro del cluster è ( 70.75 , 53.25 ) .

5

Tracciare i centroidi del cluster e determinare se i punti sono più vicini ad un centroide di un altro cluster di quanto non siano al centroide della propria cluster. Se i punti sono più vicino a un baricentro diverso , ridistribuirli al cluster contenente il baricentro più vicino .

6

Ripetere i punti 3 , 4 e 5 finché tutti i punti di dati sono in cluster contenente il baricentro di che sono i più vicini .