analisi esplorativa dei dati si applica una serie di metodi di base per riassumere una serie di dati al fine di individuare modelli e relazioni inaspettate tra le variabili . Questo separa l’approccio esplorativo dall’analisi dei dati di conferma , che sottolinea verifica di ipotesi . Statistico John Tukey sperimentato i metodi di analisi esplorativa dei dati nel 1970 . Sebbene l’analisi esplorativa comprende alcuni metodi statistici di base , la maggior parte delle sue tecniche sono visivi , come rappresentazioni grafiche forniscono un mezzo per l’esplorazione di mentalità aperta dei dati . Riepilogo Cinque Numero

Questa tecnica di analisi esplorativa riassume i dati combina tre indicatori sintetici statistiche – noti come misure di tendenza centrale – con due provvedimenti di variazione di fornire indicazioni sulla distribuzione dei dati . Analisti sviluppano questa sintesi disponendo i valori dei dati in ordine decrescente , quindi selezionando i valori massimo e minimo , così come la mediana o il punto dati che si trova nel mezzo . Gli altri due valori includono il primo quartile , o il valore al quale il 25 per cento delle osservazioni sono più piccoli e il 75 per cento sono più grandi , e il terzo quartile , il valore al quale il 75 per cento sono più piccoli e il 25 per cento sono più grandi . Arraying questi cinque numeri dal più piccolo al più grande trasmette un senso di come simmetrica i dati sono .

Box -and- Whisker Plot

La trama box-and – whisker fornisce una rappresentazione visiva della sintesi cinque numero mostrando la forma di distribuzione del dati nonché tendenza centrale e variabilità . Il diagramma è costituito da una scatola rettangolare i cui limiti superiore e inferiore rappresentano il primo e il terzo quartile mentre una terza linea attraverso la scatola rappresenta la mediana . Inoltre , due linee che si estendono da ciascuna estremità della scatola (i ” baffi” ) mostrano variazioni nei dati visualizzazione dei punti dati più grandi e più piccoli . Se i dati sono simmetrici , i baffi avranno uguale lunghezza e la linea mediana sarà dividere il box in due metà uguali . La maggior parte dei set di dati , tuttavia , non sono simmetriche , ma distorti sia a sinistra oa destra a causa di valori insolitamente alti o bassi che distorcono i dati . La trama box-and – whisker mostra visivamente la quantità di disallineamento dei dati.

Stem -and- Leaf display

Questo metodo esplorativo combina quantitativa e tecniche grafiche per la visualizzazione dei numeri grezzi in una visualizzazione simile a un istogramma o grafico a barre . Il display prende i numeri grezzi e separa le cifre iniziali , o ” deriva ” dalle cifre finali , denominati ” le foglie . ” Ad esempio , un analista di dati potrebbe costruire un display ramo- foglia dei punteggi del test in una classe sezione 30 studenti in cui punteggi variano da un minimo di 52 ad un massimo di 98 rendendo la cifra nella colonna decine stelo e la cifra nella colonna quelle foglie . Così , i gambi consisterebbe delle cifre da 5 a 9 , con le foglie diramano da ogni stelo . Ad esempio, se quattro studenti ottenuto 83 sul test , il display visualizza uno stelo di 8 , seguito da quattro 3s . Il diagramma ramo- foglia trasmette la distribuzione delle frequenze nei dati consentendo anche un analista di vedere i valori reali .

Dispersione

singoli appezzamenti di visualizzazione visiva punti dati di due variabili su un grafico , con ciascun punto o punto rappresenta l’intersezione dei valori di due variabili . Ad esempio, un analista economico potrebbe creare un grafico a dispersione dei salari orari e anni di esperienza di lavoro . Lo schema dei punti permette di comprendere meglio la correlazione tra le due variabili . Se il cluster di punti attorno ad una linea retta che suggerisce una correlazione più forte , mentre una dispersione casuale , cercando suggerisce poca o nessuna relazione tra le variabili .

Statistica descrittiva

Questi includere misure quali la media o la media numerica , e la deviazione standard , che convoglia la quantità di dispersione nei dati . Mentre medie e deviazioni standard sono misure importanti, che forniscono solo limitata conoscenza dei dati; Inoltre, i valori alti o bassi estremi – noti come valori anomali – possono distorcere queste misure. La migliore analisi esplorativa che utilizza statistiche descrittive fa in combinazione con altri metodi , come ad esempio un display grafico come un grafico a dispersione o un diagramma box-and -whisker .