Avere un set di dati è solo una metà del cammino verso la scrittura di una grande carta o di condurre una analisi interessante . Una volta che hai i dati , è necessario stabilire un modo per analizzare i dati che è utile e statisticamente valida . Con grandi insiemi di dati globali , le tecniche più comuni riguardano l’analisi di regressione . Regressione lineare multipla

La forma più elementare di analisi di regressione è la regressione lineare multipla . Tecniche di regressione lineare tentano di montare una funzione lineare ai dati da stima di un intercettare e piste parziali relativi alle variabili indipendenti nel modello . Mentre la regressione lineare multipla è abbastanza comune , se la variabile di interesse non si comporta in modo lineare sulla parte rilevante della regressione , si può essere nei guai . Questa tecnica è adattabile , ma come si inizia a violare i presupposti della procedura , i risultati possono diventare di parte o si può soffrire di una mancanza di potere statistico .

Binary Logistic Regression

Se la misura dipendente che siete interessati a può essere classificato come un 1 o uno 0 , come se una qualità è presente nella popolazione , si può essere interessati a regressione logistica binaria . Questa tecnica regressione riferisce la variabile indipendente alla media mobile della variabile dipendente . La funzione che realizza questo viene chiamata la funzione logit . Risultati della regressione logistica binaria possono essere difficili da interpretare; tuttavia, sono più statisticamente valida quindi solo utilizzando la regressione lineare per fare previsioni binari .

Componenti Principali Regressione

Se il set di dati ha molte variabili indipendenti , si può essere interessante nell’uso di analisi delle componenti principali per effettuare una riduzione dei dati . Una volta che la riduzione dei dati è completa , i componenti principali possono essere utilizzati in una regressione componenti principali . La procedura PCA utilizza tecniche di algebra lineare e di ottimizzazione per trovare componenti lineari ortogonali delle variabili indipendenti . I componenti potenziali sono quindi rango ordinate dalla quantità di variabilità nei dati che spiegano e il ricercatore è in grado di sacrificare una piccola perdita di variabilità spiegata per una riduzione dei dati e la mancanza di multi- collinearità . L’aspetto negativo di questa tecnica è che le stime di pendenza principali componenti parziali possono essere difficili da interpretare senza traduzione ritornare ai valori originali .

Variabili strumentali Stima

variabili strumentali stima può essere utilizzato con grandi insiemi di dati quando le variabili indipendenti sono correlati con i termini di errore nel modello . Ciò si verifica quando il ricercatore non è sicuro del modello strutturale del rapporto oggetto di indagine , che è comune in grandi insiemi di dati globali . Metodi di variabili strumentali possono utilizzare due stadi minimi quadrati di stima , che comporta una analisi di regressione multipla – passo che rompe la regressione in regressione delle variabili endogene sulle variabili esogene prima, e poi usa questi valori previsti per eseguire un’altra regressione. Mentre questa tecnica è potente , a volte è difficile trovare una variabile strumentale che colpisce solo la variabile dipendente attraverso l’effetto sulla variabile indipendente .