Immaginate la situazione in cui si dispone di un insieme di dati che multivariata ancora trame come un grosso , distribuzione rigida. Questo risultato non è ideale in quanto è difficile descrivere una tale distribuzione matematicamente . La soluzione a questo problema è la stima della densità multivariata. Questo metodo consente di utilizzare la vostra distribuzione multivariata blocchi di stimare una versione liscia che probabilmente corrisponde al vero distribuzione dietro i dati campionati . In questo metodo , si applica un tipo specifico di funzione , chiamato un kernel , per i dati originali , producendo così un nuovo , distribuzione liscia che può descrivere il data.Things che vi serve

software statistico

Mostra Altre istruzioni

1

mettere i vostri dati nel software statistico di scelta . Quando si esegue questa operazione , si dovrebbe chiaramente etichettare ogni variata nei dati , come la stima multivariata dei dati richiede emarginando i tuoi dati (per esempio , sarà necessario rompere i tuoi dati in più insiemi di dati univariati ) . Finché ingresso i dati in forma di matrice , non ci saranno problemi . Ad esempio , nel software statistico R , potrebbe essere inserire i dati in un file CSV di Excel , e poi leggere i dati con i ” dati

2

Decidere quale kernel si applica ai dati . Il kernel gaussiano serve la maggior parte degli scopi pratici . Tuttavia , la maggior parte dei pacchetti software statistici offrono una varietà di kernel per gli utenti con scopi particolari . Ad esempio , R offre quasi una dozzina di kernel , incluse triangolare , rettangolare e coseno . E ‘anche possibile programmare il proprio kernel , a condizione che si ha familiarità con il modo di programmare nel pacchetto software di scelta . In caso di dubbio su quale kernel da utilizzare, scegliere il kernel gaussiano .

3

Decidere la larghezza di banda per la stima della densità . La larghezza di banda , in breve , è l’equivalente della deviazione standard per il processo di lisciatura . Non esiste un metodo standard di scegliere una larghezza di banda per la stima della densità multivariata. Tenete a mente che larghezze di banda più piccoli sono meno di parte , ma portare a livelli più elevati di variazione , mentre larghezze di banda più grandi hanno meno variazioni , ma sono più sbilanciata . Si consiglia di tornare a questo passaggio più volte , sperimentando diverse larghezze di banda per la stima della densità .

4

Eseguire la stima della densità multivariata . Utilizzare i dati , larghezza di banda e il kernel è stato selezionato in precedenza . La maggior parte dei pacchetti software statistici utilizzano una chiamata di una riga per questo compito , chiedendo solo per i parametri necessari ( dati , larghezza di banda e kernel) . In R , si chiama questa funzione con ” densità ( dati , larghezza di banda , kernel) . ” Il risultato ( output) sarà la stima della densità multivariata.