Tobit Modellschätzung In Stata Forex


HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Tobitanalyse Versionsinfo: Code für diese Seite wurde in Stata 12 getestet. Das tobit-Modell, auch zensiertes Regressionsmodell genannt, ist entworfen Um lineare Beziehungen zwischen Variablen abzuschätzen, wenn es entweder links - oder rechtszensur in der abhängigen Variablen (auch bekannt als Zensur von unten und oben) gibt. Zensur von oben findet statt, wenn Fälle mit einem Wert an oder über einer Schwelle, alle den Wert dieser Schwelle annehmen, so dass der wahre Wert gleich der Schwelle sein könnte, aber es könnte auch höher sein. Im Falle der Zensur von unten, Werte diejenigen, die bei oder unterhalb einer Schwelle fallen, werden zensiert. Bitte beachten Sie: Der Zweck dieser Seite ist, zu zeigen, wie man verschiedene Datenanalyse-Befehle verwendet. Es deckt nicht alle Aspekte des Forschungsprozesses ab, den die Forscher erwarten werden. Insbesondere geht es nicht um die Datenreinigung und - prüfung, die Überprüfung von Annahmen, Modelldiagnosen und potenziellen Follow-up-Analysen. Beispiele für Target-Regression Beispiel 1. In den 1980er Jahren gab es ein Bundesgesetz, das die Geschwindigkeitsmessung auf nicht mehr als 85 Meilen pro Stunde beschränkte. Also, wenn du versuchen wolltest, ein Fahrzeug aus einer Kombination aus Pferdestärke und Motorgröße zu prognostizieren, würdest du eine Lesung nicht höher als 85 bekommen, unabhängig davon, wie schnell das Fahrzeug wirklich unterwegs war. Dies ist ein klassischer Fall der Rechtszensur (Zensur von oben) der Daten. Das einzige, was wir sicher sind, ist, dass diese Fahrzeuge waren mindestens 85 Meilen pro Stunde. Beispiel 2. Ein Forschungsprojekt untersucht das Niveau der Blei im Haus Trinkwasser als Funktion des Alters eines Hauses und Familieneinkommen. Der Wasserprüfkit kann keine Bleikonzentrationen unter 5 Teilen pro Milliarde (ppb) erkennen. Die EPA betrachtet, dass die Niveaus über 15 ppb gefährlich sind. Diese Daten sind ein Beispiel für die linke Zensur (Zensur von unten). Beispiel 3. Betrachten Sie die Situation, in der wir ein Maß für die akademische Eignung haben (skaliert 200-800), die wir mit Lese - und Mathematik-Test-Scores modellieren möchten, sowie die Art des Programms, in dem der Schüler eingeschrieben ist (akademisch, allgemein Oder beruflich). Das Problem hier ist, dass Studenten, die alle Fragen auf die akademische Eignungstest korrekt beantworten, eine Punktzahl von 800 erhalten, obwohl es wahrscheinlich ist, dass diese Schüler nicht wirklich gleich in der Eignung sind. Das gleiche gilt für Studenten, die alle Fragen falsch beantworten. Alle diese Schüler hätten eine Punktzahl von 200, obwohl sie vielleicht nicht alle gleichberechtigt sind. Beschreibung der Daten Lets verfolgen Beispiel 3 von oben. Wir haben eine hypothetische Datendatei, tobit. dta mit 200 Beobachtungen. Die akademische Eignungsvariable ist passend, die Lese - und Mathematik-Test-Scores werden gelesen und Mathematik. Die Variable prog ist die Art des Programms, in dem sich der Schüler befindet, eine kategorische (nominale) Variable, die drei Werte, akademische (prog 1), allgemeine (prog 2) und berufliche (prog 3) annimmt. Sehen wir uns die Daten an. Beachten Sie, dass in diesem Datensatz der niedrigste Wert von apt 352 ist. Keine Schüler erhielten eine Punktzahl von 200 (d. h. die niedrigste Punktzahl möglich), was bedeutet, dass, obwohl Zensur von unten möglich war, es nicht im Dataset auftritt. Betrachtet man das obige Histogramm, das die Verteilung von apt zeigt. Wir sehen die Zensur in den Daten, das heißt, es gibt weit mehr Fälle mit Scores von 750 bis 800, als man erwarten würde, den Rest der Verteilung zu betrachten. Unten ist ein alternatives Histogramm, das den Überschuss der Fälle, in denen apt 800 liegt, weiter hervorhebt. Im darunter liegenden Histogramm erzeugt die diskrete Option ein Histogramm, bei dem jeder eindeutige Wert von apt einen eigenen Balken hat. Die Freq-Option bewirkt, dass die y-Achse mit der Frequenz für jeden Wert markiert wird, anstatt die Dichte. Denn apt ist stetig, die meisten Werte von apt sind in der Datenmenge eindeutig, obwohl in der Nähe des Zentrums der Verteilung gibt es einige Werte von apt, die zwei oder drei Fälle haben. Die Stachel auf der rechten Seite des Histogramms ist die Stange für Fälle, wo apt 800, die Höhe dieser Bar relativ zu allen anderen deutlich zeigt die überschüssige Anzahl von Fällen mit diesem Wert. Als nächstes erforsche die bivariate Beziehungen in unserem Datensatz. In der letzten Zeile der oben dargestellten Scatterplot-Matrix sehen wir die Scatterplots, die lesen und apt zeigen. Als auch Mathe und apt. Beachten Sie die Sammlung von Fällen an der Spitze jedes Scatterplots aufgrund der Zensur in der Verteilung von apt. Analysemethoden, die Sie vielleicht betrachten, ist eine Liste einiger Analysemethoden, die Sie möglicherweise angetroffen haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen sind oder Einschränkungen haben. Tobit Regression, der Schwerpunkt dieser Seite. OLS Regression - Sie können diese Daten mit OLS Regression analysieren. OLS-Regression behandelt die 800 als die tatsächlichen Werte und nicht als die obere Grenze der oberen akademischen Eignung. Eine Einschränkung dieses Ansatzes ist, dass OLS, wenn die Variable zensiert wird, inkonsistente Schätzungen der Parameter liefert, was bedeutet, dass die Koeffizienten aus der Analyse nicht notwendigerweise die Quottruequot-Populationsparameter erreichen, wenn die Stichprobengröße zunimmt. Siehe Long (1997, Kapitel 7) für eine ausführlichere Diskussion über Probleme bei der Verwendung von OLS-Regression mit zensierten Daten. Abgeschnittene Regression - Es gibt manchmal Verwirrung über den Unterschied zwischen abgeschnittenen Daten und zensierten Daten. Mit zensierten Variablen sind alle Beobachtungen im Datensatz, aber wir kennen nicht die quottruequot Werte von einigen von ihnen. Bei der Trunkierung werden einige der Beobachtungen wegen des Wertes der Variablen nicht in die Analyse einbezogen. Wenn eine Variable zensiert wird, liefern Regressionsmodelle für abgeschnittene Daten inkonsistente Schätzungen der Parameter. Siehe Long (1997, Kapitel 7) für eine ausführlichere Diskussion der Probleme der Verwendung von Regressionsmodellen für abgeschnittene Daten zur Analyse von zensierten Daten. Tobit-Regression Unten führen wir das tobit-Modell, mit lesen. Mathe Und prog vorhersagen apt. Die Option ul () im Befehl "tobit" gibt den Wert an, bei dem die Rechtszensur beginnt (d. h. die obere Grenze). Es gibt auch eine ll () Option, um den Wert der linken Zensur (die untere Grenze) anzugeben, die in diesem Beispiel nicht benötigt wurde. Das i. Bevor prog anzeigt, dass prog ein Faktor variabel ist (d. h. kategorische Variable), und dass es in das Modell als eine Reihe von Dummy-Variablen aufgenommen werden sollte. Beachten Sie, dass diese Syntax in Stata 11 eingeführt wurde. Die endgültige Log-Likelihood (-1041.0629) wird am Anfang der Ausgabe angezeigt, sie kann im Vergleich von verschachtelten Modellen verwendet werden, aber wir werden hier nicht ein Beispiel dafür geben. Auch an der Spitze der Ausgabe sehen wir, dass alle 200 Beobachtungen in unserem Datensatz in der Analyse verwendet wurden (weniger Beobachtungen wurden verwendet, wenn irgendwelche unserer Variablen fehlende Werte hatten). Das Wahrscheinlichkeitsverhältnis Chi-Quadrat von 188,97 (df4) mit einem p-Wert von 0,0001 sagt uns, dass unser Modell als Ganzes deutlich besser als ein leeres Modell (d. H. Ein Modell ohne Prädiktoren) passt. In der Tabelle sehen wir die Koeffizienten, ihre Standardfehler, die t-statistischen, zugehörigen p-Werte und das 95-Konfidenzintervall der Koeffizienten. Die Koeffizienten für Lesen und Mathematik sind statistisch signifikant, ebenso wie der Koeffizient für prog 3. Tobit-Regressionskoeffizienten werden in ähnlicher Weise zu OLS-Regressionskoeffizienten interpretiert, jedoch ist der lineare Effekt auf die unzensierte latente Variable, nicht auf das beobachtete Ergebnis. Siehe McDonald und Moffitt (1980) für weitere Details. Für eine einheitliche Erhöhung des Lesens. Es gibt eine 2,7-Punkte-Zunahme des vorhergesagten Wertes von apt. Eine Einheit mit einer Zunahme der Mathematik ist mit einer 5,91-Einheiten-Zunahme des vorhergesagten Wertes von apt assoziiert. Die Begriffe für prog haben eine etwas andere Interpretation. Der prognostizierte Wert von apt beträgt 46,14 Punkte niedriger für Studierende im Berufsprogramm (prog 3) als für Studenten in einem akademischen Programm (prog 1). Das additive statistische Sigma ist analog zur Quadratwurzel der Restvarianz in der OLS-Regression. Der Wert von 65,67 kann mit der Standardabweichung der akademischen Eignung verglichen werden, die 99,21 betrug, eine wesentliche Reduktion. Die Ausgabe enthält auch eine Schätzung des Standardfehlers von Sigma sowie des 95 Konfidenzintervalls. Schließlich liefert die Ausgabe eine Zusammenfassung der Anzahl der linkszensierten, unzensierten und rechtszensierten Werte. Wir können auf einen Gesamteffekt von Prog mit dem Testbefehl testen. Im Folgenden sehen wir, dass der Gesamteffekt von prog statistisch signifikant ist. Wir können auch zusätzliche Hypothesen über die Unterschiede in den Koeffizienten für verschiedene Ebenen von prog testen. Im Folgenden stellen wir fest, dass der Koeffizient für prog 2 gleich dem Koeffizienten für prog 3 ist. In der unten stehenden Ausgabe sehen wir, dass der Koeffizient für prog 2 signifikant unterschiedlich ist als der Koeffizient für prog 3. Wir können auch sehen, wie gut es ist Unser Modell passt. Dies kann besonders nützlich sein, wenn konkurrierende Modelle verglichen werden. Eine Methode, dies zu tun, besteht darin, die vorhergesagten Werte auf der Grundlage des Target-Modells mit den beobachteten Werten im Datensatz zu vergleichen. Im Folgenden verwenden wir vorhersagen, um vorhergesagte Werte von apt basierend auf dem Modell zu generieren. Als nächstes korrelieren wir die beobachteten Werte von apt mit den vorhergesagten Werten (yhat). Die Korrelation zwischen den vorhergesagten und beobachteten Werten von apt beträgt 0,7825. Wenn wir diesen Wert platzieren, erhalten wir die mehrfache quadratische Korrelation, dies bedeutet, dass vorhergesagte Werte etwa 61 (0.78252 0.6123) ihrer Varianz mit apt. Darüber hinaus können wir den benutzerdefinierten Befehl fitstat verwenden, um eine Vielzahl von Fit-Statistiken zu produzieren. Sie können weitere Informationen über fitstat finden, indem Sie findit fitstat eingeben (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von Findit zu erhalten). Stata Online Manual tobit Related Stata Befehle cnreg - zensiert normale Regression, in denen die Zensur Werte können von Beobachtung zu Beobachtung ändern. Intreg - Intervallregression, bei der Beobachtungen Punktdaten, Intervalldaten, linkszensierte Daten oder rechtszensierte Daten sein können. Referenzen Long, J. S. (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Tausend Eichen, CA: Salbei Publikationen. McDonald, J. F. und Moffitt, R. A. 1980. Die Verwendung der Tobitanalyse. Die Überprüfung der Ökonomie und Statistik Vol 62 (2): 318-321. Tobin, J. (1958). Schätzung der Beziehungen für begrenzte abhängige Variablen. Econometrica 26: 24-36. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen am Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk R Datenanalyse Beispiele: Tobit-Modelle Das Target-Modell, auch als zensiertes Regressionsmodell bezeichnet, soll lineare Beziehungen zwischen Variablen abschätzen, Oder rechtszensur in der abhängigen Variablen (auch bekannt als Zensur von unten und oben). Zensur von oben findet statt, wenn Fälle mit einem Wert an oder über einer Schwelle, alle den Wert dieser Schwelle annehmen, so dass der wahre Wert gleich der Schwelle sein könnte, aber es könnte auch höher sein. Im Falle der Zensur von unten, Werte diejenigen, die bei oder unterhalb einer Schwelle fallen, werden zensiert. Diese Seite verwendet die folgenden Pakete. Stellen Sie sicher, dass Sie sie laden können, bevor Sie versuchen, die Beispiele auf dieser Seite auszuführen. Wenn Sie kein Paket installiert haben, führen Sie: install. packages (packagename). Oder wenn Sie sehen, dass die Version nicht mehr aktuell ist, führen Sie: update. packages () aus. Versionsinfo: Code für diese Seite wurde in R getestet In der Entwicklung (instabil) (2012-11-16 r61126) Am: 2012-12-15 Mit: VGAM 0.9-0 GGally 0.4.2 Umformung 0.8.4 plyr 1.8 ggplot2 0.9. 3 knitr 0.9 Bitte beachten Sie: Der Zweck dieser Seite ist es, zu zeigen, wie man verschiedene Datenanalysebefehle verwendet. Es deckt nicht alle Aspekte des Forschungsprozesses ab, den die Forscher erwarten werden. Insbesondere geht es nicht um die Datenreinigung und - prüfung, die Überprüfung von Annahmen, Modelldiagnosen und potenziellen Follow-up-Analysen. Beispiele für Tobit-Analyse Beispiel 1. In den 1980er Jahren gab es ein Bundesgesetz, das die Geschwindigkeitsmessung auf nicht mehr als 85 Meilen pro Stunde beschränkte. Also, wenn du versuchen wolltest, ein Fahrzeug aus einer Kombination aus Pferdestärke und Motorgröße zu prognostizieren, würdest du eine Lesung nicht höher als 85 bekommen, unabhängig davon, wie schnell das Fahrzeug wirklich unterwegs war. Dies ist ein klassischer Fall der Rechtszensur (Zensur von oben) der Daten. Das einzige, was wir sicher sind, ist, dass diese Fahrzeuge waren mindestens 85 Meilen pro Stunde. Beispiel 2. Ein Forschungsprojekt untersucht das Niveau der Blei im Haus Trinkwasser als Funktion des Alters eines Hauses und Familieneinkommen. Der Wasserprüfkit kann keine Bleikonzentrationen unter 5 Teilen pro Milliarde (ppb) erkennen. Die EPA betrachtet, dass die Niveaus über 15 ppb gefährlich sind. Diese Daten sind ein Beispiel für die linke Zensur (Zensur von unten). Beispiel 3. Betrachten Sie die Situation, in der wir ein Maß für die akademische Eignung haben (skaliert 200-800), die wir mit Lese - und Mathematik-Test-Scores modellieren möchten, sowie die Art des Programms, in dem der Schüler eingeschrieben ist (akademisch, allgemein Oder beruflich). Das Problem hier ist, dass Studenten, die alle Fragen auf die akademische Eignungstest korrekt beantworten, eine Punktzahl von 800 erhalten, obwohl es wahrscheinlich ist, dass diese Schüler nicht wirklich gleich in der Eignung sind. Das gleiche gilt für Studenten, die alle Fragen falsch beantworten. Alle diese Schüler hätten eine Punktzahl von 200, obwohl sie vielleicht nicht alle gleichberechtigt sind. Beschreibung der Daten Für unsere Datenanalyse unten werden wir auf Beispiel 3 von oben erweitern. Wir haben hypothetische Daten generiert, die von unserer Website aus innerhalb R erhalten werden können. Beachten Sie, dass R Forward-Schrägstriche benötigt, nicht zurück Schrägstriche bei der Angabe eines Dateispeicherortes, auch wenn sich die Datei auf Ihrer Festplatte befindet. Der Datensatz enthält 200 Beobachtungen. Die akademische aptitude variabel ist apt. Die Lese - und Mathematik-Test-Scores werden gelesen und Mathematik. Die Variable prog ist die Art des Programms, in dem sich der Schüler befindet, eine kategorische (nominale) Variable, die drei Werte, akademische (prog 1), allgemeine (prog 2) und berufliche (prog 3) annimmt. Die Variable id ist eine Identifikationsvariable. Nun schauen wir uns die Daten beschreibend an. Beachten Sie, dass in diesem Datensatz der niedrigste Wert von apt 352 ist. Das heißt, keine Schüler erhielten eine Punktzahl von 200 (die niedrigste Punktzahl möglich), was bedeutet, dass, obwohl Zensur von unten möglich war, es nicht im Dataset auftritt. Wenn wir das obige Histogramm betrachten, sehen wir die Zensur in den Werten von apt. Das heißt, es gibt weit mehr Fälle mit Scores von 750 bis 800 als man erwarten würde, den Rest der Verteilung zu betrachten. Unten ist ein alternatives Histogramm, das den Überschuss der Fälle, in denen apt 800 liegt, weiter hervorhebt. Im Histogramm unten erzeugt die Pausen-Option ein Histogramm, bei dem jeder eindeutige Wert von apt seinen eigenen Balken hat (indem Pausen gesetzt werden, die gleich einem Vektor sind, der Werte vom Minimum enthält Von apt bis das Maximum von apt). Denn apt ist stetig, die meisten Werte von apt sind in der Datenmenge eindeutig, obwohl in der Nähe des Zentrums der Verteilung gibt es einige Werte von apt, die zwei oder drei Fälle haben. Die Stachel auf der rechten Seite des Histogramms ist die Stange für Fälle, wo apt 800, die Höhe dieser Bar relativ zu allen anderen deutlich zeigt die überschüssige Anzahl von Fällen mit diesem Wert. Als nächstes erforsche die bivariate Beziehungen in unserem Datensatz. In der ersten Zeile der oben dargestellten Scatterplot-Matrix sehen wir die Scatterplots, die die Beziehung zwischen read und apt zeigen. Als auch Mathe und apt. Beachten Sie die Sammlung von Fällen an der Spitze dieser beiden Scatterplots, dies ist aufgrund der Zensur in der Verteilung von apt. Analysemethoden, die Sie vielleicht betrachten, ist eine Liste einiger Analysemethoden, die Sie möglicherweise angetroffen haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen sind oder Einschränkungen haben. Tobit Regression, der Schwerpunkt dieser Seite. OLS Regression - Sie können diese Daten mit OLS Regression analysieren. OLS-Regression behandelt die 800 als tatsächliche Werte und nicht als die untere Grenze der oberen akademischen Eignung. Eine Beschränkung dieses Ansatzes ist, dass OLS, wenn die Variable zensiert wird, inkonsistente Schätzungen der Parameter liefert, was bedeutet, dass die Koeffizienten aus der Analyse nicht notwendigerweise die wahren Populationsparameter annähern, wenn die Stichprobengröße zunimmt. Siehe Long (1997, Kapitel 7) für eine ausführlichere Diskussion über Probleme bei der Verwendung von OLS-Regression mit zensierten Daten. Abgeschnittene Regression - Es gibt manchmal Verwirrung über den Unterschied zwischen abgeschnittenen Daten und zensierten Daten. Mit zensierten Variablen sind alle Beobachtungen im Datensatz, aber wir kennen nicht die wahren Werte von einigen von ihnen. Bei der Trunkierung werden einige der Beobachtungen wegen des Wertes der Variablen nicht in die Analyse einbezogen. Wenn eine Variable zensiert wird, liefern Regressionsmodelle für abgeschnittene Daten inkonsistente Schätzungen der Parameter. Siehe Long (1997, Kapitel 7) für eine ausführlichere Diskussion der Probleme der Verwendung von Regressionsmodellen für abgeschnittene Daten zur Analyse von zensierten Daten. Tobit-Regression Unten führen wir das tobit-Modell mit der vglm-Funktion des VGAM-Pakets. In der obigen Ausgabe ist das erste, was wir sehen, der Anruf, das ist R erinnert uns, was das Modell, das wir liefen, war, welche Optionen wir spezifizierten, etc. Die Tabelle mit den Koeffizienten gibt die Koeffizienten, ihre Standardfehler und die z-Statistik . In der Übersichtstabelle sind keine p-Werte enthalten, aber wir zeigen, wie man sie unten berechnet. Tobit-Regressionskoeffizienten werden in ähnlicher Weise wie die OLS-Regressionskoeffizienten interpretiert, jedoch ist der lineare Effekt auf der unzensierten latenten Variablen, nicht auf dem beobachteten Ergebnis. Siehe McDonald und Moffitt (1980) für weitere Details. Für eine einheitliche Erhöhung des Lesens. Es gibt einen 2.6981 Punkt Anstieg in der vorhergesagten Wert von apt. Eine Einheitszunahme in Mathe ist mit einer 5,9146 Einheiten Erhöhung der vorhergesagten Wert von apt assoziiert. Die Begriffe für prog haben eine etwas andere Interpretation. Der prognostizierte Wert von apt ist -46.1419 Punkte niedriger für Studenten in einem beruflichen Programm als für Studenten in einem akademischen Programm. Der Koeffizient (Intercept): 1 ist der Intercept oder die Konstante für das Modell. Der Koeffizient (Intercept): 2 ist eine Nebenstatistik. Wenn wir diesen Wert exponentieren, erhalten wir eine Statistik, die analog zur Quadratwurzel der Restvarianz in der OLS-Regression ist. Der Wert von 65.6773 kann mit der Standardabweichung der akademischen Eignung verglichen werden, die 99,21 war, eine wesentliche Reduktion. Die letzte Log-Wahrscheinlichkeit, -1041.0629. Wird in der Unterseite des Ausganges gezeigt, kann es im Vergleich von verschachtelten Modellen verwendet werden. Im Folgenden berechnen wir die p-Werte für jeden der Koeffizienten im Modell. Wir berechnen den p-Wert für jeden Koeffizienten unter Verwendung der z-Werte und zeigen dann in einer Tabelle mit den Koeffizienten an. Die Koeffizienten für das Lesen. Mathe. Und prog 3 (beruflich) sind statistisch signifikant. Wir können die signifikante Programmart insgesamt durch die Anpassung eines Modells ohne Programm in sie und mit einem Likelihood Ratio Test testen.

Comments