Wednesday, 1 November 2017

Moving Average Fenster Stata


OxMetrics-Hilfe Das OxMetrics tm-System bietet ein interaktives, menügeführtes, grafikorientiertes System für die ökonometrische, statistische und finanzielle Analyse. Hier beschreiben wir das Kern-OxMetrics-Programm, das als Front-End für eine Reihe integrierter Softwaremodule dient. Diese Module erhalten ihre Daten von OxMetrics und geben Ausgabe und Grafiken an sie. OxMetrics ist die Komponente, die Sie laden, bearbeiten und speichern können Daten transformieren, dass Daten mit dem Taschenrechner oder Algebra erstellen eine Vielzahl von Graphen, die bearbeitet, geändert und gespeichert werden können in verschiedenen Formaten liefern die Daten für andere Module zu analysieren empfangen Ihre Textausgabe, Ergebnisse und Grafiken und können Sie bearbeiten, ändern und speichern Sie alle oder alle, wie gewünscht. So kann das OxMetrics-Front-End als Desktop für die ökonometrische und statistische Modellierung gesehen werden. OxMetrics-Datenbanken können eine feste Frequenz haben oder datieren, die für tägliche oder zeitgesteuerte Daten ermöglicht. Aggregationseinrichtungen sind vorgesehen, z. B. Um tägliche Daten in monatlich zu konvertieren. OxMetrics ist mehrsprachig, da die Namen von Datenbankvariablen und Text in Berichten und Grafiken aus einer Vielzahl von Sprachen, einschließlich Chinesisch und Japanisch, bestehen können. 1.1 Unterstützte Plattformen Die OxMetrics-Suite von Programmen läuft auf den folgenden Plattformen: Die Installation ist standardmäßig auf Program FilesOxMetrics7 eingestellt, kann aber im Installationsprogramm geändert werden. Die Installation erfolgt auf ApplicationsOxMetrics7. Die Installation ist zu usrshareOxMetrics7. Ein separates Installationsdokument beschreibt die unterstützten Plattformen ausführlicher und zeigt, wie die Software installiert wird. OxMetrics 7 arbeitet unabhängig von Version 6. 1.1.1 Ordnerstruktur Die OxMetrics-Ordnerstruktur lautet wie folgt: 1.2 Was ist neu Diese Dokumentation bezieht sich auf OxMetrics 7. OxMetrics 6 Benutzer finden vieles, was familar ist. Es gibt eine Reihe von kleinen Fixes in dieser Version, die in der Online-Hilfe dokumentiert sind. Die wichtigsten Neuerungen in OxMetrics 6 sind: Die Ausgabeabwicklung ist unter Linux schneller und sehr viel schneller unter OS X. Normale QQ-Diagramme können jetzt punktweise asymptotische 95 Standardfehlerbänder enthalten. Eine Variable kann zum Hinzufügen von Schattierungen zu einem Graphen verwendet werden: Die Schattierung wird eingeschaltet, wenn die Variable den Wert 1 hat. Dies ermöglicht eine Schattierung der Rezession und wird insbesondere für die Ausgabe von Regime-schaltenden Modellen verwendet. Legenden können transparent sein oder nicht. Transparente Legenden sind nicht transparent für Schattierungen oder separate Symbole. Undurchsichtige Legenden werden über alles gezeichnet. Kontextmenü (Diagramm, Sortierung) hinzugefügt, wenn Sie mit der rechten Maustaste auf den Variablennamen in einer Datenbank klicken. 1.3 Verfügbarkeit Siehe doornik oder oxmetrics. net für Hinweise auf zusätzliche Informationen, die für die aktuellen und zukünftigen Versionen von OxMetrics relevant sind. Eine Demoversion ist auch auf diesen Webseiten erhältlich. Das Hilfesupportmenü enthält einige Kontaktadressen für OxMetrics sowie Web-Informationsquellen. 1.4 Zitieren Um die Replikation und Validierung empirischer Befunde zu erleichtern, sollte das Modul, das zur Erstellung der Ergebnisse verwendet wird, in allen Berichten und Publikationen angeführt werden. OxMetrics verfügt über ein umfangreiches Querverweis-Hilfesystem, das über wichtige Entscheidungen berät und jederzeit abrufbar ist. Dies basiert auf HTML-Dateien und erfordert, dass ein Browser wie Chrome, Firefox oder Internet Explorer installiert ist. Die OxMetrics-Hilfe ist im Hilfemenü oder im Hilfebereich im Arbeitsbereich verfügbar. Der Hilfebereich enthält den Inhalt aller Module, die in OxMetrics installiert wurden. Durch einen Doppelklick auf einen Eintrag wird der Standardbrowser mit dem Hilfeinhalt gestartet. Die kontextabhängige Hilfe, sofern verfügbar, kann entweder über die Taste F1 oder über das Hilfemenü erreicht werden. Zum Beispiel, wenn Sie ein Ox-Programm schreiben, setzen Sie das Caret auf println, und drücken Sie F1. OxMetrics sucht die html-Indexdateien nach einem Verweis auf dieses Wort. Wenn es nur einen gibt, springt er dort sofort. Andernfalls wird eine Auswahlliste in einem Dialog angeboten. 1.6 Modulstruktur OxMetrics unterhält die modulare Struktur, die in früheren Generationen der Software eingeführt wurde. Eine wachsende Anzahl von Modulen interagiert mit OxMetrics. In diesem Fall ist das OxMetrics-Front-End der Server, während die Module (TSP, STAMP, etc.) die Clients sind. Die Kommunikation erfolgt über DDE. Während es möglich ist, Clients zu schreiben, die sich direkt mit dem Server verbinden (wie TSP, OxPack und OxRun), ist es viel einfacher, Ox-Pakete zu entwickeln, die dies tun. Dies erfordert die Verwendung der Modelbase-Klasse, die die notwendige Funktionalität bereitstellt. Beispiele hierfür sind PcGets, PcGive, Grch etc. Ox ist eine leistungsfähige objektorientierte Matrix-Programmiersprache mit einer umfangreichen statistischen Bibliothek. Ox ermöglicht es Ihnen, Ihre eigenen Programme mit hoher Matrix-Operationen zu schreiben, und bietet einfache Möglichkeiten, um die gleichen Daten-Dateien wie OxMetrics laden können zu lesen. Wenn die vorprogrammierten Optionen in anderen Modulen keinen erforderlichen Schätzer oder Test bereitstellen, und Sie einige grundlegende Programmierkenntnisse haben, könnte stattdessen Ox verwendet werden. Ox hat auch vorprogrammierte Klassen (eine Klasse ist ein Begriff in objektorientierter Programmierung), um das Schreiben von Monte-Carlo-Experimenten zu erleichtern. Ox neigt dazu, schneller als andere populäre Matrix-Sprachen zu sein. Weitere Informationen finden Sie in der separaten Ox-Dokumentation. Die OxRun-Dialoganwendung ermöglicht das Ausführen von Ox-Programmen mit OxMetrics als Ziel für Text und grafische Ausgabe. Ein interessantes Beispiel, das Dichten und QQ-Diagramme zeigt, während ein Monte-Carlo-Experiment im Gange ist, wird in oxsamplessimulasimnor. ox bereitgestellt. Das OxPack-Modul bietet ein interaktives Frontend für mehrere Ox-Pakete. 1.7 Registrierung Ein Lizenzcode ist erforderlich, damit die Software ordnungsgemäß funktioniert. Dieser Code wird mit Ihrer Kopie geliefert und unter normalen Umständen wird die Lizenz, die bei der Installation eingegeben wird, automatisch von der Software verwendet. Zusätzliche Lizenzen können unter der Menüoption Hilfe registrieren eingetragen werden (ein Dialog wird automatisch erscheinen, wenn OxMetrics nicht registriert ist). Im folgenden Dialog können Sie Ihren Code sowie Ihren Namen und Ihre Zugehörigkeit eingeben. Mit Hilfe der Registrierung können auch die verfügbaren Lizenzen für die Verwendung von Client-Modulen überprüft werden. 1.8 Upgrades 1.9 Algebra Die Algebra-Sprache ermöglicht das Umwandeln von Datenbankvariablen durch das Schreiben mathematischer Formeln. Algebra-Code kann interaktiv im Rechner geschrieben werden. Oder direkt im Algebra-Editor. Solche Algebra-Code kann gespeichert, neu geladen und bearbeitet werden. Der Rechner schreibt seine Operationen als Algebra-Code in das Ergebnisfenster, von wo es geschnitten und in den Algebra-Editor eingefügt werden kann. Algebra kann auch direkt aus dem Ergebnisfenster ausgeführt werden, indem der Block des Algebra-Codes hervorgehoben wird und dann CtrlA gedrückt wird. Algebra ist eine einfache Vektorsprache, die auf den Variablen in der Datenbank arbeitet. Die Operation wird auf jede Beobachtung wiederum angewandt, obwohl es möglich ist, den Zugriff auf eine Teilprobe zu beschränken. Die Syntax ist in Kapitel Algebra beschrieben. 1.10 Batch OxMetrics ist ein menügesteuertes Programm für einfache Handhabung, aber einige Operationen können durch Eingabe von Befehlen implementiert werden. Diese Befehle sind Teile einer einfachen Computersprache, die eine gewisse Kontrolle über OxMetrics über Batch-Operationen ermöglichen. Ein Batch-Programm kann Abschnitte des Algebra-Codes enthalten. Batch-Dateien können Sie Daten laden, anhängen Ergebnisse, implementieren Algebra und speichern Sie aktuelle PcGive (oder STAMP etc.) Modelle. Später können diese aus dem ModelBatch-Menü oder durch Klicken auf das OxMetrics-Symbol auf der Symbolleiste ausgeführt werden. Wenn also ein kompliziertes Modell interaktiv erstellt wurde, kann es als Batch-Datei für die weitere Bearbeitung oder einfaches Abrufen in einer späteren Sitzung gespeichert werden. Dies ist auch der bequemste Weg, um eine Batchdatei zu erstellen. Wie Algebra, kann Batch-Code direkt durch Hervorhebung der Textblock ausgeführt werden, und drücken Sie dann Strg. Sobald die Datei auf dem Datenträger gespeichert ist, kann eine Batchdatei auch direkt mit File Open ausgeführt werden. Oder auch durch einen Doppelklick auf die Batch-Datei im Windows Explorer. Batch-Dateien haben die Erweiterung. fl, die ursprünglich für Fiml Language stand. Die Syntax ist im Kapitel Batch beschrieben. 1.11 Datenspeicherung Der primäre Modus der Datenspeicherung ist ein Paar von Dateien mit Erweiterungen. In7 und. Bn7. Letztere ist eine Binärdatei, die die eigentlichen Daten enthält, während die erstere die Informationen über den Inhalt der Binärdatei wie Variablennamen, Abtastperioden, Frequenzen usw. enthält. Die Informationsdatei ist eine menschenlesbare Datei, die Bn7 binär Und ist nicht menschlich lesbar. Ein künstlicher Datensatz wird im Ordner OxMetrics7data in den Dateien data. in7 und data. bn7 bereitgestellt. Die Tutorials verwenden diesen Datensatz. Wenn Sie Ihre eigenen Daten laden möchten, müssen Sie zuerst mit der Eingabe der Beobachtungen beginnen, folgen Sie zuerst dem entsprechenden Tutorial. OxMetrics prüft auf eventuelles Überschreiben von Dateien, und wenn dies wahrscheinlich ist, können Sie einen anderen Dateinamen auswählen. Die Datenoptionen erleichtern die einfache Archivierung von Daten. Bitte achten Sie darauf, keine kostbaren Datensätze zu überschreiben. Es ist immer ratsam, regelmäßige Backups von wichtigen Dateien zu machen: Festplatten können brechen, versehentliches Löschen oder Viren auftreten. OxMetrics kann lesen und schreiben von Menschen lesbare Dateien und Excel-Kalkulationstabelle. OxMetrics kann auch kommagetrennte, GAUSS - und Stata-Dateien lesen. 1.12 Dateinamen und Erweiterungen Alle Dateinamen haben automatische Default-Erweiterungen, die nicht eingegeben werden müssen. Sagen Sie, dass der Basisdatensatz m1ukq heißt, dann kann die Informationsdatei m1ukq. in7 sein. Wird die zugehörige Binärdatei (der tatsächlichen Daten) m1ukq. bn7 sein. Kann die OxMetrics-Ergebnisfenster-Speicherdatei m1ukq. out sein. Die Algebra-Speicherdatei m1ukq. alg. Und Batch-Dateien m1ukq. fl. Eine menschlich lesbare Basisdatendatei verwendet generell die Erweiterung. dat. Grafikdateien können in gekapselten PostScript-Dateien (.eps), PDF (.pdf), PostScript (.ps), Windows-Metadateien (.wmf), erweiterten Metadateien (.emf) und OxMetrics-Grafiken (.gwg, für GiveWin - Von denen die letzte von OxMetrics zur weiteren Bearbeitung nochmals gelesen werden kann. Beachten Sie, dass Windows die Dateierweiterung standardmäßig nicht im Explorer-Fenster anzeigt --- nur das Symbol zeigt an, was der Dateityp ist. Wenn Sie möchten, können Sie die Anzeige der Dateierweiterungen im Ordneroptionen-Eintrag im Explorer ändern. 1.13 Ausgabespeicher Alle Textausgaben werden im Ergebnisfenster angezeigt, wenn die Berechnungen fortgesetzt werden, aber nicht auf Festplatte oder Diskette gespeichert werden, wenn nicht ausdrücklich verlangt. Auf langen Läufen kann eine große Menge an Informationen erzeugt werden. Dies kann bearbeitet werden, um redundante Datensätze zu entfernen: Das Menü Bearbeiten ermöglicht das Kopieren, Ausschneiden und Einfügen, Löschen, Suchen und Ersetzen. Der Speicher ermöglicht eine schnelle interaktive Modellierung, um fortzufahren, während alle nützlichen Ergebnisse können als Batch-Job gedruckt werden, wenn der Computer sonst im Leerlauf ist. Da ein Großteil der Ausgabe grafisch ist, können Graphen einfach bearbeitet werden. Grafiken können in einer Vielzahl von Formaten gespeichert werden, wie im nächsten Abschnitt beschrieben. 1.14 Beispielperioden Bei Datenbeispielen bezieht sich der Bezug auf das absolute Datum im Formular Jahr (Periode) bis Jahr (Periode). Zum Beispiel: 1965 (1) bis 1985 (3). Immer wenn eine Probenwahl getroffen werden muss, zeigt OxMetrics das verfügbare Maximum an und erlaubt keine Auswahl außerhalb dieses Bereichs. Wenn die Daten datiert werden, z. B. bestehend aus Tagesdaten, erfolgt die Auswahl durch Eingabe von Datumsangaben im ISO-Format von yyyy-mm-dd. Das Jahr ist immer vier Ziffern, der Monat ein oder zwei Ziffern (1Januar) und das Datum auch ein oder zwei Ziffern. Zum Beispiel: 1965-1-31 bis 1985-9-5. Die Zeit wird als hh: mm: ss. uuu geschrieben, wobei die Stunde zwei Ziffern auf der 24-Stunden-Uhr ist (also 22:00 ist 10 PM), mm ist Minuten, die Sekunden und Hunderte sind optional. In Kombination mit einem Datum verwendet die ISO-Norm ein T, um die Teile zusammenzukleben: 1980-1-1T12: 05: 05. 1.15 Statusleiste Die Statusleiste wird am unteren Rand des OxMetrics-Fensters angezeigt und besteht aus vier Bereichen: Der linke Bereich der Statusleiste beschreibt Aktionen von Menüpunkten, wenn Sie mit den Pfeiltasten zu den Menüs navigieren. Dieser Bereich zeigt auch Nachrichten, die die Aktionen der Symbolleistenschaltflächen beschreiben, wie Sie sie drücken, bevor Sie sie freigeben. Wenn Sie nach dem Anzeigen der Beschreibung des Befehls der Symbolleistenschaltfläche den Befehl nicht ausführen möchten, lassen Sie die Maustaste los, während sich der Zeiger außerhalb der Symbolleistenschaltfläche befindet. Wenn ein Werkzeug läuft, wird dies im zweiten Panel gelb hinterlegt. Das dritte Fenster zeigt den Speicherort des aktuellen Dokuments an. Der Inhalt ist für Text, Daten und Grafiken unterschiedlich. Für Text ist es die Position im Dokument des Caret. Beispiel: L 113 C 14 zeigt an, dass sich das Caret auf Zeile 113, Spalte 14, befindet. Im binaryhexadezimalen Betrachtungsmodus zeigt dies die Position des Caret in Dezimal (das erste Zeichen des Dokuments liegt bei Byte 0). Dieses Feld zeigt auch an, ob das Dokument schreibgeschützt ist oder ob der Editor im Überschreibmodus ist. Für Daten ist es die Position in der Datenbank des caret. Wenn eine aktive Auswahl vorhanden ist, werden die ausgewählten Variablen angezeigt. Für Grafiken ist es die X-Koordinate des Mauscursors. Der rechte Bereich der Statusleiste hängt auch von der Dokumentart ab: Für Text gibt es die Dokumentecodierungseigenschaften an: End-of-line Marker Einer von: Win, Lnx, Mac für Windows (rn), Linux (n) oder Mac R). Mehrsprachiges Dateiformat Wenn sich das Dateiformat von der Standardkodierung (ASCII) unterscheidet, wird dies durch eine von UTF8, UTF16 oder UTF32 angezeigt. Darauf folgen BE oder LE zur angegebenen Big-Endian - oder Little-Endian-Codierung. Diese Eigenschaften können mit EditText-Eigenschaften geändert werden. Für die Daten ist es der Wert der Beobachtung, die die Caret hat. Wenn eine aktive Auswahl vorhanden ist, wird das ausgewählte Sample angezeigt. Für Grafiken ist es die Y-Koordinate des Mauscursors. 1.16 Werkzeugleisten Über der Oberseite von OxMetrics werden unterhalb der Menüleiste drei Werkzeugleisten angezeigt. Die Symbolleisten können von einem Rechtsklick auf die Leiste angepasst werden. Die Anpassung erlaubt das Hinzufügen oder Entfernen von Icons und das Auswählen kleiner mittlerer oder großer Symbolgröße (Medium ist die Standardeinstellung). Die Werkzeugleiste "FindReplace" standardmäßig in der zweiten Zeile repliziert die meisten Befehle des Dialogfelds "FindReplace". Die beiden sind aktiv verknüpft, und die FindReplace-Leiste ist oft eine bequeme Möglichkeit, schnell nach Text zu suchen oder Searchreplace-Aktionen auszuführen. Das Standardlayout besteht aus: Text suchen Geben Sie den zu suchenden Text an. Das Dropdown-Listenfeld enthält zuvor verwendete Suchtexte. Sie können ein Kontextmenü (Rechtsklick) verwenden, um Text aus der Zwischenablage einzufügen. Find down Sucht das nächste Vorkommen des Suchtextes abwärts von der aktuellen Position des Caret. Find up Sucht das nächste Vorkommen des Suchtextes von der aktuellen Position des Caret nach oben. Groß - / Kleinschreibung beachten Groß - / Kleinschreibung beachten (wenn die Schaltfläche deaktiviert ist, wird bei der Suche zwischen Groß - und Kleinschreibung unterschieden). Ganze Wort Wortkorrektur ein - oder ausschalten (wenn die Taste nicht gedrückt wird, findet die Suche nur ganze Wörter). Springen zur nächsten Instanz Sucht die nächste Instanz des aktuell ausgewählten Textes von der aktuellen Position nach unten. Der ausgewählte Text wird zum Standard für nachfolgende Suchen. Vorherige Instanz springen Sucht die vorherige Instanz des aktuell ausgewählten Texts von der aktuellen Position nach oben. Der ausgewählte Text wird zum Standard für nachfolgende Suchen. Dialogfeld "Suchen" Öffnen Sie den Dialog "Suchen". Dialogfeld "Ersetzen" Öffnen Sie das Dialogfeld "FindReplace". Suchen in Dateien Öffnen Sie einen Dialog, der die Suche nach Textzeichenfolgen in Datenträgerdateien ermöglicht. Textthemen Spaltenbearbeitung Mit der Maus können Sie eine Spaltenauswahl durchführen: mit der rechten Maustaste auswählen, die ALT-Taste gedrückt halten und mit der linken Maustaste oder mit der Tastatur auswählen: ALT-Taste gedrückt halten und mit der Taste auswählen Pfeiltasten. Eine Spaltenauswahl kann gezogen und gelöscht werden: innerhalb desselben Fensters wird sie als Spaltenauswahl behandelt, andere Fenster wissen nicht, daß es sich um eine Spaltenauswahl handelt, und sie wird wie eine normale Auswahl behandelt. Verwenden Sie den Befehl Einfügen als Spalte, um Text aus der Zwischenablage als Spalte einzufügen. Verwenden Sie den Befehl Sortieren, um eine Spaltenauswahl zu sortieren. Es ist möglich, eine Findreplace-Operation auf eine Spaltenauswahl zu beschränken. Textrand Der linke Rand zeigt an, wo der Cursor steht: gelb: normaler editierbarer Text rot: nur lesen grün: Ausgabe oder Eingabefenster des laufenden Moduls. Ein Doppelklick auf den Rand schaltet die Zeilennummerierung ein. Im binären und hexadezimalen Modus wird die Position des ersten Zeichens hexadezimal angezeigt. Wenn Sie mit der rechten Maustaste in den Rand klicken, wird eine Markierung gesetzt oder gelöscht. Textmarkierungen Eine Markierung ermöglicht eine schnelle Navigation durch ein Dokument. Eine Markierung wird als kleines blaues Rechteck am Rand der Linie dargestellt. So setzen Sie eine Markierung ein: Maus: Rechtsklick am Rand des Linienmenüs: ViewSet Marker finden: Im Dialogfeld Suchen können Markierungen an allen Zeilen eingefügt werden, die den Suchtext enthalten. So löschen Sie eine Markierung: Maus: Klicken Sie mit der rechten Maustaste in den Rand der Linie, wenn diese Zeile über ein Markermenü verfügt: Verwenden Sie ViewClear Marker-Menü: Verwenden Sie ViewClear Alle Marker So gehen Sie zu einem Marker: Menü: Verwenden Sie SearchGoto Next Marker oder SearchGoto Vorherige Marker Marker sind Nicht zwischen den Sitzungen erinnert. Textansichtsmodi OxMetrics verfügt über drei Anzeigemodi: Textmodus Dies ist der Standardanzeigemodus für eine Textdatei. Dieser Modus ermöglicht die Bearbeitung des Textes. Binärmodus Dies ist der Betrachtungsmodus, der für die Binärdatei am nützlichsten ist. OxMetrics prüft, ob eine Datei binär ist, wenn sie geladen wird. Wenn dies der Fall ist, schaltet der Betrachtungsmodus auf diesen Binärmodus. Die Positionsanzeige auf der Statusleiste zeigt die Position des Caret in Dezimal (das erste Zeichen des Dokuments ist auf Byte 0). Im Binärmodus gibt es keine Textzeilen. Die Bildschirmzeilen werden durch die Fensterbreite bestimmt. Anstelle von Linien am Rand wird die Position des ersten Zeichens hexadezimal dargestellt. Hexadezimal-Modus Dies ist der alternative Binärbetrachtungsmodus. Die Anzeige besteht aus zwei Spalten mit dem Text rechts und den hexadezimalen Werten auf der linken Seite. Die Positionsanzeige auf der Statusleiste zeigt die Position des Caret in Dezimal (das erste Zeichen des Dokuments ist auf Byte 0). Aggregatdialog Erstellt eine neue Datenbank, die die aggregierten Daten der aktuellen Datenbank enthält. Neuer Name Der Name der neuen Datenbank. Neue Frequenz Die neue (untere) Frequenz. Die neue Datenbank hat eine feste Frequenz, wenn die Frequenz monatlich oder niedriger ist. Aggregationsmethode End-Periode - die letzte Beobachtung in jeder Periode. Mitte - die Beobachtung am nächsten an der Mitte jeder Periode. Wenn Äquidistanz vor und nach Beobachtungen vorhanden ist, wird die Beobachtung vor der Mitte verwendet. Tag, der am nächsten am Mittwoch Tag am nächsten zum 1. Juli ist Durchschnitt - der Durchschnitt für den Zeitraum für wöchentlich bis monatlich wird dies für die Länge des Monats angepasst. Summe - die Summe für den Zeitraum von wöchentlich bis monatlich wird für die Länge des Monats angepasst. Peak - der Mindestwert in jeder Periode. Durch - den Höchstwert in jeder Periode. Algebra-Dialog Algebra beachtet die Groß - / Kleinschreibung: CONS und cons beziehen sich auf verschiedene Variablen. Ungültige Namen können in der Algebra verwendet werden, wenn sie in doppelte Anführungszeichen eingeschlossen werden. Mehr Informationen über Algebra-Syntax und andere Möglichkeiten zur Ausführung von Algebra-Code finden Sie hier. Wenn Sie eine neue Variable über eine Zuweisungsoperation erstellen, wird sie sofort der Datenbank hinzugefügt und auf fehlende Werte initialisiert. Bei Bedarf wird der Datenbankname auf 64 Zeichen gekürzt. Die Datenbank im Fokus kann aus dem Dropdown-Feld der Symbolleiste umgeschaltet werden. Edit-Feld Der Algebra-Dialog stellt ein Standard-Edit-Fenster dar, in dem Algebra-Befehle eingegeben oder von einem anderen Edit-Fenster abgeschnitten werden können. Dieses Fenster verhält sich ähnlich wie das Ergebnisfenster (z. B. das Doppelklicken in den Rand schaltet die Zeilennummerierung ein und aus). Run Führt den Algebra-Code aus und beendet den Dialog, wenn der Lauf erfolgreich ist. Wenn während der Verarbeitung ein Fehler auftritt, wird der Lauf abgebrochen und am oberen Rand des Dialogs eine Fehlermeldung angezeigt. Fertig Schließt den Dialog. Load Lädt eine Datei mit Algebra-Code von der Festplatte. Speichern unter Speichert den Inhalt des Algebra-Editierfensters auf dem Datenträger. Recall Ruft den Algebra-Code aus dem vorherigen Dialog auf. Funktionen Zeigt die in der Algebra verfügbaren Funktionen an. Die ausgewählte Funktion wird im Write Algebra Code verwendet. Datenbank Zeigt den Datenbankinhalt an. Ausgewählte Variablen werden im Write Algebra Code verwendet. Neben der Inhaltsliste befinden sich vier Schaltflächen: zum Löschen von Variablen, zum Verschieben von Variablen, zum Verschieben und zum Umbenennen einer Variablen. Sub-Sample-Auswertung Wenn dieses Kontrollkästchen beim Schreiben des Algebra-Codes überprüft wird, erscheint ein zusätzlicher Dialog, um eine Unterprobe auszuwählen, über die der Algebra-Code ausgeführt werden soll. Algebra-Code schreiben Hiermit können Sie den Code für die ausgewählte Funktion und Variable in das Editierfenster einfügen. Der Code kann noch einige weitere Anpassungen erfordern. Batch-Dialog OxMetrics unterstützt eine Batch-Sprache für einfache Wiederholung oder Kommunikation von Operationen. Befehle in Bezug auf Dateneingabe, Batch, etc. werden von OxMetrics behandelt. Einige Module unterstützen auch die Batch-Sprache und erweitern die OxMetrics-Befehle mit ihren eigenen. Ein Beispiel ist PcGive. Wenn ein Modell in PcGive geschätzt wurde, wird der Code automatisch im Batch-Fenster aufgezeichnet. OxMetrics kennt die PcGive-Befehle nicht. Überprüfen Sie daher das PcGive-Hilfesystem auf die PcGive-Befehle. Weitere Informationen über die Batch-Syntax und weitere Möglichkeiten zur Ausführung von Batch-Code finden Sie hier. Bearbeitungsfeld Im Batch-Dialog wird ein Standard-Bearbeitungsfenster angezeigt, in dem Batchbefehle eingegeben oder von einem anderen Bearbeitungsfenster abgeschnitten werden können. Standardmäßig enthält dieses Fenster den Batch-Code für das zuletzt geschätzte Modell. Run Führt den Batch-Code aus und beendet den Dialog, wenn der Lauf erfolgreich ist. Wenn während der Verarbeitung ein Fehler auftritt, wird der Lauf abgebrochen und am oberen Rand des Dialogs eine Fehlermeldung angezeigt. Fertig Schließt den Dialog. Load Lädt eine Datei mit Batchcode von der Festplatte. Speichern unter Speichert den Inhalt des Stapelverarbeitungsfensters auf dem Datenträger. Recall Ruft den Batch-Code des vorherigen Dialogs auf. Ladeverlauf Lädt den gesamten Verlauf des Stapelcodes für geschätzte Modelle in das Bearbeitungsfenster. Diese können dann bearbeitet werden, um nur ein bestimmtes Modell auszuwählen, auf der Festplatte zu speichern oder in die Zwischenablage zu kopieren. Batch-Befehle Dies ist eine Liste mit allen Batch-Befehlen, die von OxMetrics erkannt werden. Ein Doppelklick auf einen Befehl fügt ihn in den Editor ein. Rechner-Dialog Der Taschenrechner ermöglicht eine einfache Manipulation der Variablen in der Datenbank und ist eine bequeme Möglichkeit, Algebra-Ausdrücke zu schreiben. Ziel ist es, einen gültigen Algebra-Ausdruck im Ausdrucksfenster (ohne Zuweisung und abschließendes Semikolon) zu erstellen. Alle erfolgreichen Transformationen werden im Ergebnisfenster protokolliert. Das Feld am oberen Rand des Dialogs zeigt den aktuellen Ausdruck an. Die Datentransformation mit dem Taschenrechner kann direkt in das Ausdrucksfeld oben geschrieben werden. Dann drücken Sie die Taste fragt nach einem Zielnamen und führt den Algebra-Code. Der Code wird in das Ergebnisfenster geschrieben. Die Felder unterhalb des Ausdrucksfensters können helfen, die Eingabe zu speichern: eine Variable (oder mehrere Variablen) zu wählen, eine Funktionstaste (log, diff, etc.) drücken, um Code einzufügen Code ändern, falls nötig drücken, um einen Zielnamen auszugeben. Angenommen, Sie haben die Variable CONS markiert und die Log-Taste gedrückt. Dann liest der Ausdruck log (CONS). Beim Drücken wird der Logarithmus von CONS berechnet. Die neue Variable muss benannt werden, mit LCONS der Vorschlag in GiveWin. Akzeptieren Sie dies, und LCONS wird der Datenbank hinzugefügt. Wenn LCONS bereits vorhanden ist, müssen Sie die Überschreibung der vorhandenen Variablen bestätigen. Mehrere Operationen können durchgeführt werden, wie A2log (CONS) -3log (INC). Weitere Informationen über Algebra-Syntax und andere Möglichkeiten, um Algebra-Code ausführen finden Sie hier. Editierfeld Der Caclculator stellt ein Standardbearbeitungsfeld vor, in dem Algebra-Befehle eingegeben oder mit Hilfe der Taschenrechner erstellt werden können. Datenbank Zeigt den Datenbankinhalt an. Ausgewählte Variablen werden im generierten Code verwendet. Unterhalb der Liste befinden sich vier Schaltflächen: zum Löschen von Variablen, zum Verschieben von Variablen, zum Verschieben und zum Umbenennen einer Variablen. Funktionen Zeigt die in der Algebra verfügbaren Funktionen an. Wenn eine Variable hervorgehoben wird (z. B. CONS), und Sie eine Funktionstaste (z. B. log) drücken, wird das Ausdrucksprotokoll (CONS) in das Eingabefeld eingefügt. Log Um den (natürlichen) Logarithmus einer Variablen zu nehmen. Kann auf mehrere Variablen gleichzeitig angewendet werden. Lag Um die n-te Verzögerung einer Variablen zu nehmen, ist die Voreinstellung zuerst verzögert (negative Zahl gibt eine Blei). OxMetrics hängt die Verzögerungslänge als zusätzliche Zeichen in einem Namen fest, dem ein Unterstrich vorausgeht. Z. B. CONS1 ist CONS 1 Periode verzögert. Die erste Beobachtung von CONS1 werden die fehlenden Werte sein. Es wird empfohlen, auf diese Weise verzögerte Variablen zu erzeugen, da bei der Formulierung eines Modells in PcGive Lags entstehen können. Diese Funktion kann auf mehrere Variablen gleichzeitig angewendet werden. Diff Nimmt die n-te Differenz einer Variablen an. Die dlog-Funktion übernimmt die erste Differenz des (natürlichen) Logarithmus. Diese Funktion kann auf mehrere Variablen gleichzeitig angewendet werden. Dlog Die Diff-Funktion nimmt die n-te Differenz einer Variablen an. Die dlog-Funktion übernimmt die erste Differenz des (natürlichen) Logarithmus. Diese Funktion kann auf mehrere Variablen gleichzeitig angewendet werden. Dummy Um einen Dummy zu erstellen. Ein Dummy (oder Intervention) ist eine Variable, die aus 0 und 1s besteht. Sonstiges Zeigt die vollständige Liste der Algebra-Funktionen an. Tastatur Eingabeaufforderung für einen Zielnamen und führt den Algebra-Code aus. - Für jeweils: Macht, Multiplikation, Division, Addition, Subtraktion. Diese (und die verbleibenden Schaltflächen für 0,1) werden in das Eingabefeld eingefügt. C Hiermit wird das Bearbeitungsfenster des Taschenrechners gelöscht. Sub-Sample-Auswertung Wenn dieses Kontrollkästchen beim Betätigen der Auswerteschaltfläche (oder Enter) aktiviert ist, erscheint ein zusätzliches Dialogfenster zur Auswahl einer Unterprobe, über die der Algebra-Code ausgeführt werden soll. Dialogfeld "Löschen" (Datenbank) Im oberen Bereich des Dialogs werden die ausgewählte Variable (oder der Variablenbereich) und die Beobachtungen (oder der Beobachtungsbereich) angezeigt. Beachten Sie, dass eine Löschung erneut rückgängig gemacht werden kann. Löschen gesamte Variable (n), um die ausgewählte (n) Variable (n) zu löschen, d. h. gesamte Spalten. Ausgewählte Beobachtungen für alle Variablen (ganze Zeilen) löschen, um die ausgewählten Zeilen vollständig zu löschen. Löschen Sie alle Beobachtungen, für die diese Variable fehlende Werte enthält, um ganze Zeilen zu löschen, für die die aktuell ausgewählte Variable einen fehlenden Wert hat. Löschen Sie alle Beobachtungen, für die diese Variable ungleich Null ist oder fehlen, um nur ganze Zeilen zu speichern, für die die aktuell ausgewählte Variable einen gültigen Wert ungleich Null hat. Ausgewählte Beobachtungen entfernen und verbleibende Beobachtungen verschieben, um nur Beobachtungen aus den ausgewählten Variablen zu entfernen (nicht ganze Zeilen, so dass die Probe unverändert bleibt). Freie Beobachtungen sind auf fehlende Werte gesetzt. Löschen Sie Beobachtungen mit dem angegebenen Wert, um die Werte im ausgewählten Block auf den neuen Wert wie angegeben festzulegen. Das Löschen von Beobachtungen (ganze Zeilen) funktioniert wie folgt. Wenn die Datenbank eine feste Frequenz hat, werden die verbleibenden Beobachtungen verschoben, um die Lücke zu schließen, und die Probe wird um die Anzahl der gelöschten Beobachtungen reduziert. Für eine datierte Datenbank ändern die verbleibenden Beobachtungen nicht ihre Daten. Database description dialog Dies ist ein Standard-Text-Editor-Fenster, wo die Dokumentation getippt werden können, abgeschnitten Amp Paste usw., um Details über die Datenbank in Frage. Die Beschreibung wird nur in OxMetrics-Datendateien (.in7.bn7) beibehalten. Darunter befindet sich die Datenbankzusammenfassung (dieselbe, die über das Menü "Ansicht" im Fenster "Ergebnisse" angezeigt werden kann). Denken Sie daran, dass der Dialog die Größe der Ansicht ändern kann. Dieser Dialog kann auch durch einen Doppelklick auf die linke obere Zelle aktiviert werden. Ändern des Beispieldialogs Frequenz und Startdatum Geben Sie entweder die feste Datenfrequenz und den Probenanfang (Startjahr, Zeitraum) an, um die Mustermerkmale zu definieren. Oder die Datenbank dated, indem Sie datiert und die Anzahl der Tage pro Woche. Dadurch werden die passenden Kalendertermine erstellt (Urlaub ignoriert). Das Ändern der Häufigkeit und des Startdatums ändert nicht die Anzahl der Beobachtungen in der Datenbank: das Endjahr (Zeitraum) wird automatisch angepasst. Beispiel-Größe Die Datenbank-Beispielperiode kann am Anfang und am Ende durch Hinzufügen beliebiger Anzahl von Beobachtungen in diesem Dialog erweitert werden. Es ist auch möglich, Beobachtungen zu löschen, um die Datenbank zu reduzieren. Die Daten für die erweiterten Perioden sind auf fehlenden Wert gesetzt. Variable descriptionRename variableNeue Variablen-Dialog Durch Doppelklick auf den Namen einer Variablen in der Datenbank wird der Dialog zur Bearbeitung der aktuellen Beschreibung erzeugt. Die Variable kann in diesem Feld umbenannt werden. Variable Beschreibung Die Beschreibung wird nur in OxMetrics-Datendateien (.in7.bn7) beibehalten. Eine Beschreibung, die für die Datenbank als Ganzes gilt, steht in der Datenbankbeschreibung zur Verfügung Variablentyp Der Variablentyp ist relevant für die Erstellung einer datierten Datenbank. Voreinstellung für eine normale numerische Variable. Datum für eine Variable, die Datum und Uhrzeit enthält. Auswahl für eine Variable, die Text-Labels enthält, die bestimmten Werten zugeordnet sind. Excell-Dateien, die nicht genau dem gewünschten Datenformat entsprechen, können solche Variablen haben. Dies wird nur korrekt mit den korrekten Zahlenwerten in OxMetrics-Datendateien (.in7.bn7) beibehalten. Löschen Dialog (Grafik) Markieren Sie einen Bereich in der linken Spalte und ein Grafikobjekt auf der rechten Seite. Drücken Sie dann die Löschtaste, um zu löschen, und Fertig, um das Dialogfeld zu schließen. Jeder Löschvorgang kann wieder rückgängig gemacht werden. Beachten Sie, dass mit der Maus Texte, Legenden, Achsen und einzelne Symbole (Linien, Rechtecke etc.) ausgewählt und mit der Löschtaste gelöscht werden können. Diagramm bearbeiten Fast alles kann in einem Diagramm über das Dialogfenster Diagramm bearbeiten oder über das Kontextmenü mit einem Rechtsklick auf das Diagramm geändert werden. Alternativ können Sie mit Doppelklick das ausgewählte Objekt auswählen und bearbeiten. Nähere Informationen zu den einzelnen Aspekten finden Sie hier. Grafiklayout Dieser Abschnitt enthält die Einstellungen, die für das gesamte Diagramm gelten. Dazu gehören das Flächenlayout, die Verwendung von Boxen, der zu verwendende PostScript-Modus usw. Area 1 Die restlichen Einträge auf der linken Seite sind die Bereiche im Graph. Wählen Sie einen Bereich aus, um die Eigenschaften zu bearbeiten, die für diesen Bereich spezifisch sind. Dazu gehören Farben und Linienstile für jede gezeichnete Serie, der Stil der Achsen, Legenden, Histogramme, Fehlerbalken usw. Wenn mehr als ein Bereich vorhanden ist, können einige Eigenschaften aus dem aktuellen Bereich in alle anderen Bereiche kopiert werden. Prperties Auf der linken Seite ist die vollständige Liste der Eigenschaften, die geändert werden können. Grafikdialog In diesem Dialog werden die Variablen festgelegt, die für den ausgewählten Diagrammtyp verwendet werden sollen. Nach dem Erstellen eines Diagramms stehen Ihnen eine Vielzahl von Optionen zur Verfügung, um die meisten Aspekte zu ändern. Datenbank Auf der rechten Seite befindet sich die Liste aller Variablen in der Datenbank, deren Auswahl für die Graphik markiert werden kann, indem sie in die Auswahlliste verschoben werden. Beachten Sie, dass die aktive Datenbank im Titel aufgelistet ist (sowie der aktive Bereich, wenn der Plot einem Bereich hinzugefügt werden soll). Die Datenbank kann aus dem Dropdown-Feld auf der Symbolleiste oder einfach durch Aktivieren einer anderen Datenbank geändert werden. Ltlt Verschiebt ausgewählte Datenbankvariablen in die Auswahlliste. Gtgt Entfernt ausgewählte Variablen aus dem Auswahllistenfeld. Auswahl Listet die Variablen auf, die für die Grafik ausgewählt wurden. Actual series plots the actual values of the selection in one graph and closes the dialog. Actual series (seperately) plots the actual values of the selection in separate graphs and closes the dialog. Scatter plot (YX) creates a scatter plot of the selection and closes the dialog. The last variable in the selection is the X variable, and if n variables have been selected, n -1 cross-plots will be made. All plot types Moves to the Graphics Wizard to select a type from a wide range of graph types. The Graphics dialog for all plot types has three fields: Plot category Actual series Transformed time series, for logscale, first differences, growth rates and different scales Multiple series Scatter plots Distribution for estimated densities and histograms, freqquency plots, boxplots, etc. QQ plots, etc. Time-series properties for (partial) autocorrelations, periodogram, spectrum, etc. Two series by a third for error barsbands, high-low graphs, etc. 3-D (XYZ) plots for surface and contour plots Sub category provides a visual way to select a sub category. All sub categories and properties provides access to all properties for the selected category. Graphics Text (Add Text) dialog Text can be typed anywhere in a graphics window. Typing any keyboard character brings up this dialog where the desired text can be entered. Text can be also added from the Edit menu using Add Text. Text entered immediately above the graph will have the title property, which means that it is moved with the area when the area is moved. Mathematical and other formatting can be incorporated through LaTeX style commands. Previously typed text can be revised by double clicking on it, an then selecting it in the properties editor moved by grabbing with the mouse or deleted by clicking then pressing the Del key. The following text properties can be changed after double clicking: actual text, type (floating, title, axis label), size, rotation, and location. Model dialog The modelling dialog gives access to all the modelling features of the OxMetrics modules. Whhich modules are available depends on your installation. For example, it may only include STAMP and PcGive, or also PcGets and Grch. Module Determines whether the category and model choices are listed for all modules together, or only for the selected module. Category Lists the available model categories, including models for time-series data, for cross-section data, for panel data, etc. Model Lists the available models for the current category. running icon This icon moves when the module is running. To interrupt in that case, click on it (a dialog will ask for confirmation the subsequent response may not be immediate). Formulate to start model formulation. This will normally follow through to estimation. Estimate To re-estimate the model. Test To access the test menu for the active module. Progress To access the progress dialog. Options To access the options dialog for the active module. FindReplace (text) dialog Allows text to be found or replaced in the current document, current selection or all open documents. C style means that escape characters in the find or replace text are recognized, e. g. n for a new line and t for a tab. Text properties dialog Allows the removal of tab characters, change of end-of-line mode, and the multilingual format. Preferences dialog For persistent options that affect the way OxMetrics operates. Options dialog For persistent options that affect the way OxMetrics operates. Graphics setup dialog This dialog determines the default settings for OxMetrics graphs. These settings are persistent, and will also affect the way graphs from Ox code disappear. Ox code can make modifications to the persistent settings using SetDraw (which is why DrawAdjust is preferred: that applies to the current graph only). The settings can be reset to the initial default, or saved as a batch file that can be run later. Cleaning data in Stata Cleaning data is a rather broad term that applies to the preliminary manipulations on a dataset prior to analysis. It will very often be the first assignment of a research assistant and is the tedious part of any research project that makes us wish we HAD a research assistant. Stata is a good tool for cleaning and manipulating data, regardless of the software you intend to use for analysis. Your first pass at a dataset may involve any or all of the following: Creating a number of smaller subsets based on research criteria Dropping observations Dropping variables Transforming variables Dealing with outliers Creating new variables Moving variables Labeling variables Renaming variables Whether this is your first time cleaning data or you are a seasoned data monkey, you might find some useful tips by reading more. Use the Stata help file . Stata has a built in feature that allows you to access the user manual as well as help files on any given command. Simply type help in the command window, followed by the name of the command you need help with and press the Enter key: Write a do file. Never clean a dataset by blindly entering commands (or worse, clicking buttons). You want to write the commands in a do-file, and then run it. This way, if you make a mistake, you will not have ruined your entire dataset and you will not need to start again from scratch. This is a general advice that applies to any work you do on Stata. Working from do-files lets other people see what you did if you ever need advice, it makes your work reproducible and it allows you to correct small mistakes somewhat painlessly. To start a do-file, click on the icon that looks like a notepad on the top-left corner of your Stata viewer2 . In the preliminary stages of your work, you may feel that a do-file is more hindrance than it is useful. For example, if you are not so familiar with a command, you may prefer to try it first. One simple way to do that and still have discipline about writing do-files is to write your do-file in stages, writing only a few commands before executing them, correcting mistakes as you go. In order to execute a number of commands rather than the whole do-file, simply highlight the ones you want to execute, and click on the Execute Selection (do) icon on the top of your do-file editor, at the far right. As you become more proficient with programming in Stata, you wont need to try out commands anymore, and youll discover the joy of writing a do-file and having it run without a glitch. To run a whole do-file, do not highlight any part of it and click on the Execute Selection (do) icon. You may wonder about the commands clear, set more off and set mem 15000 in the screenshot example. These three commands are administrative commands that are quite useful to have at the beginning of a do-file. The first, clear, is used to clear any previous dataset you may have been working on. The command set more off tells Stata not to pause or display the --more-- message. Finally, the command set mem 15000 increases the memory available to Stata from your computer here we will need it as the size of the data set we downloaded from ltodesigt3 is larger than the 10mb allocated to data by default. One last comment about do files: if you double click a saved do file, it will not open for editing, but rather Stata will run that do-file, which can be a bit annoying To reopen a do-file from a folder without executing the commands in it, right-click on it and select edit rather than open. Always keep a log . Again, this is a general rule of thumb on Stata. Keeping a log means you can go back and look at what you did without having to do it again. Starting a log is just a matter of adding a command at the top of your do-file that tells Stata to log, as well as where you want the log to be saved: log using whateverpathyouwant:pickanameforyourlog. smcl4. replace5 Note how logs are saved under the smcl extension. Do not forget to close your log before starting a new one. The last command on your do-file6 will usually be log close. Save as you go . Computers crash, power goes out, stuff happens. Save your do-files every few minutes as you write them. Saving a do file is done the same way as saving any text editor document: either click on the diskette icon, or press CTRLS: You should also save your dataset as you modify it, but make sure to keep one version of the original dataset, in case you need to start over. The command to save a dataset on Stata is save, followed by the path where you want the dataset to be saved, and the optional command replace. Note how the extension for Stata data is. dta, and also note how the new dataset has a different name from the original7 . Become familiar with your dataset . Datasets come with codebooks. You should know what each variable is, how its coded, how missing values are identified. A good practice is to actually look at the data, so that you understand the structure of the information. To do so, you can click on Data in the top-left corner of your viewer and select Data editor, then Data editor (browse). A new window will open and you can see your data. You can also use the command browse, either by typing it directly in the command window, or from a do file: One of the distinguishing features of ltodesigt is that when you download a dataset, it comes with labels. Variable labels are descriptions of variables, and value labels are used to describe the way variables are coded. Basically, the value label sits on top of the code, so that when you browse, you see what the code means rather than what it is. To make this clearer, lets look at the data with no labels. Look, for example, at the GEOPRV variable. Creating a number of smaller subsets based on research criteria There are many reasons why you may want a smaller subset of your data but the main one is that the bigger the dataset, the harder it is for Stata to manage, which slows down your system. Your goal is to make your dataset as small as possible, while keeping all the relevant information. Your research agenda determines what your final dataset will contain. Lets say you have data on the health habits of Canadians aged 12 and up, but your research question is specific to women of reproductive age living in Ontario8. You clearly dont need to keep the men in your dataset, and you wont need to keep the residents of provinces other than Ontario. Furthermore, you can probably drop women under 15 and over 55 years old. Now, lets look at how you would do that. To drop observations, you need to combine one of two Stata commands (keep or drop) with the if qualifier. Make sure you have saved your original dataset before you get started. The keep command should be used with caution (or avoided altogether) because it will drop all but what you specifically keep. This can be a problem if you are not 100 certain of what you want to keep. The drop command will drop from your dataset what you specifically ask Stata to drop. The if qualifier restricts the scope of the command to those observations for which the value of an expression is true. The syntax for using this qualifier is quite simple: Where command in this case would be, drop and exp is the expression that needs to be true for the drop command to apply9 . Using the example of women of reproductive age in Ontario, the first highlighted line drops men, the second line drops any observation not in Ontario, while the last line drops observations in age groups older or younger than our subset of interest. You have to be careful with logical operators notice the syntax in the third line. A common mistake is to ask Stata to drop if DHHGAGEgt10 amp DHHGAGElt2. There are no individuals in the dataset who are older than 55 AND younger than 15. We want to drop if older than 55 OR younger than 15. Here is a list of operators in expressions. You would mostly use logical and relational operators in conjunction with if: Another way in which you may need to make your dataset smaller is by dropping variables that are not useful to your research. It may be that the information contained in a given variable is duplicated (i. e. another variable provides the same info), or maybe all the observations for a variable are missing, or a variable just happens to be in your dataset but is irrelevant to your research. Dropping variables is very straightforward simply use the drop command. Looking at the data from CCHS, the variable SLP01 (Number of hours spent sleeping per night) is coded as. a (NOT APPLICABLE) for each observation in the dataset. Clearly we will not learn anything from that variable, so we can drop it. The syntax for dropping variable is simple: Where varlist is the list of variables you would like to drop. Its easy to drop a number of a variable at a time this way. Here I am dropping all the variables that were coded as Not Applicable for more than 95 of observations10 : Sometimes variables are not coded the way you want them to be. In this section we will look at two transformations you may need to do on some variables before using them: recode and destring. The recode command changes the values of numeric variables according to the rules specified. In the CCHS dataset, many variables have missing values coded as. a or. d. This is convenient because it will not affect calculations you might do using the data (for example if you calculate an average). However, many datasets use 999 as a missing variable code, and that might be problematic. We might want to recode these as . in order to not have them affect any calculations we plan on doing with the data. The syntax for this command is: recode varlist (old value(s)new value)11 Lets recode the height and BMI variables from the CCHS data, (for the sake of illustration, since its really not necessary in this case): The destring command allows you to convert data saved in the string format (i. e. alphanumeric) into a numerical format. The CCHS dataset does not contain any string variable. In order to see what a string variable looks like, we can use the converse command, tostring, to create a string variable. We will then convert that variable back to a numerical format. A string variable shows up in red in the data editor: Although it may look the same as the variable CIH2, Stata cannot do any calculations on the string variable (since its format is telling Stata that it is made of letters or other symbols). Lets destring it: Notice the use of the options generate and replace. When we created the fake string variable, we used generate because we wanted a new separate variable. Now, when we destring, we are replacing the string variable by its numerical counterpart. How you choose to do this in your own dataset depends on how you plan to use the variables. Will you still have any use for the string variable If so generate a new one when you destring. Do you just want that variable to not be in string format Then replace it with the new one. Here, we can see that our variable string is now completely identical to the variable CIH2: (We can drop that variable now) Outliers deserve their own section because there is often confusion as to what exactly constitutes an outlier. An outlier is NOT an observation with an unusual but possible value for a variable12 rare events do occur. The outliers you should be concerned about are the ones that come from coding error. How do you tell which is which Common sense goes a long way here. First, look at your data using the data editor (browse). Outliers tend to jump at you. If you have a small dataset, you can also tabulate each of your variables: Tabulating a variable will give you a list of all the possible values that variable takes in the dataset. Outliers will be the extreme values. Look at the order of magnitude. Are these values believable If the dataset is very big, however, it may not be practical to stare at all the values a variable can take. In fact, Stata will not tabulate if there are too many different values. You can look at your data in a scatter plot: In the CCHS dataset, caseid is the individual id, while hwtghtm is the height in meters. The graph tells us there are no outliers in this dataset: Another way to look for outliers is to summarize the observations for a variable, using the detailed option: The result window will show the main percentiles of the distribution (including the median 50), the first four moments, as well as the four smallest and four largest observations: Clearly, there are no outliers. Lets imagine for a moment that the 99 percentile of the height distribution includes an observation with 5.2m entered as the height. Is it plausible that there really was a 5.2m woman recorded in this dataset Look at the order of magnitude by which this observation would differ from the second largest. Its almost 50 standard deviations bigger. What should you do with such an observation There are a number of solutions but none is perfect: Drop it from your dataset (drop if hwtghtmgt1.803) Use the if qualifier to exclude it when generating statistics that use the height variable ( command if hwtghtmlt1.803) Ignore it if the height variable is not actually that important in your research and the rest of the variables for this observations are coded just fine There are two main commands you need to know to generate new variables: gen is for the basics, while egen allows you to get pretty fancy. You can combine these with qualifiers such as if or in as well as prefix such as by and bysort14 . For example, say you want to create a variable that tells you whether the women in the dataset have a live-in partner. While there is no sure-fire way to establish that, we will approximate it by assuming that women who indicated their marital status as married or common-law actually live with their spouse or common-law partner: The first line creates the variable livein and assigns it a value of 1 if the value of the marital status variable (dhhgms) is either 1 (married) or 2 (common-law). The second line replaces the missing value code by 0, making the livein variable binary. Now, lets say you would like to create a categorical variable that tells you, by age group, if a woman is below or above average in terms of body mass index (BMI). The first line of command creates a variable (meanbmi) which takes on a unique value for each age group, the average BMI for that age group. The prefix bysort is a combination of by and sort you could equivalently break it into two commands: by DHHGAGE: egen meanbmimean(HWTGBMI) The sort part of the command organizes the observation according to the variable DHHGAGE, from smallest to largest, a step required before doing any action by the variable. Its usually easier to just use bysort. The second and third lines (starting with gen) create a binary variable which equals 0 if an observation has a BMI lower than the average for her age group, and 1 if her BMI is above her age group average. Now that you have created these new variables, it would be nice to make sure that the rules by which you generated them was correct. Ideally, you would like to look at livein (the new variable based on marital status) and dhhgms (the marital status variable). However, its hard to compare two variables unless they are side by side. You can use the order command to move a variable (i. e. move a column of your dataset). When you create a variable, by default it becomes the last column of your dataset. You can move it next to another variable instead: Now if we look at our dataset, we can see compare the new variable to the old and make sure that we coded it properly: Similarly, since our two new variables pertaining to BMI are now the last columns, lets move the original BMI variable to the end of the dataset: It now easy to glance at our new variables: Do you notice the problem on line 8 The variable bmicat should not be coded 1 if the original BMI variable is coded as a missing value. We can fix this with a quick replace: replace bmicat. if hwtgbmi. d Whenever you create a new variable, it is a good idea to label it. Why Having your variables labeled makes it easy for you or anyone else using your dataset to quickly see what each variable represents. You should think of your work as something that people should be able to reproduce. Labeling your variables is a small task that makes it much easier for others to use your data15 . The syntax for labeling variables is as follow: label variable varname label . In our previous example, the command would look like this: Note that you can abbreviate this command to lab var: You may find that you work faster if your variables have names that you recognize at first glance. In most cases this is by no means a necessary task in cleaning data, but if you use data from another country, for example, you may find that the variable names are in a foreign language, making it very hard to remember. The syntax is as easy as can be: rename oldname newname Lets see the final do-file Your do-file may be slightly different from this but it should result in the same final dataset: Lets try running it in one go to see if it works. Do not highlight any command and click on Execute (Do). Note that whenever Stata encounters the command browse a data editor will pop up on your screen. Have a look at your data then close the data editor in order for Stata to continue running the do-file. Lets also take the time to open our logs to see what it looks like and how it could be useful. Finally lets look at our final datasets and make sure it contains all the right variables, in the right format. This concludes our workshop but its only the beginning for you. Learning to use statistical software involves a lot of trial and error, angry googling, and desperately trying to find someone who knows how to write a loop Listed below are a few excellent resources to further your working knowledge of Stata:

No comments:

Post a Comment