Stata 12 Moving Average


Bienvenido al Instituto de Investigación y Educación Digital. Análisis de Mediciones Repetidas con Datos Stata: amplio versus largo Los datos de medidas repetidas vienen en dos formatos diferentes: 1) ancho o 2) largo. En el formato ancho cada sujeto aparece una vez con las medidas repetidas en la misma observación. Para los datos en el formato largo hay una observación para cada período de tiempo para cada sujeto. Aquí hay un ejemplo de datos en el formato ancho para cuatro períodos de tiempo. En el anterior y1 es la variable de respuesta en el tiempo uno. En forma larga los datos se parecen a esto. Tenga en cuenta que el tiempo es una variable explícita con datos de formulario largos. Este formato se llama datos persona-período por algunos investigadores. Stata analiza medidas repetidas tanto para anova como para modelos lineales mixtos en forma larga. Por otra parte, SAS y SPSS usualmente analizan anova de medidas repetidas en forma ancha. Sin embargo, tanto SAS como SPSS requieren el uso de modelos largos de datos mixtos. El conjunto de datos de ejemplo Nuestro conjunto de datos de ejemplo se llama inteligentemente medidas repetidas y se puede descargar con el siguiente comando. Hay un total de ocho sujetos medidos en cuatro puntos de tiempo cada uno. Estos datos están en formato ancho donde y1 es la respuesta en el tiempo 1, y2 es la respuesta en el tiempo 2, y así sucesivamente. Los sujetos se dividen en dos grupos de cuatro sujetos usando la variable trt. Aquí están las estadísticas descriptivas básicas en cada uno de los cuatro puntos de tiempo combinados y divididos por grupo de tratamiento. A continuación, vamos a graficar los ocho medios de la célula con el comando escrito por el usuario, perfil. Puede descargar este comando escribiendo findit profileplot es la ventana de comandos Stata. Ahora veamos las matrices de correlación y covarianza de las respuestas en el tiempo. Medida repetida anova asume que la estructura de covarianza dentro del sujeto es simétrica compuesta. La matriz de covarianza anterior no parece tener simetría compuesta. Discutiremos la covarianza dentro del sujeto con mayor detalle más adelante en la presentación. Cambiar de forma de largo a largo Ahora que hemos mirado algunas de las estadísticas descriptivas podemos remodelar los datos en forma larga usando el comando reshape. La opción i () da la variable que identifica el sujeto mientras que la opción j () crea una nueva variable que indica el período de tiempo. Ahora que hemos remodelado los datos podemos pasar a medidas repetidas anova. Medidas repetidas anova En la jerga de anova este diseño tiene efectos tanto entre sujetos como dentro de sujetos, es decir, es un modelo de efectos mixtos. En particular, este diseño se conoce a veces como un análisis factorial de la varianza fraccionado. En Stata, con los datos en forma larga, necesitamos especificar los términos de error tanto para los efectos entre sujeto como dentro del sujeto. En general, la regla es que existe un único término de error para todos los efectos entre sujetos y un término de error separado para cada uno de los factores dentro del sujeto y para la interacción de factores dentro del sujeto. Nuestro modelo es relativamente sencillo con sólo dos términos de error. El efecto entre sujetos es el tratamiento (trt) y su término de error está sujeto anidado en el tratamiento (id trt). Tiempo de tiempo del factor dentro del sujeto. Su término de error es el error residual para el modelo. Las medidas repetidas anova tienen una suposición de que la estructura de covarianza dentro del sujeto es compuesta simétrica, también conocida como, intercambiable. Con la simetría compuesta se espera que las variaciones en cada momento sean iguales y se espera que todas las covarianzas sean iguales entre sí. Si la estructura de covarianza dentro del sujeto no es simétrica compuesta entonces los valores p obtenidos de las medidas repetidas anova pueden no reflejar con exactitud las probabilidades verdaderas. Stata le permite tomar en cuenta la falta de simetría compuesta mediante la inclusión de la opción repeat () en el comando anova que calcula los valores de p para las pruebas F conservadoras. Discutiremos las estructuras de covarianza en profundidad más adelante en la presentación. Aquí está el comando anova para nuestros datos. La interacción tratamiento-por-tiempo es importante, así como los dos efectos principales para el tratamiento y el tiempo. La salida incluye los valores de p para tres diferentes pruebas F conservadoras: 1) Huynh-Feldt, 2) Invernadero-Geisser y 3) Box s conservador F. Estos valores son indicadores del valor p es incluso si los datos no Satisfacer la suposición de simetría compuesta. Podemos ver la matriz de covarianza dentro del sujeto agrupada enumerando la matriz de Srep. La inspección de la matriz de covarianza dentro del sujeto combinada pone en duda la validez de la suposición de simetría compuesta. Afortunadamente, los valores de p para la prueba F conservadora todavía indican efectos significativos para la interacción trt tiempo y el efecto principal del tiempo. Pruebas de efectos simples Debido a que la interacción tratamiento-por-tiempo es significativa, debemos tratar de explicar la interacción. Una forma de hacerlo es mediante el uso de la prueba de efectos simples. Comenzaremos examinando el efecto del tiempo en cada nivel de tratamiento. El efecto del tiempo en cada tratamiento El simple efecto del tiempo tiene tres grados de libertad para cada nivel del tratamiento para un total de seis grados de libertad. Esta prueba de efectos simples usará el error residual para el modelo como su término de error. Usaremos la orden de contraste para hacer la prueba de efectos simples. Seguimiento de pares Debido a que cada una de las pruebas de efectos simples implica cuatro puntos de tiempo seguirán con comparaciones de pares usando el comando de márgenes con la opción pwcompare. Anova con término de error agrupado Las pruebas de tratamiento en cada punto de enlace requieren el uso del error agrupado. Es decir, agrupando id trt y el error residual. Esto se logra fácilmente eliminando id trt del comando anova. Tenga en cuenta que los grados de libertad residual es ahora 24. El efecto del tratamiento en cada momento Ahora podemos ejecutar los efectos simples de tratamiento en cada momento, de nuevo utilizando el comando de contraste. Puesto que hay dos niveles de tratamiento en cada punto de tiempo hay un total de cuatro grados de libertad. Dado que cada prueba es un grado de libertad, no tenemos que hacer ninguna prueba de seguimiento. Gráfico de interacción Una gráfica de la interacción siempre es útil. Utilizaremos el comando margins y marginsplot para producir la trama. Desventajas de medidas repetidas anova Repetidas medidas anova sufre de varias desventajas entre las cuales son, no permite observaciones desiguales dentro del sujeto usuario debe determinar el término de error correcto para cada efecto asume simetría compuesta / estructura de covarianza intercambiable Para ejecutar el análisis como un modelo mixto de medidas repetidas. Lo haremos usando el comando xtmixed. Tenga en cuenta que no tenemos que especificar los términos de error, solo necesitamos especificar el nombre de la variable en la que se repiten los datos, en este caso id. Esto es lo que parece el comando xtmixed. Tenga en cuenta que usamos la opción reml para que los resultados sean comparables a los resultados de anova. Además de las estimaciones de los efectos fijos obtenemos dos efectos aleatorios. Éstas son la varianza de las intercepciones y la varianza residual que corresponden a las variaciones entre sujeto y dentro de sujeto respectivamente. Xtmixed produce estimaciones para cada término en el modelo individualmente. Para obtener ensayos conjuntos (grado de libertad múltiple) de la interacción y efectos principales usaremos el comando de contraste. Gráfico de interacción Vamos a graficar la interacción usando los mismos comandos margins y marginsplot como antes. Prueba de efectos simples Una vez más, podemos utilizar pruebas de efectos simples para entender la interacción significativa. Tiempo en cada tratamiento Dado que cada una de estas pruebas de efectos simples usa tres grados de libertad, seguiremos las comparaciones par a par de usinf. Tratamiento en cada momento. Prueba post-hoc de las tendencias Otra manera de mirar estos resultados sería mirar la tendencia en el tiempo para cada uno de los dos grupos. Hacemos esto usando la p. Que proporciona coeficientes de uso de polinomios ortogonales. Mantenemos al operador que usamos en las pruebas de efectos simples para dar los resultados por tratamiento. Los resultados muestran una tendencia lineal significativa tanto para el tratamiento 1 como para el tratamiento 2. El tratamiento 2 tiene una tendencia cuadrática significativa, mientras que el tratamiento 1 tiene una tendencia cúbica significativa. Prueba post-hoc de la interacción parcial Otra alternativa es mirar las interacciones parciales entre el tratamiento y el tiempo. Vamos a ver los dos tratamientos y dos puntos de tiempo para cada prueba. Para entender nuestras pruebas de interacción parcial ayuda a ver el gráfico de la interacción. La primera prueba mira las dos líneas entre el tiempo 1 y el tiempo 2. La siguiente prueba mira las líneas entre el tiempo 2 y el tiempo 3. Y la prueba final mira las dos líneas entre el tiempo 3 y el tiempo 4. Para cada uno de los Las interacciones parciales que estamos probando si la interacción entre las cuatro células es significativa. La forma de establecer las pruebas de interacción parcial es utilizar la a. (Adyacente) operador de contraste junto con la interacción para. La explicación es mucho más compleja que el concepto. Los resultados indican que no hay interacción entre el tiempo 1 y el tiempo 2 o entre el tiempo 2 y el tiempo 3. Sin embargo, existe una interacción entre las épocas 3 y 4. Estructuras de covarianza dentro del sujeto Hemos dicho anteriormente que volveríamos al tema De estructuras de covarianza dentro del sujeto. Así que veamos varias de las posibles estructuras de covarianza dentro del sujeto. Esta estructura de covarianza trata los efectos repetidos como totalmente independientes, como si el diseño estuviera entre sujetos. Compuesto de simetría / intercambiable Medidas repetidas anova supone que la estructura de covarianza dentro del sujeto tiene simetría compuesta. Existe una única varianza (1) para cada una de las parejas de ensayos. Esto se ilustra a continuación. Stata llama a esta estructura de covarianza intercambiable. No estructurado Para la covarianza no estructurada cada punto de tiempo tiene su propia varianza (por ejemplo, 21 es la covarianza del tiempo 1 y el tiempo 2). Este es el tipo de estructura de covarianza que se encuentra multivariante análisis de varianza (manova). La desventaja de usar la covarianza no estructurada es el mayor número de parámetros que se están estimando. Autoregresivo Otra estructura de covarianza común que se observa frecuentemente en datos de medidas repetidas es una estructura autorregresiva que reconoce que las observaciones más próximas están más correlacionadas que las medidas más distantes. A continuación se muestra un ejemplo de una matriz de covarianza autorregresiva. También es posible tener estructuras de tipo 2 o 3 autorregresivas. Además de las estructuras de covarianza mostradas anteriormente, Stata también ofrece las siguientes estructuras de covarianza: media móvil, bandas, toeplitz y exponencial. Ejemplo con covarianza no estructurada Después de inspeccionar nuestra matriz de covarianza dentro del sujeto, hemos decidido utilizar la covarianza no estructurada dentro del sujeto. Aquí está la prueba conjunta (multi grado de libertad) para la interacción. Pruebas de efectos simples: tiempo trt Dado que la interacción es estadísticamente significativa, seguiremos con una prueba de efectos simples del tiempo en cada tratamiento. Modelos de crecimiento Modelo de crecimiento lineal También es posible tratar el tiempo como una variable continua, en cuyo caso, el modelo sería considerado como un modelo de crecimiento lineal. Para simplificar la interpretación de la intercepción vamos a comenzar el tiempo en cero en lugar de uno. Hacemos esto creando una nueva variable ctime que es tiempo - 1. Necesitamos dejar que xtmixed sepa que estamos tratando ctime como continuo usando c. prefijo. Tenga en cuenta que cuando se utiliza un modelo mixto no es necesario que cada sujeto se mida en los mismos puntos de tiempo, aunque en nuestro caso todos se miden en los mismos cuatro puntos de tiempo. Aquí está nuestro modelo de crecimiento lineal. Como puede ver, el término de interacción sigue siendo estadísticamente significativo. Es necesario tener cuidado al interpretar trt y ctime como efectos principales en el sentido anova. El coeficiente ctime es la pendiente de y en ctime en el grupo de referencia. Mientras que el coeficiente para trt es la diferencia en los dos grupos cuando ctime es cero. Pistas sencillas Podemos usar el comando margins con la opción dydx para obtener las pendientes de cada uno de los dos grupos de tratamiento. Tenga en cuenta que la pendiente para trt 1 es la misma que el coeficiente para ctime anterior. También podemos probar la diferencia en las pendientes usando el comando de los márgenes con la codificación del grupo de referencia usando el r. Operador de contraste. No es realmente necesario hacer esto porque ya sabemos que la diferencia en pendientes es significativa del término de la interacción arriba. De hecho, si tomas el valor z para la interacción (3.57) y lo cuadrados (12.7449), obtendrás el chi cuadrado que se muestra a continuación dentro del error de redondeo. Representación gráfica de la interacción Podemos visualizar las pendientes simples mediante la representación gráfica de la interacción utilizando una variación de los márgenes con la opción at () junto con el comando marginsplot. Modelo de crecimiento cuadrático No tenemos que restringirnos a una relación lineal en el tiempo. Podemos fácilmente incluir un efecto cuadrático al repetir el término c. ctime en nuestro modelo. Representación gráfica del modelo cuadrático Podemos representar gráficamente el modelo cuadrático usando los mismos comandos de márgenes y marginsplot que usamos para el modelo lineal Modelo de crecimiento cúbico Si añadimos un ctime adicional a nuestro modelo de crecimiento cuadrático obtenemos un modelo de crecimiento cúbico. Representación gráfica del modelo cúbico Pistas para cada tratamiento y punto de tiempo Con una ligera variación en el mando de márgenes, podemos obtener las pendientes para cada grupo de tratamiento en cada punto de tiempo. Usted notará que para el tratamiento 2 las pendientes se mantienen cada vez más pronunciadas y más empinadas, mientras que para el tratamiento 1, las pendientes suben y luego retroceden. Ventajas y desventajas de los modelos mixtos Existen ventajas y desventajas al utilizar modelos mixtos, pero en conjunto los modelos mixtos son más flexibles y tienen más ventajas que desventajas. Ventajas calcula automáticamente los errores estándar correctos para cada efecto permite desequilibrio o ausencia de observaciones dentro del sujeto permite intervalos de tiempo desiguales permite que varias estructuras de covarianza dentro del sujeto permitan que el tiempo sea tratado como categórico o continuo Desventajas xtmixed informes resultados como chi cuadrado los valores p Apropiada para muestras grandes y sesgada hacia abajo en pequeñas muestras El contenido de este sitio web no debe ser interpretado como un endoso de ningún sitio web, libro o producto de software en particular por la Universidad de California. Los datos de limpieza en los datos de limpieza de Stata son un término bastante amplio que se aplica a las manipulaciones preliminares en un conjunto de datos antes del análisis. Muy a menudo será la primera asignación de un asistente de investigación y es la parte tediosa de cualquier proyecto de investigación que nos hace desear que teníamos un asistente de investigación. Stata es una buena herramienta para la limpieza y manipulación de datos, independientemente del software que se va a utilizar para el análisis. Su primer paso en un conjunto de datos puede implicar alguno o todos de los siguientes: Crear un número de subconjuntos más pequeños basados ​​en criterios de investigación Eliminar observaciones Eliminar variables Transformar variables Tratamiento de valores atípicos Crear variables nuevas Variables en movimiento Etiquetar variables Cambiar el nombre de variables Si es su primera limpieza Datos o usted es un mono de datos experimentado, usted puede encontrar algunos consejos útiles leyendo más. Utilice el archivo de ayuda de Stata. Stata tiene una función integrada que le permite acceder al manual del usuario, así como archivos de ayuda en cualquier comando dado. Simplemente escriba help en la ventana de comandos, seguido por el nombre del comando que necesita ayuda y presione la tecla Enter: Escribir un archivo do. Nunca limpie un dataset insertando comandos ciegamente (o peor, haciendo clic en los botones). Desea escribir los comandos en un archivo-do, y luego ejecutarlo. De esta manera, si comete un error, no habrá arruinado su conjunto de datos y no tendrá que empezar de nuevo desde cero. Este es un consejo general que se aplica a cualquier trabajo que realice en Stata. Trabajar desde do-files permite a otras personas ver lo que hizo si alguna vez necesita consejos, hace que su trabajo sea reproducible y le permite corregir los pequeños errores de alguna manera sin dolor. Para iniciar un archivo do, haga clic en el icono que se parece a un bloc de notas en la esquina superior izquierda de su visor de Stata 2. En las etapas preliminares de su trabajo, usted puede sentir que un archivo de hacer es más obstáculo de lo que es útil. Por ejemplo, si no está familiarizado con un comando, puede preferir probarlo primero. Una forma sencilla de hacerlo y aún tener disciplina sobre la escritura de archivos es escribir su archivo de tareas en etapas, escribiendo sólo unos comandos antes de ejecutarlos, corrigiendo errores a medida que avanza. Para ejecutar un número de comandos en lugar de todo el archivo-do, simplemente resalte los que desea ejecutar, y haga clic en el icono Ejecutar selección (hacer) en la parte superior de su editor de archivos, en el extremo derecho. A medida que se vuelve más proficiente con la programación en Stata, no tendrá que probar comandos más, y descubrirá la alegría de escribir un archivo de hacer y ejecutar sin un problema. Para ejecutar un archivo completo, no resalte ninguna parte del mismo y haga clic en el icono Ejecutar selección (hacer). Usted puede preguntarse acerca de los comandos claros, establecer más y establecer mem 15000 en el ejemplo de captura de pantalla. Estos tres comandos son comandos administrativos que son bastante útiles para tener al principio de un archivo-do. El primero, claro, se utiliza para borrar cualquier conjunto de datos anterior en el que haya estado trabajando. El comando configurado más apagado le indica a Stata que no deje de pausar ni muestre el mensaje --more--. Por último, el conjunto de comandos mem 15000 aumenta la memoria disponible para Stata desde su computadora aquí lo vamos a necesitar, ya que el tamaño del conjunto de datos que descargamos de 3 es mayor que el 10mb asignado a los datos por defecto. Un último comentario sobre los archivos do: si hace doble clic en un archivo guardado, no se abrirá para su edición, sino que Stata ejecutará ese archivo-do, lo que puede ser un poco molesto Reabrir un archivo do desde una carpeta sin ejecutar Los comandos en él, haga clic derecho sobre él y seleccione editar en lugar de abrir. Siempre mantenga un registro. Una vez más, esta es una regla general sobre Stata. Mantener un registro significa que usted puede regresar y mirar lo que hizo sin tener que hacerlo de nuevo. Iniciar un registro es sólo una cuestión de agregar un comando en la parte superior de su archivo de registro que le dice a Stata para registrar, así como donde desea que el registro de ser guardado: registro utilizando cualquiera que sea: pickanameforyourlog. smcl 4. Replace 5 Note cómo los registros se guardan bajo la extensión smcl. No olvide cerrar su bitácora antes de comenzar una nueva. El último comando en su archivo de tareas 6 será normalmente cierre de registro. Ahorrar a medida que avanza. Las computadoras se bloquean, la energía se apaga, las cosas pasan. Guarde sus archivos de tareas cada pocos minutos a medida que los escribe. Guardar un archivo do se realiza de la misma manera que guardando cualquier documento del editor de texto: haga clic en el ícono del disquete o presione CTRL S: También debe guardar su conjunto de datos al modificarlo, pero asegúrese de mantener una versión del dataset original , En caso de que tenga que empezar de nuevo. El comando para guardar un conjunto de datos en Stata es guardar, seguido por la ruta donde desea que el conjunto de datos se guarde y el comando opcional reemplazar. Observe cómo la extensión para los datos de Stata es. dta, y también observe cómo el nuevo conjunto de datos tiene un nombre diferente del original 7. Familiarícese con su conjunto de datos. Los conjuntos de datos vienen con libros de códigos. Debe saber qué es cada variable, cómo se codifica, cómo se identifican los valores perdidos. Una buena práctica es mirar realmente los datos, de modo que usted entienda la estructura de la información. Para ello, puede hacer clic en Datos en la esquina superior izquierda de su visor y seleccionar Editor de datos, luego Editor de datos (examinar). Se abrirá una nueva ventana y podrá ver sus datos. También puede utilizar el comando browse, ya sea escribiéndolo directamente en la ventana de comandos, o desde un archivo do: Una de las características distintivas de es que cuando se descarga un dataset, viene con etiquetas. Las etiquetas de variables son descripciones de variables y se usan etiquetas de valores para describir la forma en que se codifican las variables. Básicamente, la etiqueta de valor se encuentra en la parte superior del código, de modo que cuando se navega, se ve lo que significa el código en lugar de lo que es. Para hacer esto más claro, veamos los datos sin etiquetas. Mira, por ejemplo, en la variable GEOPRV. Crear un número de subconjuntos más pequeños basados ​​en criterios de investigación Hay muchas razones por las que puede querer un subconjunto más pequeño de sus datos, pero el principal es que cuanto más grande es el conjunto de datos, más difícil es que Stata administre, lo que ralentiza su sistema. Su objetivo es hacer que su conjunto de datos sea lo más pequeño posible, manteniendo toda la información relevante. Su agenda de investigación determina lo que su conjunto de datos final contendrá. Digamos que usted tiene datos sobre los hábitos de salud de los canadienses de 12 años o más, pero su pregunta de investigación es específica para las mujeres en edad reproductiva que viven en Ontario 8. Es evidente que no necesita mantener a los hombres en su conjunto de datos, y no tendrá que mantener a los residentes de provincias distintas de Ontario. Además, es probable que se le caiga a las mujeres menores de 15 años y mayores de 55 años. Ahora, echemos un vistazo a cómo haría eso. Para dejar las observaciones, es necesario combinar uno de los dos comandos Stata (keep or drop) con el calificador if. Asegúrese de haber guardado su conjunto de datos original antes de empezar. El comando keep debe utilizarse con precaución (o evitarlo por completo) porque eliminará todo excepto lo que específicamente mantenga. Esto puede ser un problema si no está seguro de lo que quiere mantener. El comando drop eliminará de tu conjunto de datos lo que pides específicamente a Stata para que descarte. El cualificador if restringe el alcance del comando a aquellas observaciones para las cuales el valor de una expresión es verdadero. La sintaxis para usar este calificador es bastante simple: Donde el comando en este caso sería, drop y exp es la expresión que necesita ser verdadera para que el comando drop se aplique. Usando el ejemplo de las mujeres en edad reproductiva en Ontario, la primera línea resaltada deja caer a los hombres, la segunda línea deja caer cualquier observación no en Ontario, mientras que la última línea disminuye observaciones en grupos de edad más viejos o más jóvenes que nuestro subconjunto de interés. Tienes que tener cuidado con los operadores lógicos notar la sintaxis en la tercera línea. Un error común es pedir a Stata que caiga si DHHGAGE 2. No hay ningún individuo en el conjunto de datos que tenga más de 55 años y menos de 15 años. Queremos dejarlo si tiene más de 55 años o menos de 15 años. Aquí hay una lista de operadores en expresiones. En general, utilizaría operadores lógicos y relacionales junto con if: Otra forma en la que puede necesitar que su conjunto de datos sea más pequeño es eliminando variables que no son útiles para su investigación. Puede ser que la información contenida en una variable dada se duplique (es decir, otra variable proporcione la misma información), o tal vez todas las observaciones de una variable falten, o una variable simplemente esté en su conjunto de datos pero es irrelevante para su investigación . Soltar variables es muy sencillo simplemente usa el comando drop. En cuanto a los datos del CCHS, la variable SLP 01 (Número de horas de sueño por noche) se codifica como. a (NO APLICABLE) para cada observación en el conjunto de datos. Claramente no vamos a aprender nada de esa variable, así que podemos dejarlo. La sintaxis para descartar variables es simple: Donde varlist es la lista de variables que desea eliminar. Es fácil eliminar un número de una variable a la vez de esta manera. Aquí estoy dejando caer todas las variables que fueron codificadas como no aplicable para más de 95 de las observaciones 10: A veces las variables no se codifican de la manera que desea que sean. En esta sección veremos dos transformaciones que necesitará hacer en algunas variables antes de usarlas: recodificar y destringir. El comando recode cambia los valores de las variables numéricas según las reglas especificadas. En el conjunto de datos del CCHS, muchas variables tienen valores faltantes codificados como. a o. d. Esto es conveniente porque no afectará a los cálculos que podría hacer con los datos (por ejemplo, si calcula un promedio). Sin embargo, muchos conjuntos de datos utilizan 999 como un código de variable faltante, y que podría ser problemático. Podríamos recodificarlos como. Con el fin de no tener que afectar a los cálculos que planeamos hacer con los datos. La sintaxis de este comando es: recode varlist (valor (es) viejo (s) nuevo) 11 Recapitulemos las variables altura e IMC de los datos del CCHS, (a título ilustrativo, ya que en este caso no es necesario): El comando destring le permite convertir los datos guardados en el formato de cadena (es decir, alfanuméricos) en un formato numérico. El conjunto de datos CCHS no contiene ninguna variable de cadena. Para ver cómo se ve una variable de cadena, podemos usar el comando inverso tostring para crear una variable de cadena. A continuación, convertiremos esa variable de nuevo a un formato numérico. Una variable de cadena aparece en rojo en el editor de datos: Aunque puede parecer igual que la variable CIH 2, Stata no puede hacer cálculos sobre la variable de cadena (ya que su formato le dice a Stata que está hecho de letras u otros símbolos) . Vamos a destringlo: Observe el uso de las opciones de generar y reemplazar. Cuando creamos la variable de cadena falsa, usamos generar porque queríamos una nueva variable separada. Ahora, cuando destringimos, estamos reemplazando la variable string por su contraparte numérica. La forma en que elija hacerlo en su propio conjunto de datos depende de cómo planee utilizar las variables. ¿Todavía tendrás algún uso para la variable de cadena Si así generas una nueva cuando destringes. Sólo desea que la variable no esté en formato de cadena. Luego, reemplácela por la nueva. Aquí, podemos ver que nuestra cadena variable es ahora completamente idéntica a la variable CIH 2: (Podemos dejar caer esa variable ahora) Outliers merecen su propia sección porque a menudo hay confusión en cuanto a lo que exactamente constituye un outlier. Un valor atípico NO es una observación con un valor inusual pero posible para una variable 12 eventos raros ocurren. Los outliers que debe preocuparse son los que vienen de error de codificación. ¿Cómo puede saber cuál es el sentido común que va un largo camino aquí. Primero, mire sus datos usando el editor de datos (navegar). Outliers tienden a saltar a usted. Si tiene un pequeño conjunto de datos, también puede tabular cada una de sus variables: Tabular una variable le dará una lista de todos los valores posibles que la variable toma en el conjunto de datos. Outliers serán los valores extremos. Mira el orden de magnitud. ¿Son estos valores creíbles? Si el conjunto de datos es muy grande, sin embargo, puede no ser práctico mirar fijamente a todos los valores que una variable puede tomar. De hecho, Stata no tabulará si hay demasiados valores diferentes. Puede ver sus datos en un diagrama de dispersión: En el conjunto de datos CCHS, caseid es el id individual, mientras que hwtghtm es la altura en metros. La gráfica nos dice que no hay valores atípicos en este conjunto de datos: Otra forma de buscar valores atípicos es resumir las observaciones de una variable, usando la opción detallada: La ventana de resultados mostrará los percentiles principales de la distribución (incluyendo la mediana 50) Los cuatro primeros momentos, así como las cuatro observaciones más pequeñas y cuatro más grandes: Claramente, no hay valores atípicos. Imaginemos por un momento que el percentil 99 de la distribución de altura incluye una observación con 5.2m introducida como altura. ¿Es plausible que realmente hubo una mujer de 5,2 m registrada en este conjunto de datos? Mire el orden de magnitud por el cual esta observación diferiría de la segunda más grande. Es casi 50 desviaciones estándar más grande. Qué debe hacer con una observación de este tipo Hay varias soluciones, pero ninguna es perfecta: Suelta de su conjunto de datos (drop if hwtghtm 1.803) Utilice el calificador if para excluirlo al generar estadísticas que utilizan la variable height (comando si hwtghtm 1.803 ) Ignorar si la variable altura no es realmente tan importante en su investigación y el resto de las variables para estas observaciones se codifican muy bien Hay dos comandos principales que necesita saber para generar nuevas variables: gen es para los conceptos básicos, mientras que egen Le permite obtener bastante lujoso. Puede combinar estos con calificativos como si o en, así como prefijo, como por y bysort 14. Por ejemplo, digamos que desea crear una variable que le indique si las mujeres en el conjunto de datos tienen un socio en vivo. Aunque no existe una manera segura de establecerlo, lo aproximaremos asumiendo que las mujeres que indicaron su estado civil como casadas o de hecho viven realmente con su cónyuge o pareja de hecho: La primera línea crea la variable en vivo y Le asigna un valor de 1 si el valor de la variable de estado civil (dhhgms) es 1 (casado) o 2 (common-law). La segunda línea reemplaza el código de valor faltante por 0, haciendo que la variable livein sea binaria. Ahora, digamos que le gustaría crear una variable categórica que le dice, por grupo de edad, si una mujer está por debajo o por encima del promedio en términos de índice de masa corporal (IMC). La primera línea de comando crea una variable (meanbmi) que toma un valor único para cada grupo de edad, el IMC promedio para ese grupo de edad. El prefijo bysort es una combinación de by y sort que podría dividirse de manera equivalente en dos comandos: por DHHGAGE: egen meanbmi mean (HWTGBMI) La parte orden del comando organiza la observación de acuerdo a la variable DHHGAGE, de menor a mayor, un paso Requerido antes de hacer cualquier acción por la variable. Por lo general, es más fácil usar bysort. La segunda y tercera líneas (que comienzan con gen) crean una variable binaria que es igual a 0 si una observación tiene un IMC inferior al promedio para su grupo de edad y 1 si su IMC está por encima del promedio de su grupo de edad. Ahora que ha creado estas nuevas variables, sería bueno asegurarse de que las reglas por las que las generó eran correctas. Idealmente, le gustaría ver livein (la nueva variable basada en el estado civil) y dhhgms (la variable de estado civil). Sin embargo, es difícil comparar dos variables a menos que estén lado a lado. Puede usar el comando order para mover una variable (es decir, mover una columna de su conjunto de datos). Cuando crea una variable, de forma predeterminada se convierte en la última columna de su conjunto de datos. Ahora, si nos fijamos en nuestro conjunto de datos, podemos ver comparar la nueva variable con la antigua y asegurarse de que la codificamos correctamente: Del mismo modo, dado que nuestras dos nuevas variables pertenecientes al IMC son ahora el Las últimas columnas, vamos a mover la variable BMI original al final del conjunto de datos: Ahora fácil de mirar a nuestras nuevas variables: ¿Notar el problema en la línea 8 La variable bmicat no debe codificarse 1 si la variable IMC original está codificado Como un valor faltante. Podemos arreglar esto con un reemplazo rápido: substituya el bmicat. If hwtgbmi. d Siempre que cree una nueva variable, es una buena idea etiquetarla. El hecho de que las variables sean etiquetadas facilita que usted o cualquier otra persona que utilice su conjunto de datos vea rápidamente qué representa cada variable. Usted debe pensar en su trabajo como algo que la gente debería ser capaz de reproducir. Labeling your variables is a small task that makes it much easier for others to use your data 15 . The syntax for labeling variables is as follow: label variable varname label . In our previous example, the command would look like this: Note that you can abbreviate this command to lab var: You may find that you work faster if your variables have names that you recognize at first glance. In most cases this is by no means a necessary task in cleaning data, but if you use data from another country, for example, you may find that the variable names are in a foreign language, making it very hard to remember. The syntax is as easy as can be: rename oldname newname Let s see the final do-file Your do-file may be slightly different from this but it should result in the same final dataset: Let s try running it in one go to see if it works. Do not highlight any command and click on Execute (Do). Note that whenever Stata encounters the command browse a data editor will pop up on your screen. Have a look at your data then close the data editor in order for Stata to continue running the do-file. Let s also take the time to open our logs to see what it looks like and how it could be useful. Finally let s look at our final datasets and make sure it contains all the right variables, in the right format. This concludes our workshop but it s only the beginning for you. Learning to use statistical software involves a lot of trial and error, angry googling, and desperately trying to find someone who knows how to write a loop Listed below are a few excellent resources to further your working knowledge of Stata: Stata 14 NEW Stata 14 is a complete, integrated statistical package that provides everything you need for data analysis, data management, and graphics. Stata is not sold in modules, which means you get everything you need in one package. OxMetrics OxMetrics provides an integrated solution for the econometric analysis of time series, forecasting, financial econometric modelling, or statistical analysis of cross-section and panel data. EViews NEW EViews 9 offers academic researchers, corporations, government agencies, and students access to powerful statistical, forecasting, and modelling tools through an innovative, easy-to-use object-oriented interface. Forecast Pro Forecast Pro is fast, easy and accurate forecasting software for business professionals. GAUSS GAUSS is a fast, powerful, highly adaptive suite of analytical software and tools. NVivo NVivo is software that supports qualitative and mixed methods research. It lets you collect, organise and analyse content. Latest Release: Stata 14 (April 2015) Operating System: Windows, Mac OS, Linux New Bayesian analysis commands / Treatment-effect analysis / IRT (Item Response Theory) Analysis / Support for Unicode / Stata in new languages / New time series commands / and much more End User License Agreement Stata 14 is a complete, integrated statistical package that provides everything you need for data analysis, data management, and graphics. Stata is not sold in modules, which means you get everything you need in one package. And, you can choose a perpetual licence, with nothing more to buy ever. Annual licences are also available. All of the following flavours of Stata have the same complete set of commands and features and manuals included as PDF documentation within Stata. Stata/MP: The fastest version of Stata (for dual-core and multicore/multiprocessor computers) Stata/SE: Stata for large datasets Stata/IC: Stata for moderate-sized datasets Small Stata: A version of Stata that handles small datasets (for educational purchases only). Comparison of features Stata/MP is the fastest and largest version of Stata. Most computers purchased since mid 2006 can take advantage of the advanced multiprocessing of Stata/MP. This includes the Intel Core 2 Duo, i3, i5, i7, and the AMD X2 dual-core chips. On dual-core chips, Stata/MP runs 40 faster overall and 72 faster where it matters - on the time-consuming estimation commands. With more than two cores or processors, Stata/MP is even faster. Stata/MP is a version of Stata/SE that runs on multiprocessor and multicore computers. Stata/MP provides the most extensive support for multiprocessor computers and multicore computers of any statistics and data-management package. The exciting thing about Stata/MP, and the only difference between Stata/MP and Stata/SE, is that Stata/MP runs faster much faster. Stata/MP lets you analyse data in one-half to two-thirds of the time compared with Stata/SE on inexpensive dual-core desktops and laptops and in one-quarter to one-half the time on quad-core desktops. Stata/MP runs even faster on multiprocessor servers. Stata/MP supports up to 64 processors/cores. In a perfect world, software would run twice as fast on two cores, four times as fast on four cores, eight times as fast on eight cores, and so on. Across all commands, Stata/MP runs 1.6 times faster on two cores, 2.1 times faster on four cores, and 2.7 times faster on eight cores. These values are median speed improvements. Half the commands run even faster. On the other side of the distribution, a few commands do not run faster, often because they are inherently sequential, such as time-series commands. Stata worked hard to make sure that the performance gains for commands that take longer to run would be greater. Across all estimation commands, Stata/MP runs 1.8 times faster on dual-core computers, 2.8 times faster on quad-core computers, and 4.1 times faster on computers with eight cores. Stata/MP is 100 compatible other versions of with Stata. Analyses do not have to be reformulated or modified in any way to obtain Stata/MP s speed improvements. Stata/MP is available for the following operating systems: Windows (32- and 64-bit processors) Mac OS X (64-bit Intel processors) Linux (32- and 64-bit processors) Solaris (64-bit SPARC and x86-64). To run Stata/MP, you can use a desktop computer with a dual-core or quad-core processor, or you can use a server with multiple processors. Whether a computer has separate processors or one processor with multiple cores makes no difference. More processors or cores makes Stata/MP run faster. For more advice on purchasing/upgrading to Stata/MP or for hardware queries, please contact our sales team. Stata SE performs in the same way as Stata/MP, allowing for the same number of variables and observations and the only difference is that it is not designed for parallel processing. In addition, Stata/SE, Stata/IC and Small Stata differ only in the dataset size that each can analyse Stata/SE and Stata/MP can fit models with more independent variables than Stata/IC (up to 10,998). Stata/IC allows datasets with as many as 2,047 variables. The maximum number of observations is 2.14 billion. Stata/IC can have at most 798 right-hand-side variables in a model. Small Stata is limited to analysing datasets with a maximum of 99 variables and 1,200 observations. Small Stata can have at most 99 right-hand-side variables in a model. Comparison of features The Maximum number of observations is limited only by the amount of available RAM on your system. Whether you re a student or a seasoned research professional, a range of Stata packages are available and designed to suit all needs. All of the following flavours of Stata have the same, complete set of commands and features and include PDF documentation: Stata/MP: The fastest version of Stata (for dual - and multicore/multiprocessor computers) Stata/SE: Stata for large datasets Stata/IC: Stata for moderate-sized datasets Small Stata: A version of Stata that handles small datasets (for educational purchases only) What Stata is right for me The summary above shows the Stata packages available. Stata/MP is the fastest and largest version of Stata. Most computers purchased after mid-2006 can take advantage of the advanced multiprocessing capabilities of Stata/MP. Stata/MP, Stata/SE, and Stata/IC all run on any machine, but Stata/MP runs faster. You can buy a Stata/MP license for up to the number of cores on your machine (the most is 64). For example, if your machine has eight cores, you can buy a Stata/MP license for either eight cores (Stata/MP8), four cores (Stata/MP4), or two cores (Stata/MP2). Stata/MP can also analyse more data than any other flavour of Stata. Stata/MP can analyse 10 to 20 billion observations given the current largest computers, and is ready to analyse up to 281 trillion observations once computer hardware catches up. Stata/SE, Stata/IC, and Small Stata differ only in the dataset size that each can analyse. Stata/SE and Stata/MP can fit models with more independent variables than Stata/IC (up to 10,998). Stata/SE can analyse up to 2 billion observations. Stata/IC allows datasets with as many as 2,047 variables and 2 billion observations. Stata/IC can have at most 798 right-hand-side variables in a model. Small Stata is limited to analysing datasets with a maximum of 99 variables and 1,200 observations. Small Stata can have at most 98 right-hand-side variables in a model. Note: The number of variables and observations allowed by Small Stata includes the additional variables or observations generated during statistical computations. New Features in Stata 14 Stata 14 has 102 new features and is one of the biggest new releases of Stata and offers new research capabilities for users in a variety of fields such as: economics, health researchers, epidemiologists, sociologists, psychologists, education researchers, political scientists, and econometricians. Bayesian analysis commands The introduction of Bayesian analysis commands (univariate and multivariate linear models, univariate GLM, univariate and generalized nonlinear models, etc.) supported by an all new Stata Bayesian Analysis reference manual. Stata 14 includes 12 built-in likelihood models and 22 built-in prior distributions among other helpful features. More Extended models of treatment effects Treatment-effect analysis is now available for a much broader class of models. Endogenous treatment-effect estimation is now available for continuous, binary, count, and fractional outcomes. Treatment effects can now also be estimated from observational survival data. More IRT (item response theory) analysis Stata 14 now supports IRT models for binary items (1-3 PL), categorical items (nominal response), ordinal items (graded response, rating scale and partial credit) and any combination of those models. More Stata in new languages Stata s user interface is now available in Spanish and Japanese. More More useful new features added in Stata 14 are: You can fit a variety of multilevel survival models such as exponential and Weibull mixed-effects models. More You can perform small-sample inference in linear mixed models using several denominator degrees-of-freedom methods, including the Kenward-Roger method. More New time series commands. More New and extended panel-data estimators. More You can calculate power and sample size for epidemiological contingency table analyses. More Stata now understands Unicode. More You can conduct the Satorra-Bentler adjusted model test for SEMs with data that are not normally distributed. More You can estimate models for rates, proportions, and other fractional responses using beta regression and fractional regression models. You can estimate Poisson models with censored dependent variables. Stata/MP now allows more than 2.1 billion observations up to 20 billion observations given the current largest computer, and is ready for more once computer hardware catches up. More ICD-10 codes. More Stage-level weights. More In addition to: churdle to estimate linear and exponential hurdle models betareg and fracreg for fractional responses, proportions, rates, etc. cpoisson to estimate censored Poisson models ztest and ztesti commands to compute z-statistics Postestimation Selector that greatly simplifies postestimation analysis Nearly all estimation commands in Stata now support factor variables A multitude of improvements to margins, such as the ability to make multiple predictions at a time and having the default predictions reflect the best choice for marginal analysis Several new utilities to help you better manage graphs New Quick start section of the manuals New Stata Functions Reference Manual Programming your thing. You ll be interested in these new features in Stata 14. Stata now uses the 64-bit Mersenne twister as its default random-number generator New statistical, random-number distribution, and string functions All new functions added to Stata are also available in Mata There are many video tutorials in using Stata. Below you will find the most recent additions that relate to Stata 14, as well as a list of all other resources currently available. Quick tips All versions of Stata run on dual-core, multi-core and multi-processor computers. Stata for Windows Windows 10 Windows 8 Windows 7 Windows Vista Windows Server 2012 Windows Server 2008 Windows Server 2003 64-bit and 32-bit Windows varieties for x86-64 and x86 processors made by Intel and AMD. Stata for Mac Stata for Mac requires 64-bit Intel processors (Core 2 Duo or better) running OS X 10.7 or newer Stata for Unix Linux: Any 64-bit (x86-64 or compatible) or 32-bit (x86 or compatible) running Linux. Hardware requirements Minimum of 512 MB of RAM Minimum of 900 MB of disk space Stata for Unix requires a video card that can display thousands of colours or more (16-bit or 24-bit colour) Please select a user type: Stata 14 Documentation Every installation of Stata includes all the documentation in PDF format. Stata s documentation consists of over 12,000 pages detailing each feature in Stata including the methods and formulas and fully worked examples. You can transition seamlessly across entries using the links within each entry. Stata 14 Manuals Bayesian Analysis Reference Manual Getting Started with Stata for Mac Getting Started with Stata for Unix Getting Started with Stata for Windows The Stata 14 documentation is copyright of StataCorp LP, College Station TX, USA, and is used with permission of StataCorp LP. Students may purchase Stata/MP . Stata/SE . Stata/IC and Small Stata at a discounted price through the Stata GradPlan programme. For more information about available licence types, click here . The 22nd London Stata Users Group Meeting takes place on Thursday, 8 and Friday, 9 September 2016 at Cass Business School, London. The London Stata Users Group meeting. La Reunio n Espan ola de Usuarios de Stata tendra lugar en Univ. Pompeu Fabra. Barcelona el jueves 20 de Octubre de 2016. El objetivo de dicha reunio n es facilitar. Stata 14.1 is available now and is a free update to Stata 14. Make sure to update your Stata 14 to Stata 14.1. Features in Stata 14.1 Bayesian analysis The new Bayesian. Researchers are on the constant hunt to identify causal relationships. The term treatment effect denotes the average causal effect of a binary variable on a defined outco. The use of Bayesian analysis is on the rise and is widespread across different disciplines including health, medicine, economics and other social sciences. The main diffe. Latest Stata Courses Regression analysis causality using Stata This course provides you with a step-by-step guide in how to analyse your retail sales using Stata. Date: 26 September - 1 October 2016 Microeconometrics is the first of three courses that make up the 2016 Econometrics Summer School, Cambridge. Dr. Melvyn Weeks, of the University of Cambridge, leads this 2.5-day course between 18-20 July 2016. This course will teach topics from an applied perspective and demonstrate the techniques using Stata. Delivered by StataCorp, NetCourses are convenient web-based courses for learning Stata.

Comments