Análisis de los datos y tabulación

Prof. N. Tomás Atauje Calderón
Metodología de la Investigación
Obstetricia UPSB – Ciclo II

Análisis de datos
 Consiste en determinar qué resultados de las variables
se presentaron y qué relación entre las variables se
necesita para dar respuesta al problema planteado.
 En la actualidad esto se realiza mediante programas de
computadora. Por ello es más importante la interpretación
de los métodos de análisis cuantitativos que aprender los
procedimientos de cálculo.
 El análisis que se proponga debe ser coherente con los
objetivos e hipótesis de estudio. No solo se deben emplear
las técnicas estadísticas sino también se debe justificar por
qué se están usando.

Análisis de datos
 Hacer el plan de análisis significa exponer el plan que
se va seguir para el tratamiento o análisis estadístico de
la información obtenida.
 El análisis depende de: El nivel de medición de las
variables; la manera cómo se formularon las hipótesis y
el interés del investigador.
 El investigador describe sus datos y efectúa análisis
estadísticos para relacionar sus variables. Primero se
realizan análisis de estadística descriptiva para cada
una de las variables y luego se describe la relación
entre éstas.

Principales análisis
 Estadística descriptiva para las variables (tomadas
individualmente).
 Puntuaciones “Z”
 Razones y tasas
 Cálculos y razonamientos de estadística inferencial.
 Pruebas paramétricas
 Pruebas no paramétricas
 Análisis multivariados

Estadística descriptiva para cada
variable
 Lo primero es describir los datos, valores o
puntuaciones obtenidas para cada variable.
 Los datos obtenidos van a ser descritos en una
distribución de puntuaciones o frecuencias.
Distribución de frecuencias:
 Conjunto de puntuaciones ordenadas en sus
respectivas categorías.
 A veces las categorías de las distribuciones de las
frecuencias son tantas que necesitan ser resumidas.

Distribución de frecuencias
 Las distribuciones de frecuencias pueden completarse
agregando las frecuencias relativas y las frecuencias
acumuladas.
 Las frecuencias relativas son los porcentajes de casos en
cada categoría. Las frecuencias acumuladas son lo que se va
acumulando en cada categoría, desde la más baja hasta la
mas alta.
 Las frecuencias acumuladas constituyen lo que se acumula
en cada categoría. En la última categoría siempre se
acumula el total.
 Las frecuencias acumuladas también pueden expresarse en
porcentajes.

Distribución de frecuencias
 Las frecuencias relativas y porcentajes se calculan así:
Frecuencia relativa = # casos Porcentaje= # casos x 100
# total # total
*Al presentar los resultados, una distribución solo presentará los elementos más
informativos para el lector, pudiendo llevar un comentario adjunto.
Categoría Cód.
Frecuencia
absoluta
(f)
Frec.
relativa
(fr)
Porcentaje
(%)
Frec.
acum.
(∑f)
Frec.
rel. ac.
(∑fr)
Porc.
ac.
(∑%)
De acuerdo 1 90 0,75 75% 90 0,75 75%
En desacuerdo 2 5 0,042 4.17% 95 0,792 79.17%
No sabe/ No opina 3 25 0,208 20.83% 120 1,00 100%
TOTAL 120 1,00 100%

Tabulación de los datos
 Es la presentación de los datos estadísticos en forma de tablas o
cuadros.
 Partes de una tabla:
 Título, preciso y conciso.
 Contenido: Encabezamientos o títulos de las columnas; columna
matriz y columnas de parámetros.
 Notas explicativas (opcional)
 Para tabular una variable cualitativa se debe obtener las frecuencias y
porcentajes. Recordar que en las variables ordinales siempre se debe
respetar el orden lógico.
 Para tabular variables cuantitativas, los datos se agruparán según la
frecuencia de los valores. Si son pocos se realiza una tabla similar a las
realizadas en variables cualitativas; si son muchos, se agrupan en clases
o intervalos de valores sucesivos.
 Todas las clases o intervalos deben tener la misma amplitud en sus
valores.

Tabulación de datos
 Las distribuciones de frecuencias, especialmente cuando se
utilizan frecuencias relativas, pueden presentarse en forma
de gráfica de diversos tipos.
75.00%
4.17% 20.83%
Porcentaje (%)
De acuerdo
En desacuerdo
No sabe/No
opina
90 95
120
0
20
40
60
80
100
120
140
De acuerdo En
desacuerdo
No sabe/No
opina
Frec. acum. (∑f)

Tabulación de datos
 Las distribuciones de frecuencias también pueden graficarse como
polígonos de frecuencias.
 Los polígonos de frecuencias relacionan las puntuaciones con sus
respectivas frecuencias.
 Es propio de un nivel de medición por intervalos.
Categorías/Intervalos Frecuencias absolutas
20 - 25 15
25 - 30 25
30 - 35 39
35 - 40 35
40 - 45 40
45 - 50 30
50 - 55 10
55 - 60 6
Total 200
0
5
10
15
20
25
30
35
40
45
20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60
Frecuencias absolutas

Medidas de tendencia central
 Son puntos en una distribución y nos ayudan a ubicarla dentro de una
escala de medición.
 Las principales medidas de tendencia central son: Moda, mediana y
media.
Moda:
 Categoría o puntuación que ocurre con mayor frecuencia. Se utiliza con
cualquier nivel de medición.
Mediana:
 Es el valor que divide a la distribución por la mitad. La mitad de los
casos caen por debajo de la mediana y la otra mitad está por encima de
ella.
 Es propia de los niveles de medición ordinal, por intervalos y de razón.
No se usa con variables nominales ya que en ellas no hay jerarquías.
 Se halla mediante la fórmula:
Mediana = N + 1
2
*Donde N es el número de casos.

Media o promedio
 Es la medida de tendencia central más utilizada.
 Puede definirse como el promedio aritmético de una distribución. Se
obtiene mediante la siguiente fórmula:
b d
Media (X) = X1 + X2 + X3 + … + Xn
n
 Si los datos están agrupados en intervalos, primero se debe calcular el
punto medio de cada intervalo y luego se multiplica cada punto medio
por las frecuencias que le corresponden. A estos resultados se les saca
el promedio, la fórmula es:
D d
X = ∑fx / N
*Siendo ∑fx, la sumatoria de los productos de cada punto medio y su
respectiva frecuencia.

Medidas de la variabilidad
 Indican la dispersión de los datos en la escala de medición. Son
intervalos, designan distancias o un número de unidades en la escala de
medición.
 Las medidas de la variabilidad más utilizadas son: Rango, desviación
estándar y varianza.
Rango:
 También se conoce como Recorrido.
 Es la diferencia entre la puntuación mayor y la puntuación menor. Se
halla mediante la fórmula:
Rango = XM – Xm
*Cuanto mas grande sea el rango, mayor será la dispersión de los datos de
una distribución.

Desviación estándar
 Es el promedio de la desviación de las puntuaciones con
respecto a la media. Se halla mediante la siguiente fórmula:
X x.
Desviación estándar (s o σ) = √ (∑ (X - X)2 / N)
 Cuando los datos están agrupados en una distribución de
frecuencias, se hace lo siguiente:
 Obtener el punto medio de cada intervalo y determinar la
media de la distribución (para datos agrupados).
 Elevar la media al cuadrado, se obtiene X2.
 Multiplicar la columna fx por los puntos medios y obtener una
columna nueva (fx2).
 Obtener la sumatoria de la nueva columna.

Desviación estándar
 Aplicar la siguiente fórmula:
x x
s = √ ( (∑ fx2 / N) – X2 )
*La desviación estándar solo se utiliza en variables medidas por intervalos
o de razón.
Varianza:
 Es la desviación estándar elevada al cuadrado y se simboliza por s2.
 Es un concepto estadístico muy importante, ya que muchas de las
pruebas cuantitativas se fundamentan en ella.
*Diversos métodos estadísticos parten de la descomposición de la
varianza. Sin embargo, con fines descriptivos se utiliza
preferentemente la desviación estándar.

Puntuaciones “Z”
 Son transformaciones que se pueden hacer a los valores o
puntuaciones obtenidas, con el propósito de analizar su distancia
respecto a la media.
 Nos indica la dirección y el grado en que un valor individual obtenido
se aleja de la media, en una escala de unidades de desviación estándar.
 Es el método mas común para estandarizar la escala de una variable
medida por un nivel de intervalos. Su fórmula es:
X x
Z = X – X
s
*Donde X es la puntuación o valor a transformar.
 Estandarizar los valores permite comparar puntuaciones de dos
distribuciones diferentes. También nos sirven para comparar
mediciones de distintas pruebas o escalas aplicadas a los mismos
sujetos.

Razones y tasas
Razón:
 Relación entre dos categorías. Su fórmula es:
Razón = Frecuencia 1
Frecuencia 2
Tasa:
 Relación entre el número de casos, frecuencias o eventos de una
categoría y el número total de observaciones, multiplicada por
un múltiplo de 10 (generalmente 100 o 1000). Su fórmula es:
Tasa = # eventos durante un periodo x 100 (o 1000)
# total de eventos posibles

Estadística inferencial
 Se busca generalizar los resultados obtenidos en la
muestra hacia la población o universo.
 Los datos recolectados de una muestra se conocen
como “estadígrafos”, mientras que las estadísticas de la
población se conocen como “parámetros”. Los
parámetros van a ser inferidos de los estadígrafos.
 La estadística inferencial va ser utilizada para probar
hipótesis y estimar parámetros.

Prueba de hipótesis
 Lo que se busca es determinar si la hipótesis planteada es
congruente con los datos obtenidos en la muestra. Si lo es se
acepta, sino se rechaza.
Distribución muestral:
 Conjunto de valores sobre una estadística calculada de todas las
muestras posibles de determinado tamaño.
 Las distribuciones muestrales de medias son las más conocidas.
 Muy rara vez se obtiene la distribución muestral. Es mas bien un
concepto teórico definido por la estadística de los investigadores.
 Lo que comúnmente se hace es extraer una sola muestra.

Nivel de significancia (α):
 Nivel de probabilidad de equivocarse; se fija antes de probar las
hipótesis inferenciales. Se toma como un área bajo la distribución
muestral.
 Se utilizan dos niveles de significancia: Nivel de significancia de 0.05
(95% de seguridad) y nivel de significancia de 0.01 (99% de seguridad).
Procedimiento:
 Establecer una hipótesis acerca del parámetro poblacional.
 Definir el nivel de significancia.
 Recolectar los datos de una muestra representativa.
 Estimar la desviación estándar de la distribución muestral de la media,
utilizando la siguiente fórmula:
X x
SX = s .
√n

 Transformar la media de la muestra en una puntuación “Z”, en el
contexto de la distribución muestral. Vamos a aplicar una
variante de la fórmula para obtener puntuaciones “Z”:
X x
Z = X – X
SX
 Buscar el valor de la puntuación “Z” que corresponda al nivel de
significancia. Para un nivel de 0.05 se considera una puntuación
de 1.96 mientras que para un nivel de 0.01 se considera 2.58 como
puntuación.
 Comparar la media de la muestra transformada a puntuación “Z”
con el valor correspondiente. Si el valor es menor a la puntuación
“Z” se acepta la hipótesis, pero si es mayor se rechaza.

Intervalo de confianza:
 Se trata de una probabilidad definida de que un parámetro
se va ubicar en un determinado intervalo.
 Aquí también se consideran los niveles de confianza de
0.05 y 0.01; además estos niveles de confianza se expresan
en unidades de desviación estándar (acudiendo a los
valores de las puntuaciones “Z”).
 Se aplica la siguiente fórmula:
Intervalo de confianza = Estadígrafo + (Puntuación “Z” del)(Desv. Est. de la)
nivel de confianza Dist. Muestral
.

Análisis paramétricos
 Para realizar un análisis paramétrico se debe considerar que:
 La distribución poblacional de la variable dependiente es normal.
 El nivel de medición de la variable dependiente es por intervalos o
razón.
 Cuando dos o mas poblaciones son estudiadas, tienen una varianza
homogénea.
 Las pruebas estadísticas paramétricas más utilizadas son:
 Coeficiente de correlación de Pearson (r)
 Regresión lineal
 Prueba “t” (distribución “t” de Student)
 Prueba de contraste de la diferencia de proporciones
 Análisis de varianza unidireccional (ANOVA oneway)
 Análisis de varianza factorial (ANOVA)
 Análisis de covarianza (ANCOVA)

Análisis no paramétricos
 Para realizar análisis no paramétricos se debe considerar que:
 La mayoría de estos análisis no requieren de presupuestos acerca de
la forma de la distribución poblacional. Aceptan distribuciones no
normales.
 Las variables no necesariamente deben estar medidas en un nivel
por intervalos o de razón, pueden analizar datos nominales u
ordinales.
 Las pruebas no paramétricas más utilizadas son:
 Ji cuadrado o X2
 Coeficientes de correlación e independencia para tabulaciones
cruzadas.
 Coeficientes de correlación por rangos ordenados de Spearman y
Kendall.

Análisis multivariado
 En estos métodos se analiza la relación entre varias
variables independientes y al menos una dependiente.
 Son métodos más complejos que requieren del uso de
computadoras para efectuar los cálculos necesarios y
normalmente se enseñan a nivel de postgrado.
 Los principales métodos de análisis multivariado son:
 Regresión múltiple
 Análisis lineal de patrones (path analysis)
 Análisis de factores
 Análisis multivariado de varianza (MANOVA)

Análisis estadísticos
 Actualmente los análisis estadísticos se llevan acabo en
programas para computadora, utilizando paquetes estadísticos.
Estos paquetes son sistemas integrados de programas diseñados
para el análisis de datos.
 Cada paquete tiene su propio formato, instrucciones,
procedimientos y características. Para conocer un paquete es
necesario consultar el manual respectivo.
 El procedimiento para analizar los datos es crear o desarrollar un
programa basándonos en el manual. Este programa incluye la
matriz de datos y las pruebas estadísticas seleccionadas; después
se corre el programa y se obtienen los resultados, los cuales se
interpretan.
 Los principales paquetes estadísticos conocidos hoy en día son el
SPSS y el Minitab; ambos disponibles en diferentes versiones.

Análisis de los datos y tabulación

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Análisis de los datos y tabulación

Similar a Análisis de los datos y tabulación (20)

Más de Tomás Calderón

Más de Tomás Calderón (20)

Último

Último (20)

Análisis de los datos y tabulación