Histograma


Acerca del autor...

Soly Santiago Pérez

Soly Santiago Pérez

Licenciada en Ciencias Matemáticas, con la especialidad de Estadística e Investigación Operativa, por la Universidad de Santiago de Compostela (1994). Actualmente trabaja como técnico superior en el servicio de Epidemiología de la Dirección Xeral de Innovación e Xestión da Saúde Pública (Consellería de Sanidade), con funciones de asesoría y análisis estadístico.

Conocimientos: 

Áreas de experiencia:

- Coordinación y apoyo estadístico en el desarrollo de software para análisis estadístico de datos epidemiológicos (Epidat).

- Diseño muestral para encuestas de salud y análisis de resultados con métodos de muestreo en poblaciones finitas.

- Análisis de datos de mortalidad.

- Análisis estadístico de proyectos de investigación de epidemiología clínica y poblacional.

- Docencia de estadística y uso de paquetes estadísticos a profesionales sanitarios.

 

COMPÁRTELO:

El histograma es uno de los gráficos más utilizados para describir cómo se distribuyen los valores de una variable numérica continua, como el índice de masa corporal o el nivel de colesterol.

El primer paso para construir un histograma es dividir el rango de valores de la variable en intervalos, generalmente de la misma amplitud, de modo que cada observación se clasifique sin ambigüedad en un único intervalo. A continuación, hay que contar cuantas observaciones de la muestra pertenecen a cada intervalo, es decir, calcular la frecuencia de los intervalos.

En el eje horizontal, el histograma representa los intervalos en los que se dividen los valores de la variable, y en el eje vertical las frecuencias, absolutas o relativas, o las densidades de cada uno de los intervalos (frecuencia dividida entre la amplitud), en forma de rectángulos adyacentes. Debe cumplirse la condición de que el área de cada rectángulo sea proporcional a la frecuencia de su intervalo.

La observación del histograma permite identificar:

- El rango de valores que toma la variable.

- Los valores en torno a los que se agrupan los datos (tendencia central), y de qué forma lo hacen (simetría).

- La variabilidad de las observaciones respecto a la tendencia central (dispersión).

- Valores extremos o atípicos.

Usos o ejemplos

Supongamos, por ejemplo, que se ha medido la talla de 200 niños de 6 años, y que se han obtenido valores entre 100 y 130 cm, con la siguiente distribución de frecuencias en intervalos de amplitud 2 cm:

El histograma construido con las tallas de los 200 niños nos indica que esta variable toma valores entre 100 cm y 130 cm en la muestra estudiada, con una distribución aproximadamente simétrica en torno a 116-118 cm, y con mayor frecuencia de valores en el extremo superior que en el inferior del rango. Además, un alto porcentaje de valores se concentra en un intervalo de ± 5 cm alrededor de 117 cm:

A la hora de interpretar un histograma, se recomienda identificar primero el patrón general que lo caracteriza y, a continuación, las desviaciones que puede haber respecto a ese patrón. En una nota metodológica publicada por KG Oliveras sobre el histograma (revista JANO, año 1997, Vol. 1205), el autor identifica las siguientes situaciones:

- Presencia de datos anómalos: el histograma permite identificar fácilmente los valores anormalmente altos o bajos en relación al resto de las observaciones. En el siguiente histograma, por ejemplo, se representa la distribución de valores del índice de masa corporal en pacientes diabéticos de 40 años y más; puede observarse que hay algunos valores superiores a 50 Kg/m2, que es el punto de corte indicativo de obesidad extrema, e incluso hay algún valor próximo a 80 Kg/m2:

- Simetría: la forma del histograma indica visualmente cómo se distribuyen los valores de la variable a ambos lados de la media, de forma que permite identificar si la distribución es más o menos simétrica o tiene cierto grado de asimetría a la derecha o la izquierda. En la siguiente figura pueden verse dos ejemplos de histograma con distinta forma; el de la derecha representa el nivel de colesterol en pacientes diabéticos de 40 años y más (simétrico), y el de la izquierda representa el nivel de triglicéridos en los mismos pacientes (asimétrico):

- Histograma con varios picos: cuando la distribución tiene más de una moda, el histograma presenta varios picos. Normalmente esto se debe a la superposición de varias poblaciones que tienen medias distintas y deberían analizarse por separado. Por ejemplo, la talla media de una muestra de hombres y mujeres gallegos de 18 años y más es de 170 y 160 cm, respectivamente, y el histograma construido con estos datos presenta dos picos en torno a estos valores:

- Histograma dentado: está asociado normalmente al sistema de medición de datos, por ejemplo, la tendencia al redondeo con datos autodeclarados. En el siguiente histograma, que representa la distribución de la talla autodeclarada en la muestra de hombres del ejemplo anterior, pueden observarse picos en los intervalos correspondientes a los múltiplos de 10: 150, 160, 180, 190, y en el intervalo que contiene al valor 175: