Glosario de términos


Amplitud

En matemáticas y estadística, la amplitud se refiere a la medida de la extensión o el tamaño de un intervalo, ya sea en términos de longitud, diferencia o rango. Especifica la distancia entre los extremos o límites de un conjunto de valores. 


Cuartil

Los cuartiles son medidas estadísticas que dividen un conjunto de datos ordenados en cuatro partes iguales. El primer cuartil (Q1) representa el valor que deja el 25% de los datos por debajo y el 75% por encima. El segundo cuartil coincide con la mediana (Q2), dividiendo los datos en dos partes iguales. El tercer cuartil (Q3) deja el 75% de los datos por debajo y el 25% por encima.


Conjunto de datos

Colección o agrupación de valores o registros relacionados entre sí. Puede referirse a una lista, tabla, matriz o cualquier otra estructura que contenga información. Un conjunto de datos puede contener variables y observaciones, donde las variables representan características o atributos medidos y las observaciones son las instancias o muestras específicas. 


Datos

Son información o hechos recopilados, medidos o representados de alguna manera. En el contexto de la estadística, los datos son los valores numéricos o categorías que se utilizan para realizar análisis y obtener conclusiones. Estos pueden ser recopilados de diversas fuentes, como encuestas, experimentos, observaciones o bases de datos.


Desviación estándar

La desviación estándar es una medida de dispersión o variabilidad en un conjunto de datos. Mide cuánto se alejan los valores individuales del promedio (media) del conjunto de datos. Una desviación estándar alta indica una mayor dispersión de los datos, mientras que una desviación estándar baja indica una menor. En resumen, la desviación estándar cuantifica la variabilidad promedio de los valores con respecto a la media.

s = ( 1 N 1 ) i = 1 N ( x i x ¯ ) 2

Distribución

En estadística, una distribución se refiere a cómo están agrupados o dispersos los valores en un conjunto de datos. Esto implica analizar la tendencia central (como la media o la mediana) y la dispersión (como la desviación estándar) de estos. Además, la distribución describe la frecuencia o probabilidad de ocurrencia de diferentes valores o rangos de valores. Las distribuciones pueden ser representadas gráficamente mediante histogramas, gráficos de barras, curvas de densidad, entre otros.


Distribución normal

También conocida como distribución de Gauss o campana de Gauss, es una distribución estadística continua que es ampliamente utilizada en la teoría estadística y en muchos campos de la ciencia. Se caracteriza por su forma de campana simétrica alrededor de su media, lo que significa que la mitad de los valores se encuentran a cada lado de la media. La distribución normal está completamente definida por dos parámetros: la media (μ) y la desviación estándar (σ). 


Escala Likert 

Generalmente usada en cuestionarios, este tipo de escala sirve principalmente para realizar mediciones y conocer el grado de conformidad de una persona hacia determinada oración afirmativa o negativa. Ejemplo de formato: Totalmente en desacuerdo, en desacuerdo, ni de acuerdo ni en desacuerdo, de acuerdo, totalmente de acuerdo. 


Frecuencia absoluta

Medida estadística que indica el número de veces que un determinado valor o categoría aparece en un conjunto de datos. Representa la cuenta o recuento de ocurrencias de un valor específico en un conjunto de datos. 


Frecuencia relativa

Medida estadística que muestra la suma acumulativa de las frecuencias absolutas de los valores en un conjunto de datos. Indica la cantidad acumulada o total de observaciones hasta cierto valor o categoría específica en el conjunto de datos. 


Intervalo

En matemáticas, un intervalo es un conjunto de números que están comprendidos entre dos valores, conocidos como límites. Los límites pueden ser inclusivos o exclusivos, lo que significa que pueden incluir o no los valores límite en el intervalo.

Los intervalos se representan mediante la notación de corchetes y paréntesis. Existen diferentes tipos de intervalos:

  1. Intervalo cerrado: Incluye los valores límite. Se representa utilizando corchetes. Por ejemplo, [a, b] representa un intervalo cerrado que incluye todos los números desde el límite inferior a hasta el límite superior b, incluyendo ambos extremos.
  2. Intervalo abierto: Excluye los valores límite. Se representa utilizando paréntesis. Por ejemplo; (a, b) representa un intervalo abierto que incluye todos los números entre el límite inferior a y el límite superior b, sin incluir los extremos.
  3. Intervalo semicerrado: Incluye uno de los valores límite y excluye el otro. Puede ser un intervalo semicerrado por la izquierda [a, b) o un intervalo semicerrado por la derecha (a, b]. El límite inferior a está incluido en el intervalo y el límite superior b está excluido.

Intervalo de confianza

El intervalo de confianza es un rango de valores que se utiliza para estimar el valor desconocido de un parámetro poblacional, como la media o la proporción, a partir de una muestra de datos. Representa un nivel de incertidumbre y proporciona una estimación más precisa que un único valor puntual. El intervalo de confianza indica que, si se toman múltiples muestras del mismo tamaño y se calculan los intervalos de confianza correspondientes, un cierto porcentaje de esos intervalos contendrán el verdadero valor del parámetro. 


Margen de error

El margen de error es una medida de la precisión o incertidumbre asociada con una estimación basada en una muestra. Indica la amplitud máxima esperada entre el valor estimado y el valor real de un parámetro poblacional. Se expresa generalmente como un porcentaje o un valor absoluto y está inversamente relacionado con el tamaño de la muestra. Un margen de error más pequeño implica una estimación más precisa.  


Media

La media es una medida de tendencia central que se calcula sumando todos los valores en un conjunto de datos y dividiendo el resultado por el número de valores. Es el valor promedio y se utiliza para representar el centro del conjunto de datos. La media es sensible a los valores extremos o atípicos


Mediana

En estadística, la mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados de menor a mayor. Es decir, si tienes una lista de números, la mediana es aquel número que deja la mitad de los datos por debajo y la otra mitad por encima. Es una medida de tendencia central que no se ve afectada por valores extremos o atípicos en el conjunto de datos.

Su fórmula para datos no agrupados, pero la cantidad de datos es número par:

M e d i a n a = Valor en la posición  ( n + 1 2 )

En donde n es la cantidad de datos.
Su fórmula matemática para datos agrupados, pero la cantidad total de datos es número impar:

M e d i a n a = Valor en la posición  ( n 2 ) + Valor en la posición  ( n 2 + 1 ) 2

En donde cada símbolo significa: 

M e = L i 1 + N 2 F i 1 f i   a

Moda

La moda es el valor o los valores que ocurren con mayor frecuencia en un conjunto de datos. Puede haber una moda única (unimodal) si un valor se repite con mayor frecuencia, o múltiples modas (multimodal) si hay varios valores con la misma frecuencia máxima. A diferencia de la media y la mediana, la moda no se ve afectada por los valores atípicos y se puede calcular en conjuntos de datos numéricos o categóricos. 


Outliers


Percentil 

Los percentiles son medidas estadísticas que dividen un conjunto de datos ordenados en 100 partes iguales. Representan los puntos de corte que dejan un cierto porcentaje de datos por debajo y el resto por encima. Por ejemplo, el percentil 75 es el valor que deja el 75% de los datos por debajo y el 25% por encima. Los percentiles son útiles para comprender la distribución y la posición relativa de un valor dentro de un conjunto de datos. 


Prueba de chi-cuadrado

La prueba de chi-cuadrado es una prueba estadística que se utiliza para determinar si hay una asociación o dependencia significativa entre dos variables categóricas. Se basa en comparar las frecuencias observadas en una muestra con las frecuencias esperadas bajo una hipótesis nula de independencia. La prueba de chi-cuadrado proporciona un valor de chi-cuadrado y un p-valor, que indica la probabilidad de obtener los resultados observados si las variables fueran independientes. 


Q1

Es una medida estadística que indica el valor que divide un conjunto de datos ordenados en cuatro partes iguales. Específicamente, el primer cuartil representa el valor por debajo del cual se encuentra el 25% de los datos más pequeños. 


Q2

Ver mediana


Q3

Es una medida estadística que indica el valor que divide un conjunto de datos ordenados en cuatro partes iguales. Específicamente, el cuartil representa el valor por debajo del cual se encuentra el 75% de los datos más pequeños. 


Rango intercuartílico

También conocido como IQR, es una medida de variabilidad que es definida a partir de la distancia (rango) entre el cuartil 1 (Q1) y el cuartil 3 (Q3). Conforme aumente el IQR, indicará que la dispersión será mayor. Usualmente observamos el rango intercuartil a través de un diagrama de caja (o boxplot) a fin de evaluar la dispersión de una distribución de X cantidad de datos. 


Valores atípicos

Es un valor que difiere significativamente del resto de los datos en un conjunto de datos. Se trata de un valor que se encuentra muy alejado de los demás y puede afectar la interpretación y el análisis de los datos.

Los outliers o valores atípicos pueden tener un efecto desproporcionado en la interpretación de resultados estadísticos. Para detectar outliers, podemos utilizar (dentro de los mecanismos existentes) el criterio de los intervalos de Tukey. Bajo dicho criterio, los datos que son más o menos de 1.5 veces el valor del IQR, que se encuentran a esa distancia del primer y tercer cuartil, se denominan outliers. Lo anterior puede ir acompañado de una visualización en un gráfico de cajas (también conocido como boxplot).

L I = Q 1 1.5 * ( Q 3 Q 1 ) L S = Q 1 + 1.5 * ( Q 3 Q 1 ) Donde: Q1 = P 25 ( X ) Q 3 = P 75 ( X ) IQR = Q 3 Q 1 Si X L I outlier Si X L S outlier

Fórmula para detectar valores atípicos: 

  • Código en R: 

                        tukey <- function(x, k = 1.5, na.rm = TRUE)
    {  quar <- quantile(x, probs = c(0.25, 0.75), na.rm = na.rm) 
    iqr <- diff(quar)  (quar[1] - k * iqr <= x) | (x <= quar[2] + k * iqr)
    } 
    
                        
  • Código en LaTex: 

                        LI = Q1 - 1.5 space* (Q3 - Q1) 
    ewline LS = Q1 + 1.5 space* (Q3 - Q1)  
    ewline 
    ewline 	ext{Donde:}  
    ewline Q1 = 	ext{P}_{{25}}(	ext{X}) 
    ewline Q3 = 	ext{P}_{{75}}(	ext{X}) 
    ewline 	ext{IQR} = Q3 - Q1  
    ewline 
    ewline Si space X le LI space Rightarrow 	ext{outlier} 
    ewline Si space X ge LS space Rightarrow 	ext{outlier} 
                        

Variable

En estadística, una variable es una característica o propiedad que se mide, observa o manipula en una investigación o estudio. Puede ser cuantitativa (numérica) o cualitativa (categórica). Las variables pueden representar diferentes conceptos, como edad, altura, género, ingresos, etc. 


Variable categórica

Una variable categórica, también conocida como variable cualitativa, es una variable que describe una característica o atributo con categorías o niveles. Las categorías son mutuamente excluyentes y no tienen un orden inherente. Ejemplos de variables categóricas son el color de los ojos, la marca de automóviles o el estado civil. 


Variable continua

Una variable continua es una variable que puede tomar cualquier valor dentro de un rango o intervalo. Los valores de una variable continua pueden ser infinitos y fraccionarios. Ejemplos de variables continuas son la altura, el peso, el tiempo, la temperatura, etc. 


Variable discreta

Una variable discreta es una variable que solo puede tomar valores enteros o valores separados por unidades discretas. Los valores de una variable discreta no pueden ser infinitos ni fraccionarios. Ejemplos comunes de variables discretas son el número de hijos, el número de personas en una familia o la cantidad de productos vendidos. 


Variable ordinal

Una variable ordinal es una variable categórica en la que las categorías tienen un orden o jerarquía natural. A diferencia de las variables categóricas simples, las variables ordinales tienen un significado relativo en términos de mayor o menor, superior o inferior. Por ejemplo, una escala de calificación de satisfacción que va desde “muy insatisfecho” a “muy satisfecho” es una variable ordinal. 


Variable cualitativa

Las variables cualitativas, también conocidas como variables de atributo, representan características no numéricas que describen o categorizan a los individuos o elementos en un conjunto de datos. Estas variables pueden ser categóricas u ordinales. Las variables cualitativas categóricas no tienen un orden específico, mientras que las variables cualitativas ordinales tienen un orden racional (por ejemplo, niveles de satisfacción: bajo/medio/alto)


Variables cuantitativas

Representan cantidades numéricas que pueden ser medidas o contadas. Pueden ser continuas o discretas. Las variables cuantitativas continuas son aquellas que pueden tomar cualquier valor dentro de un rango determinado (por ejemplo, la temperatura o el peso). Las variables cuantitativas discretas son aquellas que solo pueden tomar valores específicos (por ejemplo, el número de productos vendidos).