Población: Conjunto finito o infinito de elementos, sobre los que vamos a realizar observaciones.
Muestra: Subconjunto finito de una población. El número de elementos que forman la muestra se denomina tamaño muestral.
Variable: es cada una de las características que pueden observarse de un elemento de la muestra.
Las variables pueden ser clasificadas en dos grupos:
a) Cualitativas: toman valores no numéricos. Dentro de este grupo diferenciamos:
Nominativas: no existe ningún orden entre las categorías de variables. Por ejemplo: el grupo sanguíneo (A, B, AB, 0) o el color del pelo (moreno, rubio, pelirrojo).
Binarias: cuando toman dos valores posibles -si/no, presencia/ausencia- (por ejemplo: casado sí o no, tener el carnet de conducir sí o no).
Ordinales: existe un cierto orden entre las categorías de las variables, por ejemplo el nivel de estudios (sin estudios, básico, secundarios, etc) o categoría dentro de una empresa (peón, encargado, etc.)
b) Cuantitativas: toman valores numéricos. Dentro de éstas se agrupan en:
Discretas: tomas valores aislados, normalmente números enteros, por ejemplo número de hermanos o de hijos.
Continuas: teóricamente puede tomar cualquier valor numérico por ejemplo: el peso de un individuo. Aunque en la práctica todas tomarían valores discretos por la imposibilidad de tener aparatos lo suficientemente sensibles para realizar mediciones intermedias.
La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N (es decir es el tamaño de la muestra):
f1+ f2 + f3 + ... + fn = N
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria:
La frecuencia relativa es el cociente entre la frecuencia absoluta y el tamaño de la muestra.
La denotaremos por fri.
Donde N = Tamaño de la muestra.
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Se representa por Fi.
Los intervalos de clase se emplean si las variables toman un número grande de valores o si la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase (xn)
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.