9  Statistiques

9.1 Statistiques univariées

9.1.1 Variable quantitative

Le tableau ci-dessous récapitule les indicateurs statistiques les plus courrament employés en analyse de données.

Statistique Formule mathématique Fonction R
Moyenne \(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\) mean(x)
Médiane Valeur centrale de l’échantillon trié median(x)
Variance \(\sigma^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\) var(x)
Écart-type \(\sigma = \sqrt{\sigma^2}\) sd(x)
Minimum \(\min(x_1, \dots, x_n)\) min(x)
Maximum \(\max(x_1, \dots, x_n)\) max(x)
Amplitude (étendue) \(\max(x) - \min(x)\) range(x) ou diff(range(x))
Somme \(\sum_{i=1}^{n} x_i\) sum(x)
Nombre d’observations \(n\) length(x)
Quantiles \(Q_p\) tel que \(P(X \le Q_p) = p\) quantile(x, probs = p)
Coefficient de variation \(CV = \frac{\sigma}{\bar{x}}\) sd(x) / mean(x)

On peut récupérer un résumé statistiques basique d’un vecteur numérique avec la fonction summary().

x <- rnorm(n = 1e3, mean = 10, sd = 2)
summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  3.720   8.573   9.934   9.913  11.260  16.073 

9.1.2 Variable qualitative

Dans le cas des variables qualitatives, on ne peut pas réaliser de statistiques. On décrira la variable par les opération listées dans le tableau ci-dessous :

Opération Fonction R
Lister les modalités unique(x)
Nombre de modalités length(unique(x))
Nombre de valeurs par modalité table(x) ((table(x) / length(x)) * 100)
Nombre d’observations length(x)