Créer des vecteurs
a <- 3+3 # créer un vecteur "a" qui est égale à 3+3
print(a) # afficher le vecteur
## [1] 6
b <- c(1, 5, 10)
c <- c(1:10)
d <- c("rouge", "bleu", "vert")
print(b)
## [1] 1 5 10
print(c)
## [1] 1 2 3 4 5 6 7 8 9 10
print(d)
## [1] "rouge" "bleu" "vert"
c <- as.data.frame(c) # convertir le vecteur en tableau
print(c)
## c
## 1 1
## 2 2
## 3 3
## 4 4
## 5 5
## 6 6
## 7 7
## 8 8
## 9 9
## 10 10
Installer un package et charger sa bibliothèque de packages
installed.packages("dplyr") # télécharger un package
## Package LibPath Version Priority Depends Imports LinkingTo Suggests
## Enhances License License_is_FOSS License_restricts_use OS_type Archs
## MD5sum NeedsCompilation Built
installed.packages("readxl") # télécharger un package
## Package LibPath Version Priority Depends Imports LinkingTo Suggests
## Enhances License License_is_FOSS License_restricts_use OS_type Archs
## MD5sum NeedsCompilation Built
installed.packages("psych") # télécharger un package
## Package LibPath Version Priority Depends Imports LinkingTo Suggests
## Enhances License License_is_FOSS License_restricts_use OS_type Archs
## MD5sum NeedsCompilation Built
library(dplyr) # "appeler" le package
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(psych) # "appeler" le package
library(readxl) # "appeler" le package
Les athlètes français pour les JO 2024 ont noté leurs patisseries
préférées de 0 à 10. Ces notes seront utilisées par les nutritionnistes
de l’équipe de France pour sélectionner les pâtisseries à réaliser pour
la fin des JO, en fonction de la spécialité sportive et du sexe. |
Localiser et définir son working directory
# working directory
setwd("/Users/layanfessler/Library/CloudStorage/OneDrive-UniversitéGrenobleAlpes/ENCADREMENT/STAGE D'EXCELLENCE/2024/Atelier R") # repporter l'emplacement lié au fichier que l'on veut importer
data <- read_excel("patisseries_JO_2024.xlsx") # Charger son jeu de données
Inspecter son jeu de données
# nom des variables
names(data)
## [1] "Code_participant" "Specialite_sportive" "Sexe"
## [4] "Age" "Tiramisu" "Flan"
## [7] "Moelleux"
# nombre de lignes et de colonnes
nrow(data); ncol(data); dim(data)
## [1] 29
## [1] 7
## [1] 29 7
# Visualiser les données
View(data)
# Visualiser les premières colonnes
head(data)
## # A tibble: 6 × 7
## Code_participant Specialite_sportive Sexe Age Tiramisu Flan Moelleux
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 1 Volleyball Homme 19 6 6 6
## 2 2 Volleyball Homme 19 7 4 6
## 3 3 Volleyball Femme 18 5 3 7
## 4 4 Volleyball Femme 18 5 2 7
## 5 5 Volleyball Homme 20 5 3 5
## 6 6 Volleyball Femme 24 6 3 6
# Type de variables
glimpse(data)
## Rows: 29
## Columns: 7
## $ Code_participant <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,…
## $ Specialite_sportive <chr> "Volleyball", "Volleyball", "Volleyball", "Volleyb…
## $ Sexe <chr> "Homme", "Homme", "Femme", "Femme", "Homme", "Femm…
## $ Age <dbl> 19, 19, 18, 18, 20, 24, 28, 23, 24, 24, 24, 23, 30…
## $ Tiramisu <dbl> 6, 7, 5, 5, 5, 6, 2, 2, 4, 4, 4, 7, 5, 5, 5, 1, 1,…
## $ Flan <dbl> 6, 4, 3, 2, 3, 3, 4, 2, 6, 5, 6, 7, 6, 7, 4, 2, 1,…
## $ Moelleux <dbl> 6, 6, 7, 7, 5, 6, 6, 6, 6, 3, 5, 5, 6, 6, 7, 6, 2,…
Obtenir nos premiers indicateurs sur les variables
# Vérifier s'il y a des données manquantes
missing_rows <- apply(is.na(data), 1, any)
# Nombre de données manquantes
sum(missing_rows)
## [1] 1
# Localisation des données manquantes
print(data[missing_rows, ])
## # A tibble: 1 × 7
## Code_participant Specialite_sportive Sexe Age Tiramisu Flan Moelleux
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 25 Natation Femme 21 1 NA 5
# résumé global
summary(data)
## Code_participant Specialite_sportive Sexe Age
## Min. : 1 Length:29 Length:29 Min. :18.00
## 1st Qu.: 8 Class :character Class :character 1st Qu.:21.00
## Median :15 Mode :character Mode :character Median :24.00
## Mean :15 Mean :23.03
## 3rd Qu.:22 3rd Qu.:24.00
## Max. :29 Max. :30.00
##
## Tiramisu Flan Moelleux
## Min. :1.000 Min. :1.000 Min. :2.000
## 1st Qu.:4.000 1st Qu.:3.000 1st Qu.:5.000
## Median :5.000 Median :4.000 Median :6.000
## Mean :4.724 Mean :4.357 Mean :5.345
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.:6.000
## Max. :7.000 Max. :7.000 Max. :7.000
## NA's :1
summary(data)
## Code_participant Specialite_sportive Sexe Age
## Min. : 1 Length:29 Length:29 Min. :18.00
## 1st Qu.: 8 Class :character Class :character 1st Qu.:21.00
## Median :15 Mode :character Mode :character Median :24.00
## Mean :15 Mean :23.03
## 3rd Qu.:22 3rd Qu.:24.00
## Max. :29 Max. :30.00
##
## Tiramisu Flan Moelleux
## Min. :1.000 Min. :1.000 Min. :2.000
## 1st Qu.:4.000 1st Qu.:3.000 1st Qu.:5.000
## Median :5.000 Median :4.000 Median :6.000
## Mean :4.724 Mean :4.357 Mean :5.345
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.:6.000
## Max. :7.000 Max. :7.000 Max. :7.000
## NA's :1
describe(data) # tout le jeu de données
## vars n mean sd median trimmed mad min max range
## Code_participant 1 29 15.00 8.51 15 15.00 10.38 1 29 28
## Specialite_sportive* 2 29 2.00 0.89 2 2.00 1.48 1 3 2
## Sexe* 3 29 1.55 0.51 2 1.56 0.00 1 2 1
## Age 4 29 23.03 3.06 24 22.96 2.97 18 30 12
## Tiramisu 5 29 4.72 1.85 5 4.84 1.48 1 7 6
## Flan 6 28 4.36 1.81 4 4.38 2.97 1 7 6
## Moelleux 7 29 5.34 1.29 6 5.44 1.48 2 7 5
## skew kurtosis se
## Code_participant 0.00 -1.32 1.58
## Specialite_sportive* 0.00 -1.77 0.16
## Sexe* -0.20 -2.03 0.09
## Age 0.15 -0.69 0.57
## Tiramisu -0.75 -0.57 0.34
## Flan -0.12 -1.35 0.34
## Moelleux -0.83 -0.12 0.24
describe(data$Flan) # Une seule variable
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 28 4.36 1.81 4 4.38 2.97 1 7 6 -0.12 -1.35 0.34
table(data$Specialite_sportive) # variable non numérique
##
## Athletisme Natation Volleyball
## 11 7 11
Obtenir des indicateurs par groupe
describeBy(data$Flan, data$Specialite_sportive)
##
## Descriptive statistics by group
## group: Athletisme
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 11 4.82 1.99 6 5 1.48 1 7 6 -0.6 -1.09 0.6
## ------------------------------------------------------------
## group: Natation
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 6 4.17 2.04 4 4.17 2.97 2 7 5 0.17 -1.85 0.83
## ------------------------------------------------------------
## group: Volleyball
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 11 4 1.55 4 4 1.48 2 6 4 0.15 -1.67 0.47
data %>%
group_by(Specialite_sportive, Sexe) %>%
summarise(mean = mean(Flan, na.rm = TRUE), sd = sd(Flan, na.rm = TRUE))
## `summarise()` has grouped output by 'Specialite_sportive'. You can override
## using the `.groups` argument.
## # A tibble: 6 × 4
## # Groups: Specialite_sportive [3]
## Specialite_sportive Sexe mean sd
## <chr> <chr> <dbl> <dbl>
## 1 Athletisme Femme 4.67 3.21
## 2 Athletisme Homme 4.88 1.64
## 3 Natation Femme 3.67 2.89
## 4 Natation Homme 4.67 1.15
## 5 Volleyball Femme 3.83 1.47
## 6 Volleyball Homme 4.2 1.79
Les athlètes français pour les JO 2024 ont noté leurs patisseries
préférées de 0 à 10. Ces notes seront utilisées par les nutritionnistes
de l’équipe de France pour sélectionner les pâtisseries à réaliser pour
la fin des JO, en fonction de la spécialité sportive et du sexe. |
# Intégrer toutes les pâtisseries
data %>%
group_by(Specialite_sportive, Sexe) %>%
summarise(
mean_Flan = mean(Flan, na.rm = TRUE),
sd_Flan = sd(Flan, na.rm = TRUE),
mean_Tiramisu = mean(Tiramisu, na.rm = TRUE),
sd_Tiramisu = sd(Tiramisu, na.rm = TRUE),
mean_Moelleux = mean(Moelleux, na.rm = TRUE),
sd_Moelleux = sd(Moelleux, na.rm = TRUE)
)
## `summarise()` has grouped output by 'Specialite_sportive'. You can override
## using the `.groups` argument.
## # A tibble: 6 × 8
## # Groups: Specialite_sportive [3]
## Specialite_sportive Sexe mean_Flan sd_Flan mean_Tiramisu sd_Tiramisu
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Athletisme Femme 4.67 3.21 3.67 2.31
## 2 Athletisme Homme 4.88 1.64 5.12 1.96
## 3 Natation Femme 3.67 2.89 4.25 2.75
## 4 Natation Homme 4.67 1.15 6 0
## 5 Volleyball Femme 3.83 1.47 4.33 1.37
## 6 Volleyball Homme 4.2 1.79 4.8 1.92
## # ℹ 2 more variables: mean_Moelleux <dbl>, sd_Moelleux <dbl>
Trier des données à partir d’une variable “catégorielle”
Athletisme <- subset(data, Specialite_sportive == "Athletisme")
print(Athletisme)
## # A tibble: 11 × 7
## Code_participant Specialite_sportive Sexe Age Tiramisu Flan Moelleux
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 12 Athletisme Homme 23 7 7 5
## 2 13 Athletisme Femme 30 5 6 6
## 3 14 Athletisme Femme 19 5 7 6
## 4 15 Athletisme Homme 20 5 4 7
## 5 16 Athletisme Homme 26 1 2 6
## 6 17 Athletisme Femme 25 1 1 2
## 7 18 Athletisme Homme 27 7 6 6
## 8 19 Athletisme Homme 21 6 6 4
## 9 20 Athletisme Homme 24 5 4 3
## 10 21 Athletisme Homme 22 4 4 4
## 11 22 Athletisme Homme 22 6 6 4
Trier des données à partir d’une variable “numérique”
scores_hauts_tiramisu <- subset(data, Tiramisu > 5)
print(scores_hauts_tiramisu)
## # A tibble: 12 × 7
## Code_participant Specialite_sportive Sexe Age Tiramisu Flan Moelleux
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 1 Volleyball Homme 19 6 6 6
## 2 2 Volleyball Homme 19 7 4 6
## 3 6 Volleyball Femme 24 6 3 6
## 4 12 Athletisme Homme 23 7 7 5
## 5 18 Athletisme Homme 27 7 6 6
## 6 19 Athletisme Homme 21 6 6 4
## 7 22 Athletisme Homme 22 6 6 4
## 8 24 Natation Femme 24 7 7 6
## 9 26 Natation Femme 27 6 2 4
## 10 27 Natation Homme 22 6 4 7
## 11 28 Natation Homme 24 6 6 5
## 12 29 Natation Homme 26 6 4 6
Pour les athlètes de ≤ 24 ans
age_inf24 <- subset(data, Age <= 24, )
print(age_inf24)
## # A tibble: 22 × 7
## Code_participant Specialite_sportive Sexe Age Tiramisu Flan Moelleux
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 1 Volleyball Homme 19 6 6 6
## 2 2 Volleyball Homme 19 7 4 6
## 3 3 Volleyball Femme 18 5 3 7
## 4 4 Volleyball Femme 18 5 2 7
## 5 5 Volleyball Homme 20 5 3 5
## 6 6 Volleyball Femme 24 6 3 6
## 7 8 Volleyball Homme 23 2 2 6
## 8 9 Volleyball Femme 24 4 6 6
## 9 10 Volleyball Femme 24 4 5 3
## 10 11 Volleyball Homme 24 4 6 5
## # ℹ 12 more rows
Ne garder uniquement les données non manquantes
age_inf24 <- na.omit(age_inf24)
age_inf24 %>%
group_by(Specialite_sportive, Sexe) %>%
summarise(
mean_Flan = mean(Flan, na.rm = TRUE),
sd_Flan = sd(Flan, na.rm = TRUE),
mean_Tiramisu = mean(Tiramisu, na.rm = TRUE),
sd_Tiramisu = sd(Tiramisu, na.rm = TRUE),
mean_Moelleux = mean(Moelleux, na.rm = TRUE),
sd_Moelleux = sd(Moelleux, na.rm = TRUE)
)
## `summarise()` has grouped output by 'Specialite_sportive'. You can override
## using the `.groups` argument.
## # A tibble: 6 × 8
## # Groups: Specialite_sportive [3]
## Specialite_sportive Sexe mean_Flan sd_Flan mean_Tiramisu sd_Tiramisu
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Athletisme Femme 7 NA 5 NA
## 2 Athletisme Homme 5.17 1.33 5.5 1.05
## 3 Natation Femme 4.5 3.54 5 2.83
## 4 Natation Homme 5 1.41 6 0
## 5 Volleyball Femme 3.8 1.64 4.8 0.837
## 6 Volleyball Homme 4.2 1.79 4.8 1.92
## # ℹ 2 more variables: mean_Moelleux <dbl>, sd_Moelleux <dbl>
Pour les athlètes de > 24 ans
age_sup24 <- subset(data, Age > 24, )
print(age_sup24)
## # A tibble: 7 × 7
## Code_participant Specialite_sportive Sexe Age Tiramisu Flan Moelleux
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 7 Volleyball Femme 28 2 4 6
## 2 13 Athletisme Femme 30 5 6 6
## 3 16 Athletisme Homme 26 1 2 6
## 4 17 Athletisme Femme 25 1 1 2
## 5 18 Athletisme Homme 27 7 6 6
## 6 26 Natation Femme 27 6 2 4
## 7 29 Natation Homme 26 6 4 6
Ne garder uniquement les données non manquantes
age_sup24 <- na.omit(age_sup24)
age_sup24 %>%
group_by(Specialite_sportive, Sexe) %>%
summarise(
mean_Flan = mean(Flan, na.rm = TRUE),
sd_Flan = sd(Flan, na.rm = TRUE),
mean_Tiramisu = mean(Tiramisu, na.rm = TRUE),
sd_Tiramisu = sd(Tiramisu, na.rm = TRUE),
mean_Moelleux = mean(Moelleux, na.rm = TRUE),
sd_Moelleux = sd(Moelleux, na.rm = TRUE)
)
## `summarise()` has grouped output by 'Specialite_sportive'. You can override
## using the `.groups` argument.
## # A tibble: 5 × 8
## # Groups: Specialite_sportive [3]
## Specialite_sportive Sexe mean_Flan sd_Flan mean_Tiramisu sd_Tiramisu
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Athletisme Femme 3.5 3.54 3 2.83
## 2 Athletisme Homme 4 2.83 4 4.24
## 3 Natation Femme 2 NA 6 NA
## 4 Natation Homme 4 NA 6 NA
## 5 Volleyball Femme 4 NA 2 NA
## # ℹ 2 more variables: mean_Moelleux <dbl>, sd_Moelleux <dbl>
Visualisation graphique
# Charger les packages nécessaires (installer si besoin)
#installed.packages("")
library(ggdist)
library(ggplot2)
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
library(PupillometryR)
## Loading required package: rlang
##
## Attaching package: 'rlang'
## The following object is masked from 'package:ggdist':
##
## ll
library(reshape2)
# Calculer les statistiques descriptives
summary_stats <- data %>%
group_by(Specialite_sportive, Sexe) %>%
summarise(
mean_Flan = mean(Flan, na.rm = TRUE),
sd_Flan = sd(Flan, na.rm = TRUE),
mean_Tiramisu = mean(Tiramisu, na.rm = TRUE),
sd_Tiramisu = sd(Tiramisu, na.rm = TRUE),
mean_Moelleux = mean(Moelleux, na.rm = TRUE),
sd_Moelleux = sd(Moelleux, na.rm = TRUE),
.groups = "drop" # Permet de supprimer l'avertissement en spécifiant .groups
) %>%
na.omit() # Exclure les lignes avec des NA
# Reformater les données pour le graphique (melt pour ggplot2)
summary_stats_melted <- melt(summary_stats, id.vars = c("Specialite_sportive", "Sexe"),
measure.vars = c("mean_Flan", "mean_Tiramisu", "mean_Moelleux"),
variable.name = "Patisserie", value.name = "Moyenne")
# Ajouter les écarts-types à summary_stats_melted
summary_stats_melted <- summary_stats_melted %>%
mutate(
sd = ifelse(Patisserie == "mean_Flan", summary_stats$sd_Flan,
ifelse(Patisserie == "mean_Tiramisu", summary_stats$sd_Tiramisu,
summary_stats$sd_Moelleux))
)
# Créer le graphique : Barres d'erreur des moyennes avec ggplot2
ggplot(summary_stats_melted, aes(x = Specialite_sportive, y = Moyenne, fill = Sexe)) +
geom_bar(stat = "identity", position = "dodge") +
facet_wrap(~ Patisserie, scales = "free_y", nrow = 1) +
geom_errorbar(aes(ymin = Moyenne - sd, ymax = Moyenne + sd), width = 0.2, position = position_dodge(width = 0.9)) +
labs(title = "Moyenne et écart-type des notes des pâtisseries par spécialité sportive et sexe",
x = "Spécialité sportive", y = "Moyenne") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
scale_fill_manual(values = c("Femme" = "#00AFBB", "Homme" = "#E7B800")) # Couleurs par sexe (F et H)

Graphique de densité
library(ggpubr)
ggscatterhist(
data, x = "Moelleux", y = "Tiramisu",
color = "Specialite_sportive", size = 3, alpha = 0.6,
palette = c("#00AFBB", "#E7B800", "#FC4E07"),
margin.params = list(fill = "Specialite_sportive", color = "black", size = 0.2)
)

