[1] 100
R : les fondamentauxFormation en R
Nous allons apprendre à utiliser le langage de programmation R !
En utilisant des données administratives familières aux administrations fiscales.
Quelques prérequis
❌ La formation ne nécessite aucune connaissance préalable en programmation statistique.
✅ Un ordinateur avec R et RStudio installés est requis pour compléter les exercices.
✅ Une connexion Internet est requise pour télécharger le matériel de formation.
R ?R est un langage de programmation avec de puissantes capacités statistiques et graphiques.


R ?R est très flexible et puissant—adaptable à presque n’importe quelle tâche (nettoyage de données, visualisation de données, économétrie, analyse de données spatiales, apprentissage automatique, web scraping, etc.)R est open source et gratuit - permettant à vous et à votre institution d’économiser de l’argent !R connaît une croissance rapide en popularité.
R offre une excellente interface - RStudio.
Excel ?✅ Facile à utiliser.
❌ Seulement bon pour les petits jeux de données.
❌ Nous ne gardons pas trace de ce que nous faisons.
❌ Pas simple de combiner des données.
❌ Et la liste continue…

STATA ?✅ Stata est largement utilisé en économie.
✅ Facile à apprendre.
❌ Seulement bon pour les petits jeux de données.
❌ Coûteux !
❌ Manque de flexibilité… vous détestez aussi keep, preserve, et restore ?

Si ce n’est pas le cas, assurez-vous d’avoir ouvert RStudio et non R !
Commençons par écrire vos scripts R (code source) dans le panneau Source.
Vous pouvez utiliser la barre de menu ou Ctrl + Shift + N pour créer de nouveaux scripts R.
Les scripts nous aident à documenter et organiser les étapes que nous voulons réaliser.
Pour exécuter une commande, écrivez-la dans le panneau Source et appuyez sur Ctrl+Enter (Windows) pour l’exécuter dans la Console.
Le résultat apparaîtra dans le panneau Console (panneau inférieur gauche).
Le panneau Environment affiche tous les objets que vous avez créés pendant votre session.
Une simple addition :
Soustraction, multiplication, division :
Au lieu de simplement calculer, nous pouvons sauvegarder les résultats pour les utiliser plus tard.
Maintenant nous pouvons utiliser montant_tva dans d’autres calculs :
_) - cela s’appelle snake_caseUtilisez # pour ajouter des commentaires - R ignorera tout après #
[1] 52500
Astuce
Bonne pratique : Commentez votre code pour expliquer POURQUOI vous faites quelque chose, pas seulement CE QUE vous faites.
Une fonction est un morceau de code réutilisable qui effectue une tâche spécifique.
Pensez aux fonctions comme des outils dans une boîte à outils :
mean() - calcule la moyennesum() - additionne toutes les valeurssqrt() - calcule la racine carréeround() - arrondit les nombres[1] 12
[1] 3.14
[1] 15
Les fonctions peuvent avoir des arguments (entrées) qui contrôlent leur comportement.
Fonctions statistiques :
Vous pouvez créer vos propres fonctions !
[1] 52500
[1] 82500
R travaille avec différents types de données :
2. Caractère - texte (toujours entre guillemets)
Utilisez class() pour vérifier le type d’un objet :
Parfois vous devez convertir entre types :
[1] "character"
[1] "numeric"
[1] 51000
Un vecteur est une séquence de valeurs du même type.
Créer des vecteurs avec c() (combiner) :
[1] 50000 75000 90000 45000 82000
[1] "FIRM_001" "FIRM_002" "FIRM_003"
[1] TRUE TRUE FALSE TRUE FALSE
Arithmétique vectorielle - les opérations s’appliquent à chaque élément :
Appliquer des fonctions à des vecteurs complets :
Séquences :
[1] 1 2 3 4 5 6 7 8 9 10
[1] 2020 2021 2022 2023 2024
[1] 0 10 20 30 40 50 60 70 80 90 100
[1] 0.00 0.25 0.50 0.75 1.00
Utilisez [] pour accéder à des éléments spécifiques :
[1] 50000 90000 82000
[1] 75000 90000 45000
[1] 75000 90000 45000 82000
[1] 75000 90000 45000
Trouver des éléments qui remplissent une condition :
[1] FALSE TRUE TRUE FALSE TRUE
Utiliser des vecteurs logiques pour filtrer :
Dans les données réelles d’administration fiscale, les valeurs manquantes sont courantes :
Les opérations mathématiques avec NA retournent NA !
Avertissement
Tout calcul impliquant NA retournera NA à moins de le gérer explicitement !
na.rmLa plupart des fonctions statistiques ont un argument na.rm (NA remove) :
[1] 68400
[1] 342000
[1] 90000
Astuce
Vérifiez toujours vos données pour les valeurs manquantes et décidez comment les gérer !
[1] 50000 75000 90000 45000 82000
Exemple pratique : Taux de conformité
Taux de Conformité : 71.4 %
[1] "FIRM_3" "FIRM_6"
10:00 Partie 1 : Objets et Calculs
montant_base avec la valeur 125000taux_impot avec la valeur 0.15 (15%)impot_duimpot_du et sauvegardez dans paiement_totalPartie 2 : Utiliser les Fonctions
paiement_total à l’entier le plus prochemontant_baseabs() pour obtenir la valeur absolue de -500010:00 Partie 1 : Créer des Vecteurs
ids_entreprises : “FIRM_001” à “FIRM_006” (utilisez paste0() et 1:6)montants_tva : 50000, 75000, NA, 90000, 45000, NAannees : 2020 à 2025 en utilisant :taux_standard : répétez 0.15 six fois en utilisant rep()Partie 2 : Opérations avec Vecteurs
montants_tva par 1.05 pour ajouter 5% de pénalitéPartie 3 : Indexation
Partie 4 : Données Manquantes
# Partie 1 : Créer des Vecteurs
ids_entreprises = paste0("FIRM_", sprintf("%03d", 1:6))
montants_tva = c(50000, 75000, NA, 90000, 45000, NA)
annees = 2020:2025
taux_standard = rep(0.15, times = 6)
# Partie 2 : Opérations avec Vecteurs
mean(montants_tva, na.rm = TRUE)
sum(montants_tva, na.rm = TRUE)
montants_tva * 1.05
# Partie 3 : Indexation
montants_tva[3]
montants_tva[c(2, 4, 5)]
montants_tva[montants_tva > 60000 & !is.na(montants_tva)]
# Partie 4 : Données Manquantes
sum(is.na(montants_tva))
is.na(montants_tva)
ids_entreprises[is.na(montants_tva)]Les paquets R sont des collections de fonctions créées par la communauté.
Pensez à R de base comme un smartphone, et aux paquets comme des applications que vous installez !
Deux étapes pour utiliser un paquet :
install.packages("nomPaquet")library(nomPaquet)Note
Pensez-y ainsi :
Quelques paquets que vous utiliserez dans ce cours :
dplyr - Manipulation et transformation de données
ggplot2 - Création de visualisations professionnelles
readr / readxl - Lecture de fichiers CSV et Excel
data.table - Opérations rapides sur de grands jeux de données
lubridate - Travail avec les dates
Astuce
Nous apprendrons ces paquets dans les prochains modules !
Sauvegardez toujours votre travail dans des scripts - pas seulement dans la console !
Les fonctions sont vos amies - utilisez help() quand vous n’êtes pas sûr
Les vecteurs sont partout - ils sont la base des données dans R
Gérez les NAs explicitement - utilisez na.rm = TRUE dans les calculs
Commentez votre code - votre futur vous vous en remerciera !
Note
Prochaines étapes :
?nom_fonction)