| industry | avg_gap |
|---|---|
| Retail | 8209 |
| Services | 12158 |
| Manufacturing | 8861 |
| Technology | 17238 |
Formation en R
Écart moyen de TVA par industrie :
Sous forme de Tableau :
| industry | avg_gap |
|---|---|
| Retail | 8209 |
| Services | 12158 |
| Manufacturing | 8861 |
| Technology | 17238 |
Sous forme de Chiffres :
| min | mean | max |
|---|---|---|
| -84038 | 11411 | 125974 |
Laquelle raconte l’histoire instantanément ?
Maintenant nous voyons instantanément : La manufacture a l’écart moyen le plus élevé !
Pour l’administration fiscale :
Note
Une bonne visualisation répond à une question immédiatement
Trois règles :
❌ Mauvais : - Graphiques 3D - Couleurs arc-en-ciel sans signification - Tri alphabétique
✓ Bon : - Graphiques simples et clairs - Couleurs significatives - Tri par valeur
Source : ActiveWizards
Focus d’aujourd’hui : Graphiques à barres, graphiques linéaires, nuages de points
La plupart des outils : “Fais-moi un graphique à barres”
ggplot2 : Construire des graphiques couche par couche avec une grammaire systématique
Note
Si vous comprenez la grammaire, vous pouvez créer N’IMPORTE QUEL graphique
Trois composants essentiels :
Chaque graphique suit ce modèle :
Exemple :
Important
Notez le + à la fin de la première ligne - cela connecte les couches ensemble !
Étape 1 : Indiquer à ggplot quelles données
Boîte grise vide - ggplot est prêt mais ne sait pas quoi tracer
Étape 2 : Mapper les variables à x et y
Maintenant nous avons des axes, mais pas encore de données !
Étape 3 : Ajouter des formes géométriques
Graphique complet ! 🎉
Les esthétiques mappent vos données aux propriétés visuelles
Trois esthétiques principales que vous utiliserez :
Le fondement de chaque graphique :
La position indique : Quelle entreprise a quelles valeurs
La couleur peut montrer des catégories :
Maintenant nous voyons : Les grandes entreprises (orange) se regroupent en haut à droite
Différents geoms utilisent différentes esthétiques :
color - pour les points et lignes :

Utilisez color pour geom_point() et geom_line()
Les barres peuvent avoir à la fois fill (intérieur) et color (bordure) :
Astuce
Règle rapide : Les points utilisent color, les barres utilisent fill
Les variables vont dans aes(), les valeurs fixes vont à l’extérieur :
# ✓ CORRECT : colorer par une variable dans vos données
ggplot(data, aes(x = var1, y = var2, color = firm_size))
# ✓ CORRECT : rendre tous les points bleus
ggplot(data, aes(x = var1, y = var2)) +
geom_point(color = "blue")
# ❌ FAUX : "blue" n'est pas un nom de variable
ggplot(data, aes(x = var1, y = var2, color = "blue"))Important
Si c’est dans vos données → utilisez aes()
Si c’est un choix fixe → à l’extérieur de aes()
Réponse : Seul C est correct !
aes()industry devrait être à l’intérieur de aes()Meilleur pour : Comparer des valeurs entre catégories
En administration fiscale : - Total de TVA par industrie - Nombre d’audits par région - Taux de conformité par secteur
Problème : Étiquettes verticales difficiles à lire
Beaucoup mieux ! coord_flip() fait pivoter le graphique
reorder(industry, total_vat) trie les industries par montant de TVA
10:00 Tâche : Créer un graphique à barres groupées montrant la collecte de TVA par industrie et taille d’entreprise
Étapes :
actual_vat par industry ET firm_sizeindustry sur l’axe des x, total_vat sur l’axe des yfill = firm_size pour colorer les barres par taille d’entrepriseposition = "dodge" pour placer les barres côte à côtecoord_flip()theme_minimal()Question : Quelle combinaison (industrie + taille d’entreprise) collecte le plus de TVA ?
Quand vous avez DEUX variables catégorielles :
Créer des barres côte à côte avec position = "dodge" :
ggplot(industry_size, aes(x = industry, y = total_vat, fill = firm_size)) +
geom_bar(stat = "identity", position = "dodge") +
coord_flip() +
labs(
title = "Collecte de TVA par Industrie et Taille d'Entreprise",
x = NULL,
y = "TVA Totale (Millions USD)",
fill = "Taille d'Entreprise"
) +
theme_minimal()Montrer le total ET la répartition avec des barres empilées :
ggplot(industry_size, aes(x = reorder(industry, total_vat), y = total_vat, fill = firm_size)) +
geom_bar(stat = "identity", position = "stack") + # position = "stack" est par défaut
coord_flip() +
labs(
title = "Collecte de TVA par Industrie (par Taille d'Entreprise)",
x = NULL,
y = "TVA Totale (Millions USD)",
fill = "Taille d'Entreprise"
) +
scale_fill_brewer(palette = "Set2") +
theme_minimal()Chaque barre montre le total, les couleurs montrent la contribution de chaque taille d’entreprise
Utilisez les Barres Groupées quand :
Exemple : Comparer petites vs grandes entreprises entre industries
Utilisez les Barres Empilées quand :
Exemple : TVA totale avec répartition par taille d’entreprise
Avertissement
Évitez l’empilement pour comparer des valeurs - difficile de lire les segments du milieu/haut !
Meilleur pour : Montrer les relations entre deux variables continues
En administration fiscale : - TVA attendue vs réelle (conformité) - Taille d’entreprise vs obligation fiscale - Inputs vs outputs
Montre la relation entre TVA attendue et réelle
Maintenant nous voyons : Le modèle diffère selon la taille d’entreprise
La ligne rouge montre la conformité parfaite (réel = attendu)
geom_smooth(method = "lm") ajoute une ligne de tendance linéaire
08:00 Tâche : Créer un nuage de points des inputs TVA vs outputs
Étapes :
vat_gap_analysisvat_inputs à l’axe des x, vat_outputs à l’axe des ygeom_point() avec couleur par industrygeom_abline(intercept = 0, slope = 1)Question : Que représente la ligne de référence ?
Meilleur pour : Montrer les tendances dans le temps
En administration fiscale : - Collecte mensuelle de TVA - Taux de conformité au fil des années - Tendances trimestrielles par secteur
Meilleure pratique : Ajouter geom_point() pour montrer les points de données réels
La couleur crée automatiquement des lignes séparées pour chaque groupe !
08:00 Tâche : Créer un graphique linéaire montrant l’écart moyen de TVA dans le temps
Étapes :
vat_gap par yeargeom_line() et geom_point()year à l’axe des x, écart moyen à l’axe des ytheme_minimal()Question : L’écart de TVA augmente-t-il ou diminue-t-il ?
Quand vous avez beaucoup de catégories, le facettage est meilleur que la couleur :
Chaque industrie obtient son propre panneau - beaucoup plus clair !
ncol = 3 contrôle le nombre de colonnes
Utilisez le facettage quand :
Syntaxe :
10:00 Tâche : Créer des nuages de points facettés par industrie
Étapes :
taxable_income vs actual_vatgeom_point()facet_wrap(~ industry)geom_smooth(method = "lm")Toujours inclure :
ggplot(vat_gap_analysis[1:100], aes(x = expected_vat/1000, y = actual_vat/1000)) +
geom_point(aes(color = firm_size)) +
labs(
title = "Conformité TVA par Taille d'Entreprise",
subtitle = "Exercices Fiscaux 2021-2023",
x = "TVA Attendue (Milliers USD)",
y = "TVA Réelle (Milliers USD)",
color = "Taille d'Entreprise",
caption = "Source : Base de Données de l'Administration Fiscale"
) +
theme_minimal()Thème recommandé pour les rapports :
theme_minimal() donne un aspect épuré et moderne
Palettes ColorBrewer : “Set1”, “Set2”, “Dark2” sont de bons choix par défaut
# D'abord, créer et sauvegarder le graphique dans un objet
my_plot <- ggplot(vat_gap_analysis, aes(x = expected_vat, y = actual_vat)) +
geom_point() +
theme_minimal()
# Sauvegarder en PNG pour les présentations
ggsave(
filename = "vat_compliance.png",
plot = my_plot,
width = 10,
height = 6,
dpi = 300
)
# Sauvegarder en PDF pour les rapports
ggsave("vat_compliance.pdf", plot = my_plot, width = 10, height = 6)Avant de partager toute visualisation :
theme_minimal())20:00 Tâche : Créer trois graphiques professionnels pour un rapport fiscal
Créer :
Tous les graphiques doivent avoir : - Titres et étiquettes appropriés - theme_minimal() - Couleurs professionnelles - Légende de source des données
Sauvegarder les trois en fichiers PNG (300 dpi)
Concepts fondamentaux : - Quand utiliser les graphiques à barres, nuages de points et graphiques linéaires - Le modèle ggplot2 : ggplot() + aes() + geom_*() - Mapper les données aux esthétiques (x, y, color, fill) - Fill vs color : les points utilisent color, les barres utilisent fill - La règle aes() : variables à l’intérieur, valeurs fixes à l’extérieur
Compétences pratiques : - Créer des visualisations professionnelles - Barres groupées et empilées pour plusieurs catégories - Ajouter des étiquettes et des thèmes - Utiliser le facettage pour plusieurs groupes - Sauvegarder des graphiques de haute qualité
⚠️ Oublier le +
⚠️ Mauvaise utilisation de aes() - Variables → à l’intérieur de aes() - Valeurs fixes → à l’extérieur de aes()
Graphique à barres :
# Graphique à barres simple
ggplot(data, aes(x = category, y = value)) +
geom_bar(stat = "identity", fill = "blue") +
coord_flip()
# Barres groupées
ggplot(data, aes(x = category, y = value, fill = group)) +
geom_bar(stat = "identity", position = "dodge") +
coord_flip()
# Barres empilées
ggplot(data, aes(x = category, y = value, fill = group)) +
geom_bar(stat = "identity", position = "stack") +
coord_flip()Nuage de points :
Graphique linéaire :
Rappel : Les points utilisent color, les barres utilisent fill
Documentation : - R for Data Science - Chapitre 2 - Fiche aide-mémoire ggplot2
Exemples : - Galerie de Graphiques R
Astuce
Quand vous êtes bloqué : Cherchez sur Google “ggplot how to…” - il y a presque toujours un exemple !
Vous pouvez maintenant : - Choisir le bon type de graphique pour votre question - Créer des visualisations fiscales professionnelles - Communiquer efficacement les insights des données
La pratique rend parfait : - Essayez ces techniques avec vos propres données - Commencez simple, ajoutez de la complexité progressivement - Partagez les graphiques avec vos collègues pour obtenir des retours
Questions ?