Ressources Supplémentaires
Matériels d’apprentissage sélectionnés pour R et l’analyse de données
Aperçu Général
Cette page offre des ressources d’apprentissage supplémentaires organisées par thème du cours. Ces matériaux complètent le DataTax R Course et vous permettent d’approfondir ou d’explorer des sujets avancés.
- Débutants : concentrez-vous sur la section Ressources de Base (Core Resources)
- Pendant le cours : consultez les ressources spécifiques par thème au fur et à mesure que vous complétez chaque module
- À la fin : explorez les Sujets Avancés pour continuer votre apprentissage
Ressources de Base (Core Resources)
Ces livres et tutoriels complets forment la base de la pratique moderne de R. Nous les recommandons pour tous les niveaux.
R for Data Science (2nd Edition)
Auteurs : Hadley Wickham, Mine Çetinkaya-Rundel et Garrett Grolemund
Lien : https://r4ds.hadley.nz/
Le guide de référence pour faire de la science des données avec R. Notre cours suit la structure pédagogique de R4DS (2e), adaptée au contexte de l’administration fiscale. C’est la référence la plus importante pour apprendre R.
Idéal pour : débutants jusqu’au niveau intermédiaire
Couvre : tous les thèmes du cours plus la modélisation, la communication et le flux de travail
Chapitres clés alignés avec le cours : - Chap 1-2 : Introduction et fondamentaux du workflow → Module 1 - Chap 7-8 : Importation de données → Module 2
- Chap 3-5, 12 : Transformation de données avec dplyr → Module 3 - Chap 6 : Data tidying (restructuration) → Module 4 - Chap 9-11 : Visualisation avec ggplot2 → Module 5
Data Science for Economists (and Everyone Else)
Auteur : Grant McDermott
Lien : https://grantmcdermott.com/ds4e/
Excellents matériaux de cours de Grant McDermott sur les workflows de science des données avec R. Particulièrement fort sur les pratiques modernes de R, le contrôle de versions et la reproductibilité.
Idéal pour : ceux qui recherchent une instruction pratique et orientée workflow
Couvre : fondamentaux de R, data wrangling, visualisation, régression, données spatiales, big data
Points forts : - Explications claires de l’écosystème tidyverse - Intégration avec Git/GitHub pour la reproductibilité - Exemples pratiques d’économie et de politiques publiques - Introduction au calcul parallèle et aux outils pour big data
Introduction to Econometrics with R
Auteur : Florian Oswald
Lien : https://scpoecon.github.io/ScPoEconometrics/
Livre interactif d’économétrie avec R. Excellent pour les administrations fiscales intéressées par l’inférence causale, l’évaluation de politiques et l’analyse de régression.
Idéal pour : utilisateurs prêts à aller au-delà de l’analyse descriptive vers la modélisation économétrique
Couvre : régression linéaire, inférence causale, données de panel, variables instrumentales
Pourquoi c’est précieux : - Exemples et intuition pertinents pour les politiques publiques - Tutoriels et exercices interactifs - Pont entre data wrangling et analyse économétrique - Focus sur les relations causales avec des données administratives
swirl: Learn R, in R
Lien : https://swirlstats.com/
Tutoriels interactifs de R qui s’exécutent directement dans votre console R. Sans configuration supplémentaire : installez simplement le paquet et commencez.
Idéal pour : débutants absolus qui veulent une pratique guidée et pratique
Couvre : fondamentaux de programmation en R, importation/nettoyage de données, modèles de régression, inférence statistique
Comment l’utiliser :
install.packages("swirl")
library(swirl)
swirl()Avantages : - Apprentissage pratique directement dans R - Retour immédiat sur votre code - Complètement gratuit et autogéré - Multiples cours disponibles pour différents niveaux
YaRrr! The Pirate’s Guide to R
Auteur : Nathaniel Phillips
Lien : https://bookdown.org/ndphillips/YaRrr/
Introduction amusante et accessible à R avec une thématique pirate. Malgré l’approche ludique, c’est un guide complet.
Idéal pour : débutants qui veulent une introduction agréable et moins formelle
Couvre : fondamentaux de R, structures de données, visualisation, statistique, écriture de fonctions
Points forts : - Livre gratuit de ~250 pages - Vidéos complémentaires - “Pirate plots” pour améliorer les visualisations - Exemples clairs et bonnes explications
Big Book of R
Auteur : Oscar Baruffa
Lien : https://www.bigbookofr.com/
Collection organisée de plus de 400 livres gratuits sur R, classés par thème. Votre bibliothèque ultime de R.
Idéal pour : trouver des ressources spécialisées sur n’importe quel sujet lié à R
Couvre : des bases aux sujets avancés (machine learning, analyse spatiale, Shiny, applications par domaine)
Pourquoi l’ajouter aux favoris : - Recherchable par thème - Mis à jour régulièrement - La plupart des ressources sont gratuites - Couvre des sujets spécialisés difficiles à trouver ailleurs
Plateformes d’Apprentissage Interactif
DataCamp
Lien : https://www.datacamp.com/
Plateforme interactive populaire avec vidéos et exercices pratiques dans le navigateur.
Introduction to R (cours gratuit)
Point de départ idéal avec exercices interactifs et données réelles
Avantages : - Pas besoin d’installer de logiciel - Retour immédiat sur les exercices - Parcours d’apprentissage structurés - Suivi de progression
Note : il y a des cours gratuits ; l’accès complet nécessite un abonnement
Harvard Data Science: R Basics
Instructeur : Rafael Irizarry
Lien : edX - Harvard Data Science Series
Cours gratuit de Harvard analysant un jeu de données réel de criminalité tout en apprenant les fondamentaux de R.
Idéal pour : apprenants visuels et pratiques qui veulent une instruction de qualité universitaire
Couvre : types de données, vecteurs, tri, graphiques de base, data wrangling
Ce qui le rend spécial : - Apprentissage avec des données réelles - Excellent instructeur avec des explications claires
- Partie d’une série complète de science des données - Gratuit pour audit (le certificat est payant)
Ressources par Module du Cours
Module 1 : Introduction to R
R for Data Science - Workflow Basics
Chapitre 2 et Chapitre 4
Base pour écrire du code R clair et lisible
Grant McDermott - Introduction to R
Diapositives et notes
Guide de démarrage rapide en R avec bonnes pratiques modernes
swirl - R Programming: The basics
Leçons interactives dans la console R
YaRrr! - Chapitres 3-6
Introduction à R, vecteurs et structures de données de base
Hands-On Programming with R
https://rstudio-education.github.io/hopr/
Excellent complément axé sur les fondamentaux de programmation en R
Module 2 : Data Import & Export
R for Data Science - Data Import
Chapitre 7 et Chapitre 8
Couverture complète de la lecture de fichiers et bases de données
Grant McDermott - Data I/O
Travail avec différents formats, APIs et bases de données
Documentation de readr
https://readr.tidyverse.org/
Référence officielle pour la lecture de données rectangulaires
Importation avec data.table
https://rdatatable.gitlab.io/data.table/
Importation rapide pour jeux très volumineux (millions de lignes)
swirl - Getting and Cleaning Data
Leçons interactives sur l’importation et le nettoyage
Module 3 : Data Wrangling with dplyr
R for Data Science - Data Transformation
Chapitre 3 et Chapitre 4
Référence centrale pour les verbes de dplyr : filter, select, mutate, summarize, group_by
R for Data Science - Numbers & Strings
Chapitre 12 et Chapitre 13
Travail avec données numériques et manipulation de texte
Grant McDermott - Data Wrangling
Exemples pratiques et workflows
Scénarios réels de nettoyage de données
Documentation de dplyr
https://dplyr.tidyverse.org/
Référence officielle avec exemples de chaque fonction
Data Transformation Cheat Sheet
PDF de RStudio
Référence rapide des fonctions dplyr
YaRrr! - Chapitres 7-9
Data wrangling avec base R et approches tidyverse
Module 4 : Reshaping & Joining Data
R for Data Science - Data Tidying
Chapitre 5
Restructurer les données entre formats large et long
R for Data Science - Joins
Chapitre 19
Combiner des jeux de données avec joins et opérations d’ensembles
Documentation de tidyr
https://tidyr.tidyverse.org/
Référence officielle pour les fonctions de restructuration
Grant McDermott - Data Wrangling (suite)
Techniques avancées de restructuration et jonction de données
Module 5 : Data Visualization with ggplot2
R for Data Science - Data Visualization
Chapitres 9-11
Introduction complète à ggplot2 : couches, esthétiques et facets
Data Visualization: A Practical Introduction
Auteur : Kieran Healy
Lien : http://socviz.co/
Magnifique livre sur les visualisations efficaces avec ggplot2. Va au-delà de la mécanique et inclut les principes de bon design.
Idéal pour : ceux qui créent des graphiques pour rapports, présentations ou publications
Couvre : fondamentaux de ggplot2, principes de design, cartes, sortie de qualité éditoriale
Pourquoi le lire : - Vous apprend à penser ce qui rend une visualisation efficace - Jeux de données réels et exemples pertinents pour politiques publiques - Comment affiner les graphiques pour communication professionnelle - Excellent pour administrations fiscales qui rapportent aux équipes de direction
ggplot2 Book
https://ggplot2-book.org/
Référence complète de Hadley Wickham
R Graphics Cookbook
https://r-graphics.org/
Livre de recettes pour créer des types spécifiques de graphiques
Grant McDermott - Data Visualization
Exemples pratiques et workflows modernes de ggplot2
Data Visualization Cheat Sheet
PDF de RStudio
Référence rapide des geoms et aesthetics de ggplot2
YaRrr! - Chapitre 10
Introduction au plotting en base R et pirate plots
Sujets Avancés
Prêt à aller au-delà des bases ? Ces ressources couvrent la programmation avancée en R et les applications spécialisées.
Programmation Avancée en R
Advanced R (2nd Edition)
Auteur : Hadley Wickham
Lien : https://adv-r.hadley.nz/
Approfondit les concepts de programmation de R. Lecture essentielle pour maîtriser R.
Idéal pour : utilisateurs intermédiaires et avancés
Couvre : fonctions, environnements, POO, programmation fonctionnelle, optimisation de performance
Quand le lire : - Après avoir complété ce cours - Quand vous voulez écrire vos propres fonctions et paquets - Quand vous avez besoin d’optimiser la performance - Pour comprendre comment R fonctionne “sous le capot”
Thèmes clés pour administrations fiscales : - Chap 6 : Functions (code réutilisable) - Chap 9 : Functionals (map, reduce, apply) - Chap 23 : Mesure de performance - Chap 24 : Amélioration de performance
Apprentissage Statistique et Modélisation
An Introduction to Statistical Learning
Auteurs : Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Lien : https://www.statlearning.com/
Introduction de référence au machine learning et à la modélisation statistique, avec code et laboratoires en R.
Idéal pour : utilisateurs prêts pour modélisation prédictive et ML
Couvre : régression, classification, rééchantillonnage, régularisation, arbres, clustering
Applications dans l’administration fiscale : - Scoring de risque pour sélection d’audits - Prédiction de comportement de conformité
- Classification de types de contribuables - Détection d’anomalies dans chaînes de TVA - Prévision de recettes
Comment l’utiliser : - Commencez après avoir maîtrisé les Modules 1-4 - Travaillez les laboratoires en R - Concentrez-vous sur chap. 2-4 pour les fondamentaux - Chap. 5-6 pour validation croisée et sélection de modèles
Données Spatiales et GIS
Geocomputation with R
Auteurs : Robin Lovelace, Jakub Nowosad, Jannes Muenchow
Lien : https://r.geocompx.org/
Guide complet d’analyse de données géographiques avec R.
Idéal pour : travailler avec des données fiscales spatiales (régions, districts)
Couvre : structures spatiales, systèmes de coordonnées, cartes, opérations spatiales
Applications fiscales : - Cartographier les recettes par région - Analyser les modèles spatiaux de conformité - Visualiser la couverture des bureaux fiscaux - Analyse de risque géographique
Prérequis : complétez d’abord le cours, surtout le Module 5 (visualisation)
Text Mining et NLP
Text Mining with R: A Tidy Approach
Auteurs : Julia Silge et David Robinson
Lien : https://www.tidytextmining.com/
Apprenez le text mining avec des principes tidy en utilisant le paquet tidytext.
Idéal pour : analyser des données non structurées (commentaires, descriptions, documents)
Couvre : analyse de sentiments, fréquence de termes, relations de texte, topic modeling
Applications fiscales : - Analyser la correspondance des contribuables - Classifier les descriptions d’entreprises - Fouille de notes et rapports d’audit - Analyse de sentiment du feedback
Prérequis : complétez d’abord les Modules 1-4
Rapports et Documents Reproductibles
R Markdown: The Definitive Guide
Auteurs : Yihui Xie, J.J. Allaire, Garrett Grolemund
Lien : https://bookdown.org/yihui/rmarkdown/
Guide complet pour créer des rapports, présentations et sites reproductibles avec R Markdown.
Idéal pour : automatiser les rapports et créer des documents professionnels
Couvre : PDF/HTML/Word, présentations, tableaux de bord, sites web, livres
Applications fiscales : - Rapports mensuels de conformité - Résumés d’audits - Tableaux de bord de données - Documentation interne
R Markdown Cookbook
https://bookdown.org/yihui/rmarkdown-cookbook/
Recettes et conseils pratiques pour tâches courantes en R Markdown
Big Data et Performance
Grant McDermott - Big Data in Economics
Gestion efficace de grands volumes avec data.table, bases de données et calcul parallèle
data.table
https://rdatatable.gitlab.io/data.table/
Manipulation rapide de grandes données (10M+ lignes)
Idéal pour : travailler avec registres complets de contribuables ou données transactionnelles
Efficient R Programming
https://csgillespie.github.io/efficientR/
Écrivez du code R plus rapide et efficace
Communauté et Aide
Où Demander de l’Aide
RStudio Community
https://community.rstudio.com/
Forum convivial de questions-réponses pour utilisateurs de R
Stack Overflow - tag R
https://stackoverflow.com/questions/tagged/r
Questions techniques spécifiques de programmation
R for Data Science Online Learning Community
https://www.rfordatasci.com/
Groupes d’étude et soutien communautaire
Rester à Jour
R Weekly
https://rweekly.org/
Bulletin hebdomadaire avec nouvelles et ressources R
R-bloggers
https://www.r-bloggers.com/
Agrégateur d’articles de blogs et tutoriels R
#RStats sur Twitter/X
Suivez le hashtag #RStats pour astuces, nouvelles et mises à jour de la communauté
Matériaux de Référence Rapide
Cheat Sheets (téléchargements PDF)
Tous disponibles sur https://rstudio.github.io/cheatsheets/
Essentiels pour ce cours : - RStudio IDE - Data Import (readr, readxl) - Data Transformation (dplyr) - Data Tidying (tidyr) - Data Visualization (ggplot2)
Pour sujets avancés : - String Manipulation (stringr) - Dates and Times (lubridate) - Factors (forcats) - R Markdown / Quarto