Introduction

Ce livre vise à servir de support à des enseignements auprès d’étudiants qui découvrent les analyses statistiques en même temps que le langage de programmation R. Ce livre n’est donc pas dédié exclusivement aux statistiques, ni exclusivement dédié à R. D’autres ouvrages proposent des contenus plus spécialisés, et donc plus poussés, et c’est vers ces ouvrages qu’il convient d’aller pour davantage maîtriser les fondamentaux des statistiques ou toutes les subtilités du langage R.

Bien que le langage R puisse être utilisé via le logiciel R en tant que tel, les procédures décrites dans ce livre supposent que l’utilisation du logiciel R s’effectue en réalité à l’aide de l’environnement proposé par le logiciel RStudio, qui est plus confortable en matière d’utilisation que l’interface initialement associée au logiciel R. Que cela soit via l’interface de base associée au logiciel R ou via l’environnement proposé par RStudio, l’utilisation du langage R pour obtenir le résultat d’une analyse nécessite d’écrire des lignes de code. Si cela peut s’avérer plus complexe et/ou fastidieux à utiliser au départ qu’un logiciel classique où il suffit de cliquer sur des boutons pour obtenir le résultat de l’analyse, cela vaut la peine de prendre le temps d’apprendre à programmer avec R (et préférentiellement via RStudio), au moins pour les raisons suivantes : les logiciels R et RStudio sont en accès libre sur internet ; il existe de nombreuses aides documentaires, notamment sur internet, qui permettent de programmer n’importe quelle analyse ou manipulation de données, aussi sophistiquée soit elle ; il est possible de conserver les lignes de code pour pouvoir refaire plus tard les analyses, ou pour pouvoir appliquer ces lignes de code à d’autres données, ou encore pour partager ces lignes de code avec d’autres personnes. De par sa gratuité et sa capacité à permettre le partage des analyses réalisées, R et RStudio sont ainsi une très bonne option pour embrasser la tendance actuelle, encore timide, de l’open science, consistant à permettre à tout un chacun de savoir ce qui a été fait en matière d’analyses et à pouvoir reproduire ces analyses. Enfin, le langage R, notamment via l’utilisation de RStudio, permet de faire bien plus que des analyses de données (e.g., automatisation d’analyses, développement d’applications web, construction de sites internet et de curriculum vitae, etc.), ce qui en fait un outil de travail polyvalent et donc particulièrement intéressant.

L’appropriation du contenu de ce livre suppose une lecture relativement linéaire des chapitres, du moins en vue de comprendre comment utiliser le langage R. Plusieurs exemples de code, en particulier pour la conception de graphiques, utilisent ce qu’on appelle des packages qui sont à télécharger et à installer sur l’ordinateur, puis à charger lorsque le logiciel est ouvert. Une fois que les consignes d’installation et de chargement de ces packages ont été explicitement données au cours d’un chapitre, leur utilisation dans le chapitre en cours suppose implicitement que ces packages ont été chargés et sont donc prêts à être utilisés.

Dans ce livre, les exemples de code apparaissent dans des zones grisées, et les résultats qui pourraient apparaître à l’écran dans RStudio une fois le code activé sont précédés d’un double dièse (##). Par moment, les noms des fonctions sont écrits à la suite des noms des packages dont elles dépendent, comme ceci : package::fonction().

Une version PDF de ce livre est disponible en ligne ici.1

Licence Creative Commons
Ce livre, qui est en cours d’élaboration, est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International.