R is listed as a required skill in 64% of data science job postings and was Glassdoor’s Best Job in America in 2016 and 2017. (source: Glassdoor)
32% of full-time data scientists started learning machine learning or data science through a MOOC, while 27% were self-taught. (source: Kaggle, 2017)
Data Scientists are few in number and high in demand. (source: TechRepublic)
Le certificat est une excellente introduction à la programmation R et aux statistiques. On y couvre les rudiments de R, quelques jeux de données issus du CRAN de même que les packages incontournables dans la profession (tidyverse, broom, etc). Du côté critique je crois que, bien que les bases statistiques enseignées soient fondamentales, le programme doit être supplementé de cours de mathématiques pour atteindre le niveau necéssaire à une pratique sérieuse de la science des données.
Le professeur Irizarry est biostatisticien et professeur au Harvard T.H. Chan School of Public Health. La description du certificat est: "The courses in the Professional Certificate program are designed to prepare you to do data analysis in R, from simple computations to machine learning." Le cursus utilise R et rstudio sur linux.
Le programme est composé des 8 cours suivants (et un projet d'integration):
- PH125.1 Data Science: R Basics 📃
- PH125.2 Data Science: Visualization 📃
- PH125.3 Data Science: Probability 📃
- PH125.4 Data Science: Inference and Modeling 📃
- PH125.5 Data Science: Productivity Tools 📃
- PH125.6 Data Science: Wrangling 📃
- PH125.7 Data Science: Linear Regression 📃
- PH125.8 Data Science: Machine Learning📃
- PH125.9 Data Science: Capstone
Un livre gratuit est fourni: Introduction to datascience
Il est possible de faire un programme similaire en ligne et d'obtenir les credits universitaires de Harvard mais au cout de 11,000 USD ...
Le certificat est semblable et complémentaire au programme d'analytique d'affaires que j'entreprend à l'école des Hautes-Etudes-Commerciales Montréal. Il me permet d'acquérir plus de pratique et d'études de cas et de mettre une plus grande emphase au niveau programmation linux.
Outre R, HEC couvre plus de logiciels propriétaires tels que : Excel, VBA, SAS, SPSS, Tableau et les cours de statistiques sont plus complets et nombreux. La différence est que c'est plus long a completer et que l'on utilise le terme 'analytique d'affaires' au lieu de "science des données". Côté critique, je crois que l'école devrait mettre plus de temps sur les algorithmes d'apprentissage statistiques et l'apprentissage profond (programme issus de IVADO et MILA). Une plus grande emphase sur les logiciels open source (Python, PSPP, Orange, Octave,...) qui permettent d'appliquer ce que l'on apprend en réduisant les coûts d'opérations des entreprises serait aussi un avantage.
Le certificat HEC est composé de 10 cours (30 crédits). Voici un tableau qui tente de souligner la similarité de la matière des 2 programmes:
| HEC Montreal | Harvard |
|---|---|
| [x] 3060017 Statistique | PH125.3 Probability , PH125.4 Inference and Modeling , PH125.7 Linear Regression |
| [x] 3060216 Logiciels statistiques pour la gestion | PH125.1 R Basics, PH125.5 Productivity Tools |
| [x] 3060316 Méthodes statistiques avancées | PH125.4 Inference & Modeling,PH125.7 Linear Regression |
| [x] 3060616 Traitement et visualisation de données | PH125.6 Wrangling , PH125.2 Visualization |
| 3065017 Introduction à l'analytique d'affaires | (pas d'équivalent - survol du data science) |
| 3060816 Modèles d'optimisation et de recherche opérationnelle | PH125.8 Machine Learning |
| 3060716 Web analytique | (pas d'équivalent - marketing avec Google analytics?) |
| [x] 3063614 Intro. à l'exploitation de données | PH125.8 Machine Learning |
| Leadership et gestion de projets | |
| Au choix |
C'est selon moi le meilleur programme de certificat au Quebec pour etre en mesure de faire du data science/business analytics rapidement. (une specialisation analytique pour le BAA ou une maitrise c'est un peu plus long ....)

