Ce dépôt contient une partie des projets réalisés dans le cadre du parcours de formation Data Analyst dispensé par OpenClassrooms.
Projet 10 | Projet 9 | Projet 8 | Projet 7 | Projet 6 | Projet 5 | Projet 4 | Projet 3 | |
---|---|---|---|---|---|---|---|---|
Jupyter Notebook |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
Python | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
Numpy | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
Pandas | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
Matplotlib | ✓ | ✓ | ✓ | ✓ | ✓ | |||
Seaborn | ✓ | ✓ | ||||||
ScyPy | ✓ | ✓ | ✓ | |||||
scikit-learn | ✓ | ✓ | ||||||
statsmodels | ✓ | |||||||
Joblib | ✓ | |||||||
pathlib | ✓ | |||||||
Knime | ✓ | |||||||
Power BI | ✓ | |||||||
SQLite | ✓ | |||||||
Power Query | ✓ |
- Réaliser une régression linéaire.
- Opérer des classifications automatiques pour partitionner les données.
- Réaliser une analyse prédictive.
- Réaliser une régression logistique.
- Réaliser une classification kNN et k-means.
- Réaliser un arbre de décision et une forêt aléatoire.
- Utiliser des méthodes ensemblistes (Bagging et Boosting).
- Optimiser un modèle avec
GridSearchCV
. - Valider un modèle avec la validation croisée.
En tant que consultant Data Analyst nous effectuons une prestation en régie au sein de l’Organisation nationale de lutte contre le faux-monnayage (ONCFM). Cette institution a pour objectif de mettre en place des méthodes d’identification des contrefaçons des billets en euros.
- Préparer et analyser les données comprenant les caractéristiques dimensionnelles des billets en fonction de leur authenticité.
- Explorer différentes solutions pour la mise en place de l'algorithme et retenir le modèle le plus adapté.
- Tester notre algorithme sur de nouvelles données.
- Effectuer un clustering simple.
- Explorer des données pour synthétiser des variables.
Nous sommes en poste chez La poule qui chante, une entreprise française d’agroalimentaire qui souhaite se développer à l'international. Cependant, la liste des pays potentiels dans lesquels s'implanter est longue. Pour cela, nous allons réaliser une analyse des groupements de pays que l'on pourra cibler grâce à différentes méthodes de clustering, puis nous approfondirons l'étude de marché.
- Préparer, nettoyer et réaliser une analyse exploratoire dans un notebook Juypter :
Les données utilisées sont issues des statistiques de la Food and Agriculture Organization of the United Nations (FAO). Elles nous permettront de définir les critères de l'analyse. Ces critères, seront appelés indicateurs dans la suite de l'étude. - Réaliser le clustering des pays grâce à la classification ascendante hiérarchique (CAH) et à la méthode des k-means puis réaliser une analyse en composantes principales (ACP) dans un second notebook.
- Synthétiser des résultats à destination d'un client.
- Créer un tableau de bord répondant à des questions analytiques.
- Analyser un besoin client pour formuler des questions analytiques.
- Générer des graphiques adaptés aux types de données.
Pour ce projet, nous avons la liberté de choisir une thématique qui nous intéresse à la place du sujet proposé. J'ai fait de traiter d'un sujet que les médias ont traité plusieurs fois au début de l'année 2023. Ce sujet porte sur les disparités sociales qui existent dans les lycées.
Créer un rapport Power BI d'au moins 3 pages. Les données sources ont été prétraitées dans un notebook Juypter en utilisant la librairie Pandas. Il fallait également créer un blueprint synthétisant les fontionnalités du rapport ainsi qu'un mock-up reprenant le visuel des futures pages en basse définition.
- Transférer des données vers une zone de préparation.
- Collecter des données en respectant le RGPD.
- Préparer des données pour l'analyse en respectant les normes internes à l’entreprise.
Nous sommes employé, en tant que Data Analyst, d'un cabinet de consultant spécialisé dans la transformation digitale des entreprises. Ce dernier compte déjà plus de 150 salariés et est en phase de croissance importante. Il souhaite afficher une politique volontariste pour le développement de l'égalité femme-homme au sein du cabinet.
Automatiser la création d'un rapport de diagnostic sur l'égalité professionnelle à partir des données du Système d’Informations des Ressources Humaines (SIRH) en utilisant le logiciel Knime. Il faut créer un workflow permettant d'importer et de préparer les données, de générer un fichier CSV (respectant la RGPD) utilisable pour de futures analyses et créer les graphiques des indicateurs du diagnostic.
- Réaliser un test statistique.
- Réaliser une analyse bivariée pour interpréter des données.
- Analyser des séries temporelles.
Nous sommes consultant Data Analyst rattaché au service Marketing chez Lapage, une grande librairie généraliste en ligne très réputée. Devant le succès de certains de ses produits et l’engouement de ses clients, elle a décidé d’ouvrir un site de vente en ligne. Nous intervenons car l’entreprise souhaite faire le point après deux ans d’exercice.
Obtenir un jeu de données exploitables à partir des fichiers source, puis réaliser une analyse complète : chiffres clés, KPI, graphiques, etc.. Nous réalisons également plusieurs tests statistiques afin de vérifier la corrélation entre différentes variables liées au profil des clients.
- Gérer les erreurs et les incohérences présentes sur des données stockées.
- Classifier différents types de données.
- Réaliser une analyse univariée pour interpréter des données.
Dans le cadre de ce projet, nous sommes Data Analyst freelance en mission chez BottleNeck, un marchand de vin très prestigieux.
Obtenir un jeu de données cohérent et complet à partir des fichiers qui nous ont été fournis puis étudier les ventes de la boutique en ligne. Il faudra également réaliser une étude univariée sur les prix de ventes des produits.
- Rédiger et présenter une méthodologie d'exploration et d'analyse des données.
- Utiliser des librairies spécialisées pour les traitements data.
- Manipuler des DataFrames.
Nous intervenons en tant que Data Analyst au sein d'une équipe de chercheurs de la Food and Agriculture Organization of the United Nations (FAO) qui est une agence spécialisée de l'ONU menant des efforts internationaux vers l'élimination de la faim.
Réaliser une étude sur le thème de la sous-nutrition et livrer nos analyses.
- Mettre à jour un catalogue de données.
- Créer des tables dans une base de données.
- Effectuer des requêtes SQL pour répondre à une problématique métier.
- Créer le schéma d'une base de données.
- Charger des données dans une base de données.
Nous sommes Data Analyst chez Laplace Immo, un réseau national d’agences immobilières. Le directeur général est sensible depuis quelque temps à l’importance des données, et il pense que l’agence doit se démarquer de la concurrence en créant un modèle pour mieux prévoir le prix de vente des biens immobiliers.
- Créer le dictionnaire des données et le schéma relationnel normalisé.
- Modifier la base de données permettant de collecter les transactions immobilières et foncières en France, puis implémenter cette nouvelle base de données et enfin effectuer les requêtes SQL nécessaires aux analyses.