Ce repo. s'adresse à toutes les personnes qui aspirent à faire leur début en science des données (ou en Intelligence Artifcielle).
Vous pouvez le lire ici en cliquant sur les fichiers ou, en le télechargeant (clone du repo) et en l'ouvrant avec des applications appropriées.
il y'aura surement des fautes d'orthographes dans ce repo, avec le temps j'essayerai de faire une lecture complète et d'y apporter des modifications. :-)
- La science des donnes est tout simplement : l'ensemble (l'art de manier des outils) des mathématiques et des statistiques qui aident à (dans le but de) mettre en oeuvre des algorithmes d'intelligences artificielles.
C'est la raison pour laquelle les Data Scientists (Scientifiques de la Donnée) ont tendance à parler d'intelligence artificielle ... d'ailleurs, retenez qu'il n'existe pas d'intelligence artificielle, il n'existe que des données (vous comprendrez un jour)!!!
La Science des données est alors à l'intersection entre : les maths, les stats, l'intelligence artificielle (le machine learning, le deep learning).
-
L'intelligence artificielle : est un domaine vaste ("il n'existe pas d'experts en intelligence artificielle puisque chaque jour il y'a quelque chose de nouveau ou un nouveau domaine de la vie dans le quel on y trouve une applicaiton de l'I.A. ce qui implique que personne ne détient une connaissance infuse de ce domaine":disent les pionniers de l'I.A.), on y retrouve plusieurs disciplines tel que : le machine learning, le deep learning (qui est inclut dans le machine learning et c'est pour cela qu'on l'appele aussi : Machine Learning Avancé) qui sont des ensembles de techniques, de règles que l'on associe à d'autres disciplines de l'intelligence artificielle comme : la vision par ordinateur (Computeur Vision), le traitement automatique de la langue naturelle (TALN ou NLP), Traitement de la parole(speech), systèmes experts et multi-agent, la Robotique, etc...
-
Mais concernant la Robotique, il faut souligner que, la Data Science ne s'y intéresse pas. Par contre, elle étudie une branche des mathématiques qu'on appelle l'Optimisation Mathématique (Optimisation, Optimisation Combinatoire,...) qui sont des paradigmes de la Recherche Opérationelle et qui sont repris dans une technique d'intelligence artificielle qui s'appelle "Reinforcement Learning (apprentissage par renforcement)" principalement utilisé pour les Robots. Mais l'apprentissage par reinforcement ne sert pas qu'aux Robots, on peut les utiliser pour plusiseurs choses différentes : planification, etc.
-
Enfin, un data scientist n'a pas pour vocation à faire ce que le data engineer et le data analyst font mais, il faut savoir que généralement les data scientists, ont les 3 casquettes (Capacité à faire de l'ingénierie, capacité à aborder des sujets scientifiquement avec des outils appropriés (les maths,..) , capacité à faire des visualisations et de l'analyse) surtout si ces derniers ont eu un parcours antérieur entant que développeur et qui savent bien critiquer les situations, les faits, les résultats ... et oui, pourquoi faire des choix quand on peut tout avoir ? (^.^)....
Dans ce dossier vous trouverez, un fichier README qui reprend les prérequis (essentiels et à minima...si vous voulez avoir plus de détails n'hesitez pas de jeter un coup d'oeil dans mes autres repos.)
Dans ce dossier vous trouverez l'ensemble des images qui expliquent (en image), les métiers, la discipline IA, et d'autres mots-clés qui reviennent souvent.
Ce dossier est sans doute mon préféré, ce contenu n'est pas exhaustif !!!
- On y aborde les salaires annuels bruts des data scientists
- Les missions : vous trouverez une diversité de missions pour des offres de Stage, d'Alternance, de CDI, de Thèse de certaines entreprises (Canal +, BNP Paris, Orange, etc.). L'objectif est que vous ayez une idée des missions d'un Data Scientist, afin que vous compreniez que faire de la Science des Données c'est faire de l'intelligence artificielle et bien plus.
- Les opportunités : Dans cette partie, vous trouverez des sites d'offres d'emplois, d'opportunités (en plus de ce que vous avez dans la rubrique précédente), de télétravail (élligible en fonction du lieu d'habilitation), etc.
- Use case (Cas d'utilisation) : ici vous avez l'exemple d'une discipline de l'IA qu'on appelle "Sport Analytics", vous trouverez des articles sur le PSG (Paris Saint-Germain), un papier de recherche Scientifique sur l'IA utilisé par le FC Liverpool en partenariat avec DeepMind (Qui appartient à Meta), etc.
- Enfin le dernier bloc qui ramène vers mon Github et un site web qui reprend des papiers de recherche en IA.
- Kaggle est une plateforme de compétitions en IA, Science des Données, qui met à votre disposition des challenges avec des récompenses, des datasets (bases de données), etc.
- Nous avons crée une équipe de passionnées avec des amis (DS4A : Data Science for All), depuis 2021. L'objectif de ce collectif qui contient des Data Scientists débutant (en formation), Junior (professionnel), Senior ou Lead (confirmé) et, des Phds Students, est de grandir dans le métier en propulsant également la communauté congolaise (dont je suis issue) présente sur Zindi. Zindi est une plateforme de challenge en Sciene des Données et IA, c'est une alternative à Kaggle pour résoudre des problèmes Africains en utilisant l'IA. Vous pouvez également y trouver des offres d'emplois dans "Jobs". Et si vous êtes intéressé pour compétir, écrivez-moi.
Ce repo va s'améliorer avec le temps, d'autres contributeurs seront associés à ce projet, pour l'instant je ne peux pas fournir plus suite à plusieurs contraintes.
Par contre, vous avez ici, un protocol expérimental rigoureux et basic (mais pas le moindre non plus), qui permet de résoudre un problème de machine leanring en apprentissage supervisé. Pour en savoir plus, je vous conseille de jeter un coup d'oeil sur mes repos d'apprentissage automatique.
Sinon, allez plus loin en lisant des livres.
Les non-dits...je suis gentille, ne me remerciez-pas ;-) .
Partie 7 (en rédaction) : Les livres à lire (prochaine partie...elle sera disponible dans la version 3)
Quelques pionniers et personnes importantes ou intéressantes à lire ou à suivre dans le domaine de l'intelligence artificielle
- Geoffrey Hinton : les machines de Boltzmann, t-SNE
- Yann Le Cun : CNN
- Fei-Fei Li : ImageNet
- Andrej Karpathy : CNN for Visual Recognition
- Hugo Larochelle : Tuto (cours)
- Yoshua Bengio : LSTM et AM
- Christoph Molnar : XAI
- Thierry Paquet : NLP
- Laurent Heutte : ML
- Sébastien Adam : GNN
- Ian Goodfellow : GAN
Ketsia Mulapi. 2022.