Data Science
Développement de modèles prédictifs, analyse et visualisation de données complexes, applications ML/DL pour la recherche scientifique.
Spécialisé dans les sciences de la vie, de la matière, et en modèles complexes pour la prédiction de propriétés et d'activités physico-chimiques et biologiques.
La Data Science appliquée à la recherche scientifique ne se réduit pas à des tableaux de données standards.
Les structures moléculaires, les spectres, les séries temporelles expérimentales ou les graphes d’interactions biologiques nécessitent des approches spécifiques, et donc une compréhension du domaine pour interpréter les résultats de façon pertinente.
Mon parcours scientifique universitaire, combiné à mes compétences en Data Science et IA, me permettent d’intervenir à la fois sur la dimension technique et sur la compréhension du contexte scientifique.
Prestations proposées
Conseil stratégique
Pour les équipes qui souhaitent structurer leur approche de la donnée :
- Audit des données disponibles : identifier ce qui est exploitable, ce qui manque, ce qui peut être collecté
- Définition de cas d’usage réalistes : aligner les ambitions avec les ressources et la qualité des données
- Choix d’outils et d’infrastructures : stack technique adaptée aux besoins (cloud, local, open-source vs propriétaire)
- Bonnes pratiques : versioning des données, reproductibilité des expériences, documentation des modèles, évaluation rigoureuse
- Acculturation des équipes : comprendre ce que les modèles font réellement, et leurs limites. Voir les prestations de formations.
Analyse et visualisation de données
Exploration, nettoyage et structuration de jeux de données scientifiques complexes. Visualisations avancées pour faire émerger des tendances, identifier des anomalies ou présenter des résultats de façon claire à des audiences variées (équipes scientifiques, partenaires industriels, comités de financement).
Modèles prédictifs sur données scientifiques
Développement de modèles ML/DL adaptés à vos données : régression, classification, modèles ensemblistes, réseaux de neurones profonds.
Une attention particulière est portée aux problèmes spécifiques aux données scientifiques : faibles volumes de données étiquetées, déséquilibres de classes, nécessité d’interprétabilité des prédictions.
Domaines d’application : chimie médicinale, agrochimie, photochimie, sciences des matériaux, biologie structurale.
Architectures avancées pour données scientifiques complexes
Les données scientifiques sont rarement des tableaux plats, et les modèles classiques peinent à en capturer la richesse structurelle.
Les GNNs (Graph Neural Networks) traitent directement les données en graphe (molécules, réseaux d’interactions biologiques, structures cristallines) en propageant l’information le long des connexions plutôt qu’en aplatissant la structure.
Les PINNs (Physics-Informed Neural Networks) intègrent les équations physiques connues (EDOs, EDPs, lois de conservation) directement dans l’entraînement, ce qui permet de construire des modèles fiables même avec peu de données expérimentales, particulièrement utile pour modéliser des cinétiques de réaction ou des phénomènes photochimiques.
Enfin, les RNNs et LSTMs sont conçus pour les séries temporelles : suivi spectroscopique in situ, profils chromatographiques, monitoring de procédé, ou séquences biologiques. Ces modèles excellent là où les dépendances temporelles sont essentielles à capturer.
Pour une discussion approfondie sur l’intérêt de ces architectures dans les sciences, voir l’article Comment le Deep Learning décode les lois de la physico-chimie ?, et le projet BioGNN pour un exemple concret.
Contact
Une question sur la faisabilité de votre projet de Data Science, ou envie d’explorer les possibilités ensemble ?
Contactez-moi pour discuter de votre projet, et recevoir un devis personnalisé.
TJM : 500€