SciGraphRAG
Construction d'un graphe de connaissances depuis un corpus bibliographique en biostimulation, exploité par un LLM local pour l'inférence et l'évaluation automatique des réponses via scores LLM-as-a-Judge.
Interroger une littérature scientifique fragmentée
La littérature scientifique est par nature fragmentée. Chaque article est une isolé : il mobilise son propre vocabulaire, pose ses propres hypothèses, et ses liens avec le reste du corpus restent implicites. Un chercheur qui souhaiterait synthétiser plusieurs dizaines de papiers d’un même domaine doit lire, annoter, recouper manuellement les idifférentes informations, ce qui nécessiterait un travail de plusieurs jours.
L’approche RAG classique (Retrieval-Augmented Generation) atténue ce problème en découpant les documents en segments, en les encodant vectoriellement, puis en récupérant les passages les plus proches d’une requête. Mais cette approche a une limite structurelle : elle ne voit que des fragments, jamais le corpus dans son ensemble.
Une question qui croise deux articles distants thématiquement (par exemple “comment les exsudats racinaires du blé ancien influencent-ils les PGPR ?”) échappe à la recherche vectorielle si aucun segment unique ne contient les deux.
Le GraphRAG (Graph Retrieval-Augmented Generation) propose une réponse différente. Au lieu de récupérer des passages, il extrait des entités et des relations depuis l’ensemble du corpus, construit un graphe de connaissances, détecte des communautés thématiques, et permet au LLM d’interroger ce graphe lors de l’inférence. Le résultat est une capacité de raisonnement inter-documents qu’aucun RAG vectoriel ne peut égaler.
Initiallement développé par Microsoft, mon approche a été de reconstruire étape par étape le pipeline de génération de graphes en python afin d’avoir un contrôle total sur la logique de génération.
Ce projet teste cette approche sur un corpus réel de 25 articles en biostimulation végétale, avec évaluation quantitative des réponses par un LLM-as-a-Judge.
Corpus bibliographique d’exemple
Pour ce projet 25 articles sur la biostimulation végétale ont été utiliés. Ceux-ci couvrent un champ thématique centré sur les interactions plante-microbiome dans un contexte agronomique : bactéries rhizosphériques promotrices de croissance (PGPR), mécanismes de défense induite, génétique du blé, exsudats racinaires et résilience microbienne face aux stress environnementaux.
Les 25 articles sélectionnés couvrent des journaux de référence (Nature Plants, Applied and Environmental Microbiology, Soil Biology & Biochemistry, Molecular Ecology, Plant Cell & Environment) et s’étendent de 1999 à 2026, permettant de couvrir à la fois des travaux fondateurs et des résultats très récents.
Du corpus au graphe de connaissances : le pipeline GraphRAG
Le pipeline GraphRAG traite le corpus en plusieurs étapes successives :
1. Découpage et prétraitement. Les 25 documents sont segmentés en chunks avec chevauchement pour préserver le contexte des entités mentionnées en fin de segment.
2. Extraction d’entités et de relations. Un LLM parcourt chaque chunk et extrait les entités nommées (molécules, organismes, gènes, techniques, concepts) et les relations qui les lient (inhibe, produit, inocule, régule, exprime…). C’est l’étape la plus coûteuse : chaque chunk génère un appel au LLM.
3. Construction du graphe. Les entités et relations extraites sont consolidées dans un graphe global. Les entités identiques mentionnées dans plusieurs articles sont fusionnées — c’est ce mécanisme qui permet le raisonnement inter-documents.
4. Détection de communautés. Un algorithme de clustering (Leiden) identifie des groupes de nœuds fortement interconnectés dans le graphe : les communautés thématiques. Chaque communauté fait l’objet d’un résumé généré par le LLM.
5. Indexation. Les résumés de communautés et les entités sont encodés en embeddings vectoriels pour permettre la recherche sémantique au moment de l’inférence.
Pipeline
Corpus (25 PDFs)
↓ chunking (1500 tokens, overlap 200)
Segments textuels
↓ extraction LLM (Qwen-3 14b)
Entités + Relations
↓ fusion + déduplication
Graphe de connaissances
↓ clustering de Leiden
Communautés thématiques
↓ résumé LLM + embedding
Index GraphRAG
Paramètres
| Paramètre | Valeur |
|---|---|
| Modèle d’extraction | Qwen-3 14b-Q5_K_M |
| Température | 0 (déterministe) |
| Fenêtre de contexte | 8 196 tokens |
| Taille des chunks | 1 500 tokens |
| Chevauchement | 200 tokens |
| Documents traités | 25 |
| Durée de processing | 4,8 heures |
| Matériel | Ryzen 9 9950X3D, 2× RTX 5070 Ti (32 Go VRAM), dual GPU |
Le choix de Qwen-3 14b quantisé en Q5_K_M offre un bon équilibre entre précision d’extraction et débit : suffisamment capable pour extraire des entités scientifiques spécialisées (noms de molécules, gènes, organismes), suffisamment léger pour tourner en local à vitesse raisonnable en quantisation 5 bits.
L’ensemble de ce pipeline a été ré-implémenté from scratch en Python, indépendamment de la librairie officielle de Microsoft.
Ce choix était guidé par deux raisons :
Souveraineté technique. La librairie GraphRAG de Microsoft introduit des dépendances opaques sur Azure OpenAI et des appels cloud que cette architecture locale ne peut pas accepter. Ré-implémenter le pipeline garantit un contrôle total sur chaque étape (chunking, extraction, construction du graphe, clustering, indexation) sans aucune donnée sortant de l’infrastructure locale, avec un contrôle total sur le type de LLM utilisé.
Compréhension profonde du pipeline. Implémenter soi-même chaque étape force une maîtrise réelle des mécanismes. C’est cette compréhension qui permet d’adapter le pipeline à un domaine scientifique spécialisé : ajuster les prompts d’extraction, modifier les critères de fusion d’entités, ou brancher un modèle d’embedding spécialisé sans dépendre d’une API tierce.
Communautés sémantiques extraites
Sur les 25 articles, le pipeline a extrait ~14 000 concepts répartis en 8 communautés thématiques. Ces communautés ne sont pas définies manuellement : elles émergent de la structure relationnelle du graphe. Les descriptions ci-dessous sont générées automatiquement par le LLM depuis les entités et relations extraites du corpus.
La détection de ces communautés sans intervention manuelle confirme la cohérence thématique du corpus. La communauté la plus large (Microbial Plant Defense Mechanisms, 869 concepts) concentre les mécanismes moléculaires fins (DAPG, ISR, signalisation hormonale) qui constituent le cœur des interactions bactérie-plante étudiées. Les communautés plus spécialisées (PCR, germination) reflètent les méthodes expérimentales transversales à l’ensemble du corpus.
Visualisations
Le graphe de connaissances construit sur les 25 articles est directement visualisable.
Chaque nœud représente une entité extraite (organisme, molécule, gène, concept), chaque arête une relation détectée par le LLM. La densité des connexions reflète la richesse thématique du corpus : les nœuds les plus connectés (Pseudomonas fluorescens, DAPG, ISR) sont précisément les mécanismes moléculaires centraux de la biostimulation.
La vue globale révèle la structure en communautés : des clusters bien délimités correspondent aux groupes thématiques détectés par l’algorithme de Leiden. Le zoom sur un nœud individuel donne accès à ses relations directes, ses sources (articles d’origine) et son rôle dans les communautés auxquelles il appartient.
Inférences LLM avec GraphRAG
Pour évaluer l’apport du GraphRAG, la même question a été posée aux deux systèmes : un LLM standard (sans accès au corpus) et le LLM connecté au graphe de connaissances.
Trois outils ont été mis à disposition du modèle :
- Une recherche globale, pour interroger la totalité du graph
- Une recherche par noeuds, pour parcourir les relations entre les concepts
- La récupérer des communautés, de leurs résumés et entités en faisant partie
Via une boucle agentique, le modèle explore le graph pour répondre à la question posée par l’utilisateur de manière autonome, avec une logique de rétroaction sur sa propre génération.
Quelles sont les grandes tendances de l’évolution du microbiome racinaire entre les variétés anciennes de blé et les lignées modernes ?
GraphRAG
Les grandes tendances de l’évolution du microbiome racinaire entre les variétés anciennes de blé et les lignées modernes révèlent des différences marquées en termes de diversité microbienne, de fonctions adaptatives et de réponse aux stress environnementaux.
Diversité microbienne et adaptation aux stress : Les variétés anciennes de blé, étudiées dans la communauté “Interactions Plante-Environnement”, montrent une interaction étroite avec des bactéries rhizosphériques (comme les Plant Growth-Promoting Rhizobacteria ou PGPB) et des symbiotes comme P. macrospinosa (source : “Wheat Production and Nitrogen Fixation”). Ces microbiomes anciens sont probablement plus diversifiés, reflétant une adaptation naturelle aux conditions environnementales variées. En revanche, les lignées modernes, sélectionnées pour des traits agronomiques spécifiques (résistance aux pathogènes, tolérance à la sécheresse), présentent un microbiome plus spécialisé, favorisant des fonctions comme la fixation d’azote ou la résistance systémique induite (ISR) via des mécanismes comme la production de DAPG (source : “Microbial Plant Defense Mechanisms”).
Rôle des interactions microbiennes dans la résistance aux pathogènes : Les lignées modernes de blé intègrent davantage de mécanismes de défense microbiens, notamment l’induction de la résistance systémique (ISR) par des bactéries comme Pseudomonas fluorescens (source : “Plant-Microbe Defense Mechanisms”). Ces interactions sont souvent optimisées pour combattre des pathogènes spécifiques, comme Fusarium graminearum (source : “Wheat Production and Nitrogen Fixation”). Les variétés anciennes, en revanche, dépendent davantage de microbiotes naturels pour leur résistance, sans intervention ciblée (source : “Interactions Plante-Environnement”).
Adaptation aux changements climatiques et stress abiotiques : Les microbiomes des lignées modernes sont étudiés pour leur résilience face aux stress environnementaux (sécheresse, température) via des mécanismes comme la modulation des réponses hormonales et la production de métabolites antioxydants (source : “Microbial Resilience in Environmental Stress”). Les variétés anciennes, quant à elles, montrent une adaptation plus naturelle, souvent liée à des interactions symbiotiques non modifiées (source : “Interactions Plante-Environnement”).
Impact de la génétique du blé sur le microbiome : Les analyses génétiques (PCA, profils métaboliques) révèlent des corrélations entre les traits de qualité du blé (comme la teneur en protéines) et la composition du microbiome racinaire (source : “Wheat Genetics and Microbiome Analysis”). Les lignées modernes, sélectionnées pour des caractéristiques agronomiques, présentent des exsudats racinaires modifiés, influençant la sélection des microorganismes associés. Les variétés anciennes, plus génétiquement diversifiées, hébergent des microbiomes plus stables et résilients (source : “Wheat Genetics and Microbiome Analysis”).
Stratégies agricoles et méthodes de recherche : Les lignées modernes bénéficient de techniques comme l’inoculation de semences avec des diazotrophes ou des bactéries antagonistes, visant à améliorer la productivité (source : “Wheat Production and Nitrogen Fixation”). Les variétés anciennes, souvent étudiées via des approches écophysiologiques et transcriptomiques (source : “Interactions Plante-Environnement”), révèlent des interactions microbiennes moins manipulées, mais plus intégrées aux cycles naturels.
Conclusion : L’évolution du microbiome racinaire du blé reflète une transition d’une diversité naturelle et adaptative (variétés anciennes) vers une spécialisation fonctionnelle et une optimisation ciblée (lignées modernes), guidée par les besoins agricoles et les pressions environnementales. Ces tendances soulignent l’importance des interactions plante-microbiome dans la durabilité des systèmes agricoles.
LLM standard (sans corpus)
L’évolution du microbiome racinaire entre les variétés anciennes de blé (comme l’épeautre ou le blé sauvage) et les lignées modernes de blé (comme le blé dur ou le blé tendre cultivé) révèle plusieurs tendances majeures, liées à la domestication, aux pratiques agricoles et aux modifications génétiques.
1. Réduction de la diversité microbienne Anciennes variétés : Les variétés anciennes de blé, souvent plus génétiquement diverses, hébergent un microbiome racinaire plus diversifié. Cette diversité est favorisée par des exsudats racinaires variés (sucres, acides aminés, flavonoïdes), qui nourrissent une large palette de bactéries, champignons et protozoaires. Lignées modernes : Les variétés modernes, issues de l’amélioration génétique intensive, montrent une réduction de la diversité microbienne. Des études montrent une diminution de la richesse en espèces et une dominance de groupes microbiens spécifiques (ex. : Pseudomonas, Bacillus). Cela pourrait s’expliquer par une sélection pour des traits comme la croissance rapide ou la résistance aux maladies, qui modifient les exsudats racinaires.
2. Modifications des exsudats racinaires Anciennes variétés : Les exsudats des variétés anciennes (comme l’épeautre) contiennent une plus grande variété de molécules (acides organiques, flavonoïdes, phytoalexines), qui favorisent des interactions symbiotiques (ex. : mycorhizes, rhizobium) et une résistance naturelle aux pathogènes. Lignées modernes : Les variétés modernes, souvent sélectionnées pour des rendements élevés, produisent des exsudats plus spécialisés (ex. : plus de sucre simple, moins de molécules complexe), ce qui peut limiter la diversité des microbes capables de les métaboliser. Cela favorise des microbes spécialisés dans l’assimilation de nutriments (ex. : Rhizobium, Azospirillum), mais réduit l’équilibre écologique.
3. Impact des pratiques agricoles Anciennes variétés : Cultivées en systèmes agroécologiques traditionnels (rotation des cultures, lessivage naturel), les variétés anciennes bénéficient d’un microbiome plus résilient et adaptatif. Les pratiques comme l’agroforesterie ou l’agroecologie favorisent des interactions microbiennes complexes. Lignées modernes : L’utilisation intensive d’engrais chimiques, de pesticides et de monocultures réduit la diversité du microbiome. Les engrais azotés, par exemple, diminuent l’abondance des bactéries fixatrices d’azote (ex. : Rhizobium), tandis que les pesticides ciblent des pathogènes mais perturbent aussi les microbes bénéfiques.
4. Évolution des relations symbiotiques Anciennes variétés : Les variétés anciennes montrent une affinité accrue avec les mycorhizes arbusculaires (AMF), qui améliorent l’absorption des nutriments (phosphore, azote) et la résistance aux stress environnementaux. Elles bénéficient aussi de bactéries fixatrices d’azote (ex. : Rhizobium). Lignées modernes : Les variétés modernes, souvent sélectionnées pour leur autonomie en engrais, montrent une réduction des interactions symbiotiques. Les AMF sont moins présentes, et les bactéries fixatrices sont remplacées par des microbes spécialisés dans la dégradation de résidus organiques (ex. : Bacillus).
5. Résistance aux pathogènes et réponse immunitaire Anciennes variétés : Les variétés anciennes possèdent une résistance innée plus développée, soutenue par un microbiome compétitif (ex. : Streptomyces inhibant les pathogènes) et des exsudats antimicrobiens (ex. : phytoalexines). Lignées modernes : Les variétés modernes dépendent davantage de gènes de résistance (R-gènes) et de pesticides. Cela réduit la pression sur le microbiome pour fournir une résistance naturelle, ce qui peut favoriser une communauté microbienne moins diversifiée et plus vulnérable aux pathogènes émergents.
6. Implications fonctionnelles et agricoles Anciennes variétés : Leur microbiome est souvent associé à une meilleure résilience face aux stress (sécheresse, salinité) et à une efficacité accrue d’absorption des nutriments, grâce aux interactions symbiotiques. Lignées modernes : Leur microbiome est plus spécialisé dans la dégradation de résidus organiques et l’assimilation de nutriments, mais moins résilient face aux perturbations (changement climatique, pollution). Cela soulève des questions sur la soutenabilité des systèmes agricoles modernes, où le microbiome pourrait devenir un levier pour améliorer la fertilisation naturelle (ex. : inoculation de bactéries fixatrices).
Synthèse et perspectives Les tendances observées reflètent une adaptation du microbiome racinaire aux pressions de domestication et de modernisation agricole. Si les lignées modernes offrent des rendements élevés, leur microbiome moins diversifié pourrait rendre les cultures plus vulnérables aux changements environnementaux. Cela ouvre des pistes de recherche pour reconcilier amélioration génétique et préservation du microbiome (ex. : sélection de variétés favorisant la symbiose mycorhizienne, ou utilisation de biofertilisants).
La réponse GraphRAG ancre chaque affirmation dans une communauté précise du graphe, citant DAPG (Pseudomonas fluorescens CHA0), ISR, Fusarium graminearum et P. macrospinosa — des entités effectivement présentes dans les papiers indexés. La réponse standard est pédagogiquement correcte mais reste au niveau du manuel : “sucres, acides aminés, flavonoïdes”, “engrais chimiques”, “Bacillus”. Elle comporte aussi une imprécision notable — Rhizobium est mentionné comme symbiote du blé moderne, alors que cette bactérie est spécifique aux légumineuses et n’a pas de relation de fixation d’azote établie avec le blé. C’est le type d’erreur plausible mais factuellement inexacte qu’un modèle génère hors de tout corpus ancré.
Résultats de l’évaluation
Évaluation humaine (Human-in-the-loop)
| Critère | IA standard | GraphRAG |
|---|---|---|
| Précision scientifique | Généralités (“engrais”, “sucres”) | Spécificités (“DAPG”, “ISR”, “Rht”) |
| Fidélité aux sources | Risque d’hallucination (“rhizobium”) | Ancrage total dans le corpus |
| Complexité | Vision binaire (moderne vs ancien) | Nuance (spécialisation vs diversité) |
| Analyse relationnelle | Aucune citation directe | Relie les articles entre eux |
| Conclusion | Pédagogie superficielle | Aide à la décision |
RAGAS — LLM-as-a-Judge (Gemini 3 Thinking)
| Métrique | IA standard | GraphRAG |
|---|---|---|
| Faithfulness | 0.72 | 0.95 |
| Answer Relevance | 0.85 | 0.92 |
| Context Recall | 0.60 | 0.94 |
| Comprehensiveness | Low | High |
| Semantic Connectivity | 0.15 | 0.88 |
Note : Ces scores sont issus d’une évaluation préliminaire par Gemini 3 Thinking comme juge LLM. Une confirmation via la librairie RAGAS (Es S. et al., arXiv:2309.15217) est en cours.
L’écart le plus frappant concerne la Semantic Connectivity : 0.15 pour le LLM standard contre 0.88 pour le GraphRAG. C’est exactement ce que le graphe de connaissances est conçu à produire — des réponses qui relient des concepts à travers plusieurs documents, là où le RAG vectoriel classique reste prisonnier des segments individuels.
Extension à un corpus plus dense et exploration manuelle du graph
Au-delà de son usage dans un pipeline RAG, un graphe de connaissances offre une valeur propre pour l’exploration visuelle d’un corpus. Parcourir le graphe à la main permet de repérer des connexions inattendues entre concepts, d’identifier les nœuds centraux d’un domaine et de naviguer d’un article à l’autre par le biais des entités partagées — une forme d’exploration que ni la recherche plein texte ni le RAG vectoriel classique ne permettent aussi naturellement.
Le graphe est visualisé via une interface Node.js construite autour de Sigma.js, intégrée directement dans Nexus. Chaque nœud est cliquable : un panneau latéral affiche ses relations directes, les articles sources et les communautés auxquelles il appartient. Le corpus utilisé ici est différent du corpus biologique : il s’agit d’un ensemble de 30 thèses universitaires en photochimie, ce qui illustre la généricité du pipeline sur des domaines scientifiques variés.
Ce graphe, généré sur 30 thèses universitaires en photochimie, comprend près de 43 000 nœuds. À cette échelle, la navigation linéaire dans un corpus (lecture, recherche plein texte) devient impraticable.
Le graphe offre ainsi une alternative : partir d’un concept connu, suivre ses connexions vers des entités voisines, basculer d’une communauté thématique à l’autre. Chaque clic révèle les articles sources, les relations directes et les groupes thématiques auxquels le nœud appartient. L’exploration est ainsi faite par association, en naviguant domaine par domaine.
De la même manière que pour le corpus biologique, l’algorithme de Leiden détecte automatiquement les communautés thématiques. Chaque couleur correspond à un groupe de concepts fortement interconnectés, que l’interface permet de filtrer et d’explorer indépendamment. utile pour naviguer dans un corpus dense sans se perdre dans la globalité du graphe.
L'interface développée propose plusieurs thèmes visuels, utiles pour adapter la lisibilité selon la densité du graphe ou les préférences de l'utilisateur.
Cliquez pour afficher les différentes visualisations.
Comme évoqué plus haut, l’exploration manuelle du graphe peut s’accompagner d’une inférence LLM directement ancrée sur les nœuds sélectionnés. L’utilisateur navigue visuellement jusqu’à un concept ou un cluster, puis interroge le LLM sur cette sélection précise. Le contexte transmis au modèle est constitué uniquement des entités et relations visibles, ce qui réduit le bruit et améliore la pertinence des réponses.
Limites et perspectives
Qualité de l’extraction. Le modèle Qwen-3 14b en quantisation 5 bits offre de bonnes performances d’extraction sur un corpus scientifique spécialisé, mais reste inférieur à un modèle dédié ou fine-tuné sur la littérature biomédicale. Des entités ambiguës (noms d’organismes, acronymes) peuvent être mal résolues ou dupliquées dans le graphe. L’utilisation d’un modèle spécialisé pour l’extraction (type BioNER fine-tuné) constitue une amélioration directe envisagée.
Taille du corpus. 25 articles constituent un corpus pilote. Le GraphRAG prend toute sa dimension sur des corpus de centaines à milliers d’articles, où la détection de communautés et le raisonnement inter-documents deviennent irremplaçables. La scalabilité du pipeline sur un corpus de 500+ documents est la prochaine étape.
Évaluation. Les scores RAGAS présentés ici sont issus d’une évaluation préliminaire. Une campagne d’évaluation systématique avec des questions de référence annotées manuellement permettrait de valider ces chiffres de façon plus rigoureuse.
Embeddings. Les embeddings utilisés pour l’indexation reposent actuellement sur le modèle générique intégré à GraphRAG. Un modèle d’embedding spécialisé en texte scientifique (SciBERT, BGE-M3, ou un modèle fine-tuné sur la littérature agronomique) améliorerait la précision de la récupération sémantique.
Ce projet s’inscrit dans la continuité directe de Nexus, l’écosystème de veille bibliographique assistée par IA, dont SciGraphRAG constitue le module de représentation sémantique avancée.
Stack technique
| Outil | Rôle |
|---|---|
| GraphRAG (paquet recréé, inspiré du projet Microsoft) | Pipeline complet : extraction d’entités, construction du graphe, détection de communautés, indexation |
| Qwen3-14b et Qwen3.5-9b | LLM locaux pour l’extraction et l’inférence |
| Ollama | Serveur LLM local et inférence GPU |
| RAGAS | Framework d’évaluation automatique des systèmes RAG (LLM-as-a-Judge) |
| Librairies et frameworks | Python : LangChain, pymupdf, spaCy, FastAPI+uvicorn ; Node.js, Electron |
| Matériel | Ryzen 9 9950X3D, 2× RTX 5070 Ti (32 Go VRAM), CUDA 12.8 |
Références
-
Es S. et al., « Ragas: Automated Evaluation of Retrieval Augmented Generation », arXiv:2309.15217, 2023.
-
Edge D. et al. (Microsoft Research), « From Local to Global: A Graph RAG Approach to Query-Focused Summarization », arXiv:2404.16130, 2024.
-
Traag V.A., Waltman L., van Eck N.J., « From Louvain to Leiden: guaranteeing well-connected communities », Scientific Reports, 2019. DOI : 10.1038/s41598-019-41695-z