Optimiser la production de protéines grâce à l’ingénierie protéique guidée par l’IA

Le département Digital & Data et les équipes BioData et BioEngineering du Lesaffre Institute of Science and Technology (LIST) ont développé une nouvelle approche de l'ingénierie des protéines en utilisant des modèles de langage protéique (PLM) guidés par l'IA. Cette technologie innovante fournit des informations précieuses sur la structure et la fonction des protéines, rationalisant le processus d'optimisation et réduisant les coûts de la recherche. En savoir plus sur cette collaboration.

Les enzymes sont au cœur de nombreuses applications chez Lesaffre, depuis la production de biocarburants, de substituts du pétrole pour la fabrication de matériaux plastiques, jusqu’aux molécules d’intérêt thérapeutique. L’ingénierie des protéines joue un rôle crucial dans ces applications. Un nouvel outil utilisant l’intelligence artificielle est développé par le département Digital & Data et les équipes BioData et BioEngineering du LIST.

Qu’est-ce que l’ingénierie des protéines ? 

L’ingénierie des protéines est le processus qui consiste à modifier intentionnellement la structure des protéines afin d’améliorer leurs propriétés ou de générer de nouvelles protéines. La structure d’une protéine est déterminée par sa séquence, c’est-à-dire l’ordre spécifique des « éléments constitutifs » appelés acides aminés qui composent la protéine. Les variants de séquence sont des versions modifiées de protéines dont la séquence d’acides aminés a été délibérément modifiée par édition du génome. L’ingénierie des protéines consiste à explorer différentes variants de séquence afin d’optimiser les propriétés d’une protéine, telles que son activité, sa stabilité ou son efficacité.

Une approche possible de l’ingénierie des protéines, offerte en particulier par la technologie Recombia est appelée mutagenèse par saturation de site. Elle consiste à générer et à tester expérimentalement tous les acides aminés alternatifs possibles à chaque position d’une séquence protéique initiale. Cependant, bien que séduisante par son caractère systématique, cette méthode nécessite une main-d’œuvre importante et conduit souvent à tester de nombreuses variants non pertinents.

Comment l’IA peut-elle améliorer l’ingénierie des protéines ?

L’utilisation de modèles de langage protéique (PLM) constitue une avancée technologique prometteuse dans le domaine de l’IA.

Un PLM est un algorithme informatique basé sur l’apprentissage automatique qui analyse de grandes quantités de données sur les séquences de protéines afin de fournir des informations précieuses sur les relations structure-fonction des protéines. Tout comme un modèle GPT tel que ChatGPT analyse les lettres de l’alphabet pour comprendre et prédire le langage textuel, un PLM analyse les acides aminés – les « lettres » du langage de la vie – pour modéliser le comportement des protéines et prédire comment des modifications spécifiques de la séquence d’une protéine peuvent affecter sa stabilité et sa fonction.

Les PLM permettent aux scientifiques d’optimiser les performances des protéines pour diverses applications et suscitent un intérêt considérable dans la communauté scientifique. L’une des principales caractéristiques des PLM est leur capacité à identifier de nouvelles variations de séquence qui pourraient être difficiles à identifier avec les méthodes traditionnelles.

Quels sont les avantages ?

L’ingénierie des protéines guidée par l’IA et s’appuyant sur les modèles de langage des protéines (PLM) fournit des informations fondées sur des données qui facilitent la prise de décisions éclairées sur les stratégies d’optimisation des protéines.

Dans le contexte de la mutagenèse par saturation de site, les PLM permettent aux chercheurs de cribler les mutations in silico et de classer par ordre de priorité les variants de protéines à expérimenter, ce qui réduit la charge de travail liée aux tests manuels et rend le processus de sélection des variants plus rentable.

Au-delà de la mutagenèse par saturation de site, l’IA et les PLM offrent de grandes possibilités d’accélérer encore l’ingénierie des protéines, ce qui permettra en fin de compte de fournir plus rapidement de meilleurs produits.

Quand cet outil sera-t-il lancé ? 

L’équipe D&D a publié le premier produit minimum viable (MVP) pour ce projet au début du mois de juillet. Cet outil sera utilisé par les équipes BioEngineering et BioData du LIST dans divers projets d’ingénierie métabolique liés à la fermentation de précision.