proteine-structure
— Christoph Burgstedt / Shutterstock.com

Un an seulement après avoir déterminé la structure de la quasi-totalité des protéines composant le corps humain, l’intelligence artificielle AlphaFold a pu prédire celle de plus de 200 millions de ces macromolécules.

Un défi majeur

Effectuant un nombre incalculable de processus biologiques essentiels à la vie, les protéines sont en quelque sorte les bêtes de somme des cellules vivantes. Celles-ci sont constituées de chaînes d’acides aminés qui se plient en formes tridimensionnelles complexes, déterminant leur fonction. Des calculs aussi complexes nécessitant une énorme puissance de traitement et des heures de travail humain, le « problème du repliement des protéines » a représenté pendant de longues décennies un défi scientifique majeur.

Tout s’est accéléré grâce à l’intelligence artificielle AlphaFold. Initialement entraîné sur 100 000 structures protéiques connues, cet algorithme a développé la capacité de prédire la structure unique de plusieurs millions d’autres protéines, en l’espace de quelques secondes ou minutes, au lieu de mois ou années.

La première base de données d’AlphaFold a été rendue publique en juillet 2021. Comprenant à l’origine plus de 350 000 structures protéiques (dont environ 98,5 % des protéines humaines ainsi que celles trouvées chez la drosophile, la souris, la levure et E. coli), celle-ci a été rapidement étendue, intégrant environ un million de structures protéiques provenant de 10 000 espèces d’animaux, de plantes, de bactéries, de champignons et d’autres organismes. Au cours de l’année écoulée, plus de 500 000 scientifiques du monde entier ont été amenés à la consulter afin d’accélérer leurs recherches.

protéine structure
— Christoph Burgstedt / Shutterstock.com

AlphaFold prédit 214 millions de structures protéiques

Sa dernière mise à jour massive porte ce total à 214 millions de structures protéiques provenant d’un million d’espèces, soit la quasi-totalité des protéines actuellement connues de la science. Selon DeepMind, disposer d’une telle base de données constitue un atout considérable pour la recherche sur les maladies, les vaccins, la résistance aux antibiotiques et même la pollution plastique.

« AlphaFold a déjà permis d’importantes découvertes, incluant le décryptage du complexe du pore nucléaire humain, qui régule le transport des macromolécules entre le noyau et le cytoplasme de la cellule eucaryote et se compose de plus de 1 000 sous-unités protéiques », explique Eric Topol, du Scripps Research Translational Institute. « Avec cet ajout massif de structures protéiques, nous pouvons nous attendre à ce que de nouveaux mystères biologiques soient résolus chaque jour. »

L’intégralité de la base de données des structures protéiques, dépassant les 25 téraoctets, peut être téléchargée sur Google Cloud Public Datasets.

S’abonner
Notifier de
guest
0 Commentaires
Inline Feedbacks
View all comments