Este artículo trata sobre la historia de la predicción de la estructura de las proteínas, desde el Dogma de Anfinsen hasta el aprendizaje automático para predecir la estructura secundaria. Jinbo Xu desarrolló la primera red neuronal residual profunda fiable para calcular mapas de contacto y predecir la estructura tridimensional completa de las proteínas.
El Dogma de Anfinsen y la Predicción de la Estructura Proteica
Aunque las proteínas realizan casi todas las actividades vitales y son altamente eficientes, cada proteína solo puede ejecutar una tarea o un tipo de tarea, lo que genera una gran diversidad. Su estructura primaria es una cadena lineal que puede estar compuesta por 20 tipos de aminoácidos. Sin embargo, solo ejercen sus funciones biológicas tras plegarse en una estructura tridimensional específica.
En 1961, el bioquímico estadounidense Christian Anfinsen descubrió que ciertos químicos dirigidos a enlaces de hidrógeno y puentes disulfuro provocaban que la RNasa perdiera su estructura y actividad biológica. Si se eliminaban estos químicos, la RNasa desnaturalizada recuperaba su estado original. La desnaturalización y renaturalización repetidas de proteínas llevaron a Anfinsen a proponer una hipótesis: Bajo condiciones adecuadas, la cadena de aminoácidos se pliega automáticamente en su estado de mínima energía libre, estable ante perturbaciones leves del entorno; dicho estado reside en un valle sin otros estados de baja energía cercanos. La curva de energía libre se asemeja más a un embudo abrupto que a un fondo plano. (Actualmente, también existen algunas proteínas con plegamientos erróneos estables, como los priones relacionados con la enfermedad de las vacas locas). Por ello, también se denomina Dogma de Anfinsen o hipótesis termodinámica.
Esto sugiere que la información tridimensional de las proteínas ya está contenida en la secuencia de aminoácidos. Dado que el principio de que la estructura determina la función es especialmente relevante en las ciencias de la vida, también podemos inferir directamente la función proteica desde la secuencia aminoacídica e incluso sustituir ciertos aminoácidos para diseñar proteínas según nuestra voluntad.
El aprendizaje automático es poco fiable para predecir la estructura proteica
Hoy existen tres instrumentos experimentales para determinar estructuras tridimensionales proteicas: resonancia magnética nuclear, difracción de rayos X y microscopía crioelectrónica. Pero son costosos e ineficientes. Hacia 2010, solo se habían determinado alrededor de 100.000 estructuras proteicas. Estos datos se usan como secuencias homólogas para mejorar la predicción mediante IA de estructuras proteicas.
Este problema es tan complejo que los científicos optaron por predecir estructuras secundarias proteicas. Calculaban la probabilidad de que cada aminoácido apareciera en hélices α, láminas β, giros o bobinas aleatorias. Si cierta región de la secuencia contenía muchos aminoácidos propensos a formar hélices α, se pronosticaba que esa región era una hélice α. Este método ignora interacciones entre aminoácidos y tiene una precisión de solo ~50%. El ejemplo más representativo es el método Chou-Fasman de los años 1970. El método GOR no solo considera probabilidades, sino también efectos de 16 aminoácidos adyacentes sobre la estructura proteica. Sin embargo, ignora aminoácidos distantes y se limita a una única secuencia, por lo que su precisión no supera el 65%.
A principios de los 90, ya se habían analizado con precisión varios miles de estructuras proteicas. Se halló que estructuras de mayor nivel son más conservadoras que las primarias. Si la similitud entre dos secuencias aminoacídicas supera el 30%, se consideran homólogas con estructura y función similares. Si supera el 60%, hay motivos para creer que comparten la misma estructura. El algoritmo PHD considera secuencias homólogas, y características extraídas de la secuencia (como probabilidades, secuencias locales y propiedades fisicoquímicas) se introducen en una red neuronal BP que analiza la relación entre dichas características y la estructura secundaria proteica, como si procesara el contexto de una oración. La red neuronal BP de 3 capas no es aprendizaje profundo, y el PHD aún no considera información global, por lo que su precisión ronda solo el 70%.
RaptorX: Jinbo Xu inventó la primera IA fiable para estructuras proteicas
Antes de que surgiera el primer algoritmo de inteligencia artificial fiable RaptorX, ningún algoritmo era confiable para la predicción de estructuras proteicas. La precisión era solo de ~70%, y mucho menos para predecir estructuras tridimensionales.
De 2001 a 2006, la herramienta utilizada por Jinbo Xu fue la minimización de energía, cuyo concepto central es que la cadena de aminoácidos se pliega automáticamente en su estado de mínima energía. Es como empujar una pelota en la cima de una montaña: rodará inmediatamente hacia el valle. Diversas interacciones entre grupos laterales, como fuerzas de van der Waals, fuerzas electrostáticas, enlaces de hidrógeno, interacciones hidrofóbicas, etc., se describen mediante funciones de energía. Aunque la energía potencial mínima puede calcularse teóricamente con una computadora, este método depende enormemente de la comprensión de conceptos físicos y la construcción de modelos. Considerar todos los factores es difícil y se consumen grandes recursos computacionales. Funciona bien para moléculas pequeñas, pero no es adecuado para moléculas complejas cuyas predicciones distan mucho de los datos experimentales, especialmente proteínas con miles de átomos o más. Por tanto, Jinbo Xu creyó que la optimización energética no tenía futuro.
En consecuencia, Jinbo Xu se volcó al aprendizaje automático. Si la optimización de energía exige que los humanos guíen a la computadora paso a paso, el aprendizaje automático incentiva que esta aprenda por sí misma secuencias y estructuras proteicas conocidas, y descubra las leyes entre ellas para predecir estructuras desconocidas. Probó varios métodos, incluido el aprendizaje profundo altamente efectivo en reconocimiento de imágenes, pero los resultados fueron pobres. Entre 2006 y 2016, estos diez años fueron el período más oscuro del campo: se creía que la predicción de estructuras proteicas era irresoluble y se abandonaba el área; la financiación investigadora escaseaba; menos equipos participaban en la competencia CASP.
El avance llegó en 2016. _"Para una secuencia de 300 aminoácidos, el aprendizaje profundo previo solo usaba su información local para predecir su estructura"_ —dijo Jinbo Xu—. _"La clave es hacer que la IA utilice toda la información global desde el primer hasta el 300° aminoácido"_. Toda la información se resume en una matriz que se introduce en una red neuronal residual más profunda para calcular la distancia entre cada par de aminoácidos, generando una matriz llamada mapa de contactos (es una matriz con solo dos elementos, 1 y 0; si la distancia es menor a un umbral, como 8 Å, se consideran interactuantes y el elemento es 1; de lo contrario, 0). Luego, el mapa de contactos se introduce en software comercial de diseño proteico para obtener la estructura 3D.
Jinbo Xu usó su red neuronal residual especialmente diseñada para predecir la estructura de una proteína de membrana con más de 200 aminoácidos y halló que el error era de solo ~0.2 nanómetros, equivalente al ancho de dos átomos. ¿Por qué elegir proteínas de membrana? Deben insertarse en membranas biológicas para mantener sus formas efectivas, por lo que si no se extraen, no aparecen en las bases de datos. RaptorX, que involucra aprendizaje profundo, predice bien su estructura incluso sin usar datos del PDB para entrenamiento. Esto sugiere que la red neuronal de aprendizaje profundo realmente capturó algunas regularidades subyacentes tras comprender la información global.