Repeticiones en proteínas: una clave para comprender el comportamiento de la naturaleza

Investigadores del ICC estudian la arquitectura de las proteínas que se encuentra en la naturaleza mediante la aparición de patrones de repetición en familias de proteínas e intentan responder qué es lo que hace que una secuencia de aminoácidos se comporte como una proteína. Para ello, establecieron una definición matemática de familiaridad entre secuencias y en base al trabajo con ciertas familias específicas de proteínas lograron desarrollar una herramienta para verificar si la secuencia de aminoácidos tiene ciertas chances de funcionar como proteína o no. El proyecto resulta un puntapié inicial para entender los mecanismos biológicos subyacentes en cualquier organismo vivo.

Sin lugar a dudas, cuando la computación y la biología se encuentran resulta una combinación imparable: permiten encontrar nuevas soluciones algorítmicas o de modelado de problemas biológicos complejos. Justamente dentro del área de Modelado y Simulación, investigadores del Instituto abarcan una línea de trabajo vinculada a un problema central de los mecanismos biológicos: las proteínas.

Normalmente, las moléculas de proteínas se describen como secuencias finitas compuestas de unos elementos denominados aminoácidos. Generalmente se pueden observar en estas secuencias 20 tipos de aminoácidos distintos, aunque en realidad se componen de muchos tipos más pero que son poco probables de observar.

No obstante, existe un hecho intrigante en la dinámica molecular: la mayoría de las secuencias de aminoácidos (llamadas también polipéptidos) conocidas comúnmente y que se encuentran en la naturaleza, parecen indistinguibles de secuencias de aminoácidos generadas al azar. Sin embargo, si se sintetiza en un laboratorio un polipéptido ubicando sus aminoácidos de manera aleatoria en la secuencia, es altamente probable que esta cadena no se comporte como una proteína, es decir, no se va a plegar a estructuras específicas ni va a funcionar en un contexto celular. Por lo tanto, reducir la descripción de las proteínas a secuencias lineales de aminoácidos individuales, hace perder un aspecto fundamental a la hora de explicar la biofísica, ciertamente compleja, del plegamiento y la función de dichas proteínas.

“Nuestra pregunta se resume en entender qué es lo que hace que una secuencia de aminoácidos se comporte realmente como una proteína”, comenta Pablo Turjanski, investigador del ICC y profesor del Departamento de Computación. Una manera de responder esa pregunta sería realizar una síntesis experimental, tarea que conlleva sus dificultades: “Supongamos que tenemos sólo secuencias de 100 aminoácidos de longitud, podríamos intentar sintetizar en el laboratorio todas las secuencias posibles y ver si se comportan como proteínas. El problema es que si consideramos sólo 20 aminoácidos más comunes, tendríamos que generar 20 elevado a la 100 secuencias (20^100), lo cual es imposible de realizar de manera experimental”, puntualiza Turjanski.

Ante esta situación, los investigadores buscan “códigos estructurales” en secuencias de proteínas, considerando qué relaciones aparecen entre los patrones de grupos de aminoácidos. Pero se trata de una tarea que se vuelve combinatoriamente prohibitiva para analizar exhaustivamente en todas las secuencias de proteínas. Tal es así que se han realizado diversas heurísticas para resolver este problema, que permiten agrupar a las proteínas en familias e incluyen la alineación múltiple de secuencias.

Considerando que la arquitectura de las proteínas encontrada en la naturaleza puede analizarse mediante la aparición de patrones de repetición entre ellas, los científicos propusieron una definición matemáticamente rigurosa de repetición y desarrollaron un método para caracterizar las proteínas. “El método propuesto no requiere parámetros de ajuste (como los asociados a los métodos que utilizan alineamiento de secuencias) y tiene una complejidad computacional casi lineal con el tamaño de la entrada, lo que permite realizar una búsqueda exhaustiva y eficiente. Al mismo tiempo, propusimos el concepto y la definición de una función de familiaridad continua que proporciona una cuantificación rápida de la probabilidad de que una secuencia de aminoácidos pertenezca a un conjunto de secuencias dado”, explica el investigador del ICC y doctor en ciencias de la computación (quien comenzó trabajando en este problema junto a la investigadora Dra. Verónica Becher).

Esta función de familiaridad se calcula a partir de la búsqueda y coincidencia de repeticiones maximales en conjuntos de secuencias. “Nuestros resultados mostraron que, es posible detectar diferencias entre familias naturales de proteínas y secuencias aleatorias de aminoácidos y que para ello alcanza con tener en cuenta pequeños patrones de repetición”, afirma Turjanski y aclara que las restricciones halladas que deberían cumplir las secuencias de aminoácidos para comportarse como una proteína, son condiciones necesarias pero no suficientes para comportarse como una proteína, ya que aún se encuentran trabajando para ampliar estas restricciones. En este sentido, el proyecto de investigación va en dirección a tratar de entender cuáles son las leyes de funcionalidad de estas secuencias de aminoácidos e incluso conocer si existen nuevas combinaciones entre secuencias que aún no hayan sido estudiadas.

Pablo Turjanski

Actualmente Turjanski se encuentra en colaboración con el Laboratorio de Física de las Proteínas del Departamento de Química Biológica (FCEyN, UBA-CONICET-IQUIBICEN) dirigido por los doctores Ignacio Sánchez y Diego Ferreiro. Este grupo tiene la capacidad de realizar experimentos de síntesis de proteínas y, entre otros temas, trabaja con una familia de proteínas denominadas ankyrinas, cuyo motivo evidente de repetición es de alrededor de 33 aminoácidos. A partir de la sinergia con los investigadores de Química Biológica, lograron que antes de realizar la síntesis de una proteína tengan al alcance una herramienta de cómputo, para verificar si la secuencia de aminoácidos tiene ciertas chances de funcionar como proteína o no.

Los avances del proyecto se ubican aún en el campo de las ciencias básicas. Contar con la posibilidad de entender estos mecanismos biológicos es clave para el estado actual de la ciencia, que indaga permanentemente sobre las leyes estructurales que rigen en organismos vivos -desde seres humanos y animales, hasta plantas, vegetales, hongos y bacterias.

Por último, en cuanto a la aplicación posible de estas investigaciones, cabe recalcar que en la actualidad existen empresas de investigación y desarrollo que sintetizan proteínas, con secuencias que a priori no han sido encontradas en la naturaleza (en el caso de aquellas derivadas de las proteínas ankyrinas naturales, se denominan DARPins) y que son utilizadas para combatir ciertas enfermedades.

Publicaciones relevantes de los investigadores del ICC

-P. Turjanski; D. Ferreiro. On the Natural Structure of Amino Acid Patterns in Families of Protein Sequences. J. Phys. Chem. B, 122 (49), pp 11295–11301 (Sep. 2018).

-P. Turjanski; R.G. Parra; R. Espada; V. Becher; D. Ferreiro. Protein Repeats from First Principles, Sci. Rep. 6, 23959; doi: 10.1038/srep23959 (Abr. 2016).