Investigadores utilizan algoritmos de procesamiento de lenguaje natural (PLN) para predecir las mutaciones del virus SARS-CoV-2
Por el equipo editorial de LabMedica en español Actualizado el 19 Jan 2021 |

Imagen: Los investigadores utilizan algoritmos de PLN para predecir las mutaciones del virus SARS-CoV-2 (Fotografía cortesía de Baidu)
Los algoritmos de procesamiento de lenguaje natural (PLN) ahora pueden generar secuencias de proteínas y predecir mutaciones de virus, incluidos cambios clave que ayudan al virus SARS-CoV-2 a evadir el sistema inmunológico.
La idea clave que hace que esto sea posible es que muchas propiedades de los sistemas biológicos se pueden interpretar en términos de palabras y oraciones. En los últimos años, un puñado de investigadores ha demostrado que las secuencias de proteínas y los códigos genéticos pueden modelarse utilizando técnicas de PLN. Ahora, los biólogos computacionales del Instituto Tecnológico de Massachusetts (MIT; Cambridge, MA, EUA) reunieron varias de estas cadenas y utilizan la PLN para predecir mutaciones que permiten que los virus eviten ser detectados por anticuerpos en el sistema inmunológico humano, un proceso conocido como escape inmunológico viral. La idea básica es que la interpretación de un virus por un sistema inmunológico es análoga a la interpretación de una oración por un humano.
El equipo utiliza dos conceptos lingüísticos diferentes: gramática y semántica (o significado). La aptitud genética o evolutiva de un virus, características tales como lo bueno que es para infectar a un huésped, se puede interpretar en términos de corrección gramatical. Un virus infeccioso exitoso es gramaticalmente correcto; uno que no tiene éxito no lo es. Del mismo modo, las mutaciones de un virus se pueden interpretar en términos de semántica. Las mutaciones que hacen que un virus parezca diferente a las cosas en su entorno, como cambios en las proteínas de su superficie que lo hacen invisible para ciertos anticuerpos, han alterado su significado. Los virus con diferentes mutaciones pueden tener diferentes significados, y un virus con un significado diferente puede necesitar diferentes anticuerpos para leerlo.
Para modelar estas propiedades, los investigadores utilizaron una LSTM, un tipo de red neuronal que es anterior a las basadas en transformadores utilizadas por modelos de lenguaje grandes como GPT-3. Estas redes más antiguas se pueden entrenar con muchos menos datos que los transformadores y aún funcionan bien para muchas aplicaciones. En lugar de millones de frases, entrenaron el modelo de PLN en miles de secuencias genéticas tomadas de tres virus diferentes: 45.000 secuencias únicas para una cepa de influenza, 60.000 para una cepa de VIH y entre 3.000 y 4.000 para una cepa del virus SARS-CoV-2.
Los modelos de PLN funcionan codificando palabras en un espacio matemático de tal manera que las palabras con significados similares están más juntas que las palabras con significados diferentes. Esto se conoce como incrustación. En el caso de los virus, la incrustación de las secuencias genéticas agrupaba los virus según la similitud de sus mutaciones. El objetivo general del método es identificar mutaciones que podrían permitir que un virus escape de un sistema inmunológico sin hacerlo menos infeccioso, es decir, mutaciones que cambian el significado de un virus sin hacerlo gramaticalmente incorrecto.
Para probar su método, el equipo utilizó una métrica común para evaluar las predicciones realizadas por modelos de aprendizaje automático que puntúan la exactitud en una escala entre 0,5 (nada mejor que la casualidad) y 1 (perfecto). En este caso, tomaron las principales mutaciones identificadas por la herramienta y, utilizando virus reales en un laboratorio, comprobaron cuántas de ellas eran mutaciones de escape reales. Sus resultados variaron de 0,69 para el VIH a 0,85 para una cepa de coronavirus. Esto es mejor que los resultados de otros modelos de última generación, según los investigadores.
El equipo ha procesado modelos con nuevas variantes del coronavirus, incluida la llamada mutación del Reino Unido, la mutación del visón de Dinamarca y variantes tomadas de Sudáfrica, Singapur y Malasia. El uso de PLN acelera un proceso lento. Anteriormente, el genoma del virus tomado de un paciente con COVID-19 en el hospital podía secuenciarse y sus mutaciones recreadas y estudiadas en un laboratorio. Sin embargo, eso se puede demorar semanas, mientras que el modelo PLN predice mutaciones potenciales de inmediato, lo que enfoca el trabajo de laboratorio y lo acelera.
“Hemos aprendido el lenguaje de la evolución”, dijo Bonnie Berger, bióloga computacional del Instituto Tecnológico de Massachusetts. “La biología tiene su propio lenguaje”.
Enlace relacionado:
Instituto Tecnológico de Massachusetts (MIT)
La idea clave que hace que esto sea posible es que muchas propiedades de los sistemas biológicos se pueden interpretar en términos de palabras y oraciones. En los últimos años, un puñado de investigadores ha demostrado que las secuencias de proteínas y los códigos genéticos pueden modelarse utilizando técnicas de PLN. Ahora, los biólogos computacionales del Instituto Tecnológico de Massachusetts (MIT; Cambridge, MA, EUA) reunieron varias de estas cadenas y utilizan la PLN para predecir mutaciones que permiten que los virus eviten ser detectados por anticuerpos en el sistema inmunológico humano, un proceso conocido como escape inmunológico viral. La idea básica es que la interpretación de un virus por un sistema inmunológico es análoga a la interpretación de una oración por un humano.
El equipo utiliza dos conceptos lingüísticos diferentes: gramática y semántica (o significado). La aptitud genética o evolutiva de un virus, características tales como lo bueno que es para infectar a un huésped, se puede interpretar en términos de corrección gramatical. Un virus infeccioso exitoso es gramaticalmente correcto; uno que no tiene éxito no lo es. Del mismo modo, las mutaciones de un virus se pueden interpretar en términos de semántica. Las mutaciones que hacen que un virus parezca diferente a las cosas en su entorno, como cambios en las proteínas de su superficie que lo hacen invisible para ciertos anticuerpos, han alterado su significado. Los virus con diferentes mutaciones pueden tener diferentes significados, y un virus con un significado diferente puede necesitar diferentes anticuerpos para leerlo.
Para modelar estas propiedades, los investigadores utilizaron una LSTM, un tipo de red neuronal que es anterior a las basadas en transformadores utilizadas por modelos de lenguaje grandes como GPT-3. Estas redes más antiguas se pueden entrenar con muchos menos datos que los transformadores y aún funcionan bien para muchas aplicaciones. En lugar de millones de frases, entrenaron el modelo de PLN en miles de secuencias genéticas tomadas de tres virus diferentes: 45.000 secuencias únicas para una cepa de influenza, 60.000 para una cepa de VIH y entre 3.000 y 4.000 para una cepa del virus SARS-CoV-2.
Los modelos de PLN funcionan codificando palabras en un espacio matemático de tal manera que las palabras con significados similares están más juntas que las palabras con significados diferentes. Esto se conoce como incrustación. En el caso de los virus, la incrustación de las secuencias genéticas agrupaba los virus según la similitud de sus mutaciones. El objetivo general del método es identificar mutaciones que podrían permitir que un virus escape de un sistema inmunológico sin hacerlo menos infeccioso, es decir, mutaciones que cambian el significado de un virus sin hacerlo gramaticalmente incorrecto.
Para probar su método, el equipo utilizó una métrica común para evaluar las predicciones realizadas por modelos de aprendizaje automático que puntúan la exactitud en una escala entre 0,5 (nada mejor que la casualidad) y 1 (perfecto). En este caso, tomaron las principales mutaciones identificadas por la herramienta y, utilizando virus reales en un laboratorio, comprobaron cuántas de ellas eran mutaciones de escape reales. Sus resultados variaron de 0,69 para el VIH a 0,85 para una cepa de coronavirus. Esto es mejor que los resultados de otros modelos de última generación, según los investigadores.
El equipo ha procesado modelos con nuevas variantes del coronavirus, incluida la llamada mutación del Reino Unido, la mutación del visón de Dinamarca y variantes tomadas de Sudáfrica, Singapur y Malasia. El uso de PLN acelera un proceso lento. Anteriormente, el genoma del virus tomado de un paciente con COVID-19 en el hospital podía secuenciarse y sus mutaciones recreadas y estudiadas en un laboratorio. Sin embargo, eso se puede demorar semanas, mientras que el modelo PLN predice mutaciones potenciales de inmediato, lo que enfoca el trabajo de laboratorio y lo acelera.
“Hemos aprendido el lenguaje de la evolución”, dijo Bonnie Berger, bióloga computacional del Instituto Tecnológico de Massachusetts. “La biología tiene su propio lenguaje”.
Enlace relacionado:
Instituto Tecnológico de Massachusetts (MIT)
Últimas COVID-19 noticias
- Inmunosensor nuevo allana el camino para pruebas rápidas POC para COVID-19 y enfermedades infecciosas emergentes
- Encuentran etiologías de COVID prolongada en muestras de sangre con infección aguda
- Dispositivo novedoso detecta anticuerpos contra la COVID-19 en cinco minutos
- Prueba para COVID-19 mediante CRISPR detecta SARS-CoV-2 en 30 minutos usando tijeras genéticas
- Asocian disbiosis del microbioma intestinal con la COVID-19
- Validan prueba rápida novedosa de antígeno para el SARS-CoV-2 con respecto a su exactitud diagnóstica
- Prueba nueva COVID + Influenza + VSR ayudará a estar preparados para la ‘tripledemia’
- IA elimina las conjeturas de las pruebas de flujo lateral
- Prueba de antígeno del SARS-CoV-2 más rápida, jamás diseñada, permite realizar pruebas de COVID-19 no invasivas en cualquier entorno
- Pruebas rápidas de antígeno detectan las variantes ómicron, delta del SARS-CoV-2
- Prueba en sangre realizada durante la infección inicial predice el riesgo de COVID prolongada
- Investigadores afirman que hay que crear “reservistas” de laboratorio para responder más rápidamente a la próxima pandemia
- Estudio encuentra que los profesionales sanitarios mostraron mayor interés en tecnologías POC durante la pandemia
- Plataforma de análisis de bajo costo para la COVID-19 combina sensibilidad de la PCR y velocidad de pruebas de antígeno
- Prueba de sangre por punción digital identifica inmunidad a la COVID-19
- Kit de prueba rápida determina inmunidad contra la COVID-19 y sus variantes
Canales
Química Clínica
ver canal
Nanotubos de carbono ayudan a construir sensores precisos para monitoreo continuo de la salud
Los sensores actuales pueden medir diversos indicadores de salud, como los niveles de glucosa en sangre. Sin embargo, es necesario desarrollar materiales para sensores más precisos y sensibles que... Más
Dispositivo basado en papel mejora la precisión de prueba del VIH
En las regiones donde el acceso a las clínicas para realizar análisis de sangre rutinarios presenta obstáculos financieros y logísticos, los pacientes con VIH pueden recolectar... MásDiagnóstico Molecular
ver canal
Análisis de sangre identifica múltiples biomarcadores para diagnóstico rápido de lesiones de médula espinal
Los Institutos Nacionales de Salud estiman que 18.000 personas en Estados Unidos sufren lesiones de la médula espinal (LME) anualmente, lo que resulta en una asombrosa carga financiera de más de 9.... Más
Análisis de sangre muy preciso diagnostica Alzheimer y mide progresión de demencia
Actualmente existen varios análisis de sangre que ayudan a los médicos a diagnosticar la enfermedad de Alzheimer en personas con síntomas cognitivos. Sin embargo, estas pruebas no... MásHematología
ver canal
Nuevo sistema de puntuación predice riesgo de cáncer a partir de un trastorno sanguíneo común
La citopenia clonal de significado incierto (CCSI) es un trastorno sanguíneo común en adultos mayores, caracterizado por mutaciones en las células sanguíneas y un recuento ... Más
Prueba prenatal no invasiva para determinar estado RhD del feto es 100 % precisa
En los Estados Unidos, aproximadamente el 15 % de las embarazadas son RhD negativas. Sin embargo, en aproximadamente el 40 % de estos casos, el feto también es RhD negativo, lo que hace innecesaria la... MásInmunología
ver canal
Análisis de sangre podría orientar decisiones futuras sobre tratamiento del cáncer
En el continuo avance de la medicina personalizada, un nuevo estudio ha aportado evidencia que respalda el uso de una herramienta que detecta moléculas derivadas del cáncer en la sangre de... MásPrueba de líquido cefalorraquídeo predice efecto secundario peligroso del tratamiento del cáncer
En los últimos años, la inmunoterapia contra el cáncer se ha convertido en un enfoque prometedor que aprovecha el sistema inmunitario del paciente para combatir el cáncer.... MásMicrobiología
ver canal
Innovadora tecnología disgnóstica identifica infecciones bacterianas con precisión de casi 100 % en tres horas
La identificación rápida y precisa de microbios patógenos en muestras de pacientes es esencial para el tratamiento eficaz de enfermedades infecciosas agudas, como la sepsis.... MásSistema de identificación y PSA ayuda a diagnosticar enfermedades infecciosas y combatir RAM
Cada año, 11 millones de personas en todo el mundo mueren de sepsis, de las cuales 1,3 millones se deben a bacterias resistentes a los antibióticos. La resistencia a los antimicrobianos (RAM)... MásPatología
ver canal
Modelo de IA predice respuesta al tratamiento del cáncer de vejiga
Cada año en Estados Unidos, se diagnostican alrededor de 81.000 nuevos casos de cáncer de vejiga, lo que provoca aproximadamente 17.000 muertes al año. El cáncer de vejiga ... Más
Nuevo método basado en láser acelera diagnóstico del cáncer
Investigadores han desarrollado un método para mejorar el diagnóstico del cáncer y otras enfermedades. El colágeno, una proteína estructural clave, desempeña diversas funciones en la actividad celular.... Más
Nuevo modelo de IA predice efectos de variantes genéticas en enfermedades específicas
En los últimos años, la inteligencia artificial (IA) ha mejorado considerablemente nuestra capacidad para identificar un gran número de variantes genéticas en poblaciones cada... Más
Herramienta de IA diagnostica enfermedad celíaca en imágenes de biopsia con precisión superior al 97%
La enfermedad celíaca es un trastorno autoinmune desencadenado por el consumo de gluten, que causa síntomas como calambres estomacales, diarrea, erupciones cutáneas, pérdida de peso, fatiga y anemia.... MásTecnología
ver canal
Teléfonos inteligentes podrían diagnosticar enfermedades mediante escáneres infrarrojos
Los rápidos avances tecnológicos pronto permitirán que las personas eviten procedimientos médicos invasivos simplemente subiendo una captura de pantalla de sus resultados de... Más
Nueva tecnología de sensores permite diagnóstico temprano de trastornos metabólicos y cardiovasculares
Los metabolitos son compuestos cruciales que impulsan las funciones vitales, desempeñando un papel clave en la producción de energía, la regulación de la actividad celular y... MásIndustria
ver canal
Leica Biosystems y Bio-Techne amplían su colaboración multiómica espacial
Bio-Techne Corporation (Minneapolis, MN, EUA) ha ampliado la larga colaboración entre su marca de biología espacial, Advanced Cell Diagnostics (ACD, Newark, CA, EUA), y Leica Biosystems (Nussloch,... Más