Cómo la IA está transformando la genómica


 








Los avances en la secuenciación del genoma completo han iniciado una revolución en la biología digital.

Los programas de genómica en todo el mundo están cobrando impulso a medida que ha disminuido el costo de la secuenciación de próxima generación de alto rendimiento.

Ya sea que se utilice para la secuenciación de pacientes de cuidados intensivos con enfermedades raras o en la investigación genética a escala poblacional , la secuenciación del genoma completo se está convirtiendo en un paso fundamental en los flujos de trabajo clínicos y el descubrimiento de fármacos.

Pero la secuenciación del genoma es solo el primer paso. El análisis de los datos de secuenciación del genoma requiere computación acelerada, ciencia de datos e IA para leer y comprender el genoma. Con el fin de la ley de Moore , la observación de que se duplica cada dos años la cantidad de transistores en un circuito integrado, se necesitan nuevos enfoques informáticos para reducir el costo del análisis de datos, aumentar el rendimiento y la precisión de las lecturas y, en última instancia, desbloquear todo el potencial del genoma humano.


Una explosión de datos bioinformáticos

La secuenciación del genoma completo de un individuo genera aproximadamente 100 gigabytes de datos sin procesar. Eso se duplica con creces después de secuenciar el genoma utilizando algoritmos y aplicaciones complejos, como el aprendizaje profundo y el procesamiento del lenguaje natural.

A medida que el costo de secuenciar un genoma humano continúa disminuyendo, los volúmenes de datos de secuenciación aumentan exponencialmente.

Se estima que se requerirán 40 exabytes para almacenar todos los datos del genoma humano para 2025. Como referencia, eso es 8 veces más almacenamiento de lo que se necesitaría para almacenar cada palabra hablada en la historia.

Muchas canalizaciones de análisis del genoma luchan por mantenerse al día con los niveles expansivos de datos sin procesar que se generan.

El análisis de secuenciación es complicado y computacionalmente intensivo, con numerosos pasos necesarios para identificar variantes genéticas en un genoma humano.

El aprendizaje profundo se está volviendo importante para la llamada de bases directamente dentro del instrumento genómico utilizando modelos basados ​​en RNN y redes neuronales convolucionales (CNN). Las redes neuronales interpretan los datos de imágenes y señales generados por los instrumentos e infieren los 3 mil millones de pares de nucleótidos del genoma humano. Esto mejora la precisión de las lecturas y garantiza que la llamada de base se produzca más cerca del tiempo real, lo que acelera aún más todo el flujo de trabajo de genómica, desde la muestra hasta el formato de llamada de variante y el informe final.

Para el análisis genómico secundario, las tecnologías de alineación utilizan un genoma de referencia para ayudar a reconstruir un genoma después de la secuenciación de los fragmentos de ADN.

BWA-MEM , un algoritmo líder para la alineación, está ayudando a los investigadores a mapear rápidamente las lecturas de secuencias de ADN en un genoma de referencia. STAR es otro algoritmo de alineación estándar de oro que se utiliza para los datos de RNA-seq que ofrece una alineación precisa y ultrarrápida para comprender mejor las expresiones génicas.

El algoritmo de programación dinámica Smith-Waterman también se usa ampliamente para la alineación, un paso que se acelera 35 veces en la GPU NVIDIA H100 Tensor Core , que incluye un acelerador de programación dinámica.


Descubriendo variantes genéticas

Una de las etapas más críticas de los proyectos de secuenciación es la llamada de variantes, en la que los investigadores identifican las diferencias entre la muestra de un paciente y el genoma de referencia. Esto ayuda a los médicos a determinar qué enfermedad genética podría tener un paciente en estado crítico, o ayuda a los investigadores a analizar una población para descubrir nuevos objetivos farmacológicos. Estas variantes pueden ser cambios de un solo nucleótido, pequeñas inserciones y deleciones o reordenamientos complejos.

Las llamadas aceleradas y optimizadas por GPU, como GATK del Broad Institute , un conjunto de herramientas de análisis del genoma para llamadas de variantes de línea germinal, aumentan la velocidad del análisis. Para ayudar a los investigadores a eliminar los falsos positivos en los resultados de GATK, NVIDIA colaboró ​​con Broad Institute para presentar NVScoreVariants , una herramienta de aprendizaje profundo para filtrar variantes mediante CNN.

Las llamadas variantes basadas en el aprendizaje profundo, como DeepVariant de Google , aumentan la precisión de las llamadas, sin la necesidad de un paso de filtrado por separado. DeepVariant usa una arquitectura CNN para llamar a las variantes. Se puede volver a entrenar para afinar y mejorar la precisión con los resultados de cada plataforma genómica.

El software de análisis secundario del conjunto de herramientas NVIDIA Clara Parabricks ha acelerado estas llamadas de variantes hasta 80 veces . Por ejemplo, el tiempo de ejecución de Germinal HaplotypeCaller se reduce de 16 horas en un entorno basado en CPU a menos de cinco minutos con Clara Parabricks acelerado por GPU.

Acelerando la próxima ola de genómica

NVIDIA está ayudando a habilitar la próxima ola de genómica al potenciar las plataformas de secuenciación de lectura corta y larga con llamadas base y variantes de IA aceleradas. Los líderes de la industria y las nuevas empresas están trabajando con NVIDIA para ampliar los límites de la secuenciación del genoma completo.

Por ejemplo, la empresa de biotecnología PacBio anunció recientemente el sistema Revio , un nuevo sistema de secuenciación de lectura larga con GPU NVIDIA Tensor Core. Habilitado por un aumento de 20 veces en el poder de cómputo en relación con los sistemas anteriores, Revio está diseñado para secuenciar genomas humanos con lecturas largas de alta precisión a escala por menos de $ 1,000.

Oxford Nanopore Technologies ofrece la única tecnología que puede secuenciar fragmentos de ADN o ARN de cualquier longitud en tiempo real. Estas características permiten el rápido descubrimiento de más variación genética. El Seattle Children's Hospital utilizó recientemente el instrumento de secuenciación de nanoporos de alto rendimiento PromethION para comprender un trastorno genético en las primeras horas de vida de un recién nacido.


Comentarios

Entradas populares