Conocimiento Bóveda 6 /83 - ICML 2023
El Futuro del ML en Biología: CRISPR para la Salud y el Clima
Jennifer Doudna
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef crispr fill:#f9d4d4, font-weight:bold, font-size:14px classDef data fill:#d4f9d4, font-weight:bold, font-size:14px classDef challenges fill:#d4d4f9, font-weight:bold, font-size:14px classDef development fill:#f9f9d4, font-weight:bold, font-size:14px A["El Futuro del
ML en Biología:
CRISPR para la Salud
y el Clima"] --> B["Tecnología
CRISPR"] A --> C["Datos
Biológicos"] A --> D["Desafíos
y
Limitaciones"] A --> E["Desarrollo
y
Aplicaciones"] B --> B1["Sistema inmune bacteriano
que apunta al
ADN viral. 1"] B --> B2["Matrices CRISPR se expanden
formando memoria de
infección. 2"] B --> B3["ARN transcrito de CRISPR
se combina con proteínas
Cas. 3"] B --> B4["Proteína Cas9 usa
guías de ARN para
cortar ADN. 4"] B --> B5["Sistema Cas9 simplificado
para cortes programables. 5"] B --> B6["Cortar ADN permite
cambios genéticos
precisos. 6"] C --> C1["Datos biológicos de alta calidad
en el Banco de Datos
de Proteínas. 11"] C --> C2["Crecimiento del PDB de
7 a 200,000
estructuras. 12"] C --> C3["Calidad de estructura
evaluada usando valores
R-libre. 13"] C --> C4["R-libre mejora la calidad
de estructura del
PDB. 14"] C --> C5["AlphaFold2 depende de datos
de alta calidad del
PDB. 15"] C --> C6["Validación experimental
necesaria para
predicciones. 19"] D --> D1["Datos biológicos a menudo
limitan aplicaciones de
ML. 10"] D --> D2["Predecir función de proteínas
sigue siendo un
desafío. 16"] D --> D3["Genes esenciales tienen
funciones
desconocidas. 17"] D --> D4["Métodos mejorados
para predecir función
de proteínas. 18"] D --> D5["Desarrollar infraestructura de ML
considerando lecciones del
PDB. 25"] D --> D6["Desafíos incluyen curación
y combinación de
datos. 26"] E --> E1["Desarrollo rápido habilitado
de nuevas
terapias. 7"] E --> E2["Esfuerzos para reducir
costos de terapia
CRISPR. 8"] E --> E3["Aplicaciones potenciales de CRISPR
más allá de la
salud. 9"] E --> E4["ML para interacciones
genéticas, estructuras
de ARN. 20"] E --> E5["CRISPR genera grandes
conjuntos de datos
funcionales. 21"] E --> E6["Pantallas CRISPR multiplexadas
para estudios
de genes. 22"] class A,B,B1,B2,B3,B4,B5,B6 crispr class C,C1,C2,C3,C4,C5,C6 data class D,D1,D2,D3,D4,D5,D6 challenges class E,E1,E2,E3,E4,E5,E6 development

Resumen:

1.- CRISPR es un sistema inmune bacteriano que captura secuencias de ADN viral y las usa para apuntar y cortar ADN viral coincidente.

2.- Las matrices CRISPR se expanden con el tiempo a medida que las bacterias adquieren nuevas secuencias de ADN viral, formando una memoria de infecciones pasadas.

3.- Las matrices CRISPR se transcriben en ARN, que se combina con proteínas Cas para buscar y cortar secuencias de ADN coincidentes.

4.- Jennifer Doudna y Emmanuelle Charpentier demostraron que la proteína Cas9 usa guías de ARN para desenrollar y cortar ADN objetivo.

5.- Simplificaron el sistema a un solo ARN guía, permitiendo que Cas9 sea programado para cortar cualquier secuencia de ADN deseada.

6.- Cortar ADN en sitios específicos puede inducir reparación, permitiendo cambios precisos o inserción de nueva información genética en genomas.

7.- CRISPR ha permitido el rápido desarrollo de nuevas terapias, como un tratamiento único para la enfermedad de células falciformes.

8.- Se están realizando esfuerzos para reducir el costo y expandir el acceso a terapias basadas en CRISPR, que actualmente son muy costosas.

9.- CRISPR tiene muchas aplicaciones potenciales más allá de la salud, incluyendo abordar desafíos del cambio climático.

10.- Los datos biológicos a menudo son limitantes en comparación con conjuntos de datos en otros campos, planteando desafíos para aplicaciones de aprendizaje automático.

11.- El Banco de Datos de Proteínas (PDB) es un ejemplo destacado de un conjunto de datos biológicos altamente curado y de alta calidad.

12.- El PDB ha crecido de 7 a más de 200,000 estructuras desde 1971, principalmente de cristalografía de rayos X.

13.- La calidad de las estructuras en el PDB se evalúa usando valores R-libre, que miden cuán bien los modelos coinciden con los datos experimentales.

14.- La introducción de R-libre mejoró enormemente la calidad de las estructuras en el PDB al reducir el sobreajuste de datos.

15.- Los modelos de aprendizaje automático como AlphaFold2 dependen de datos de alta calidad como el PDB para predecir con precisión estructuras de proteínas.

16.- Predecir la función de proteínas sigue siendo desafiante, ya que estructuras similares pueden tener funciones diferentes y las anotaciones a menudo son incompletas o inexactas.

17.- Incluso en organismos simples, un gran porcentaje de genes esenciales tienen funciones desconocidas que no pueden predecirse solo a partir de la estructura.

18.- Ron Boga está desarrollando métodos mejorados para usar estructuras de proteínas para predecir función, que presentará en la conferencia.

19.- Determinar lo que las proteínas realmente hacen biológicamente aún requiere validación experimental, no solo predicciones estructurales.

20.- Las preguntas biológicas que requieren aprendizaje automático incluyen entender interacciones genéticas, descubrir funciones de proteínas y ARN, y predecir estructuras de ARN.

21.- CRISPR puede usarse para generar grandes conjuntos de datos al apuntar simultáneamente a muchos genes para evaluar sus funciones e interacciones.

22.- Estas pantallas CRISPR multiplexadas pueden realizarse en células, tejidos o animales completos para estudiar la función de genes, respuestas a medicamentos, etc.

23.- La automatización permite la generación rápida de grandes conjuntos de datos de pantallas CRISPR, pero los tamaños de las bibliotecas aún son relativamente pequeños.

24.- El aprendizaje automático podría ayudar a responder preguntas como por qué algunas personas con mutaciones relacionadas con enfermedades desarrollan la enfermedad mientras que otras no.

25.- Desarrollar infraestructura de aprendizaje automático para biología debe considerar lecciones aprendidas de recursos de datos exitosos como el PDB.

26.- Los desafíos clave incluyen curar datos de diferentes fuentes, evaluar la calidad de los datos y combinar conjuntos de datos de manera significativa.

27.- Muchos conjuntos de datos de pantallas CRISPR ya están disponibles públicamente, pero carecen de métricas de calidad estandarizadas similares a los valores R-libre cristalográficos.

28.- Se están realizando esfuerzos para generar conjuntos de datos de pantallas CRISPR más grandes y estandarizados que podrían permitir análisis de aprendizaje automático más potentes.

29.- El diseño cuidadoso de ARN guía es crítico para asegurar un direccionamiento preciso y minimizar efectos fuera del objetivo en terapias y pantallas basadas en CRISPR.

30.- Dada la potencia de CRISPR y su potencial para consecuencias no deseadas, el desarrollo y uso responsable de la tecnología es un área activa de discusión.

Bóveda del Conocimiento construida porDavid Vivancos 2024