BioEmu
Context: Els avenços en seqüenciació i predicció de l’estructura de proteïnes —com AlphaFold— han facilitat l’accés massiu a dades de seqüència i estructura. No obstant això, la funció de les proteïnes depèn de la seva dinàmica i de les transicions entre estats conformacionals i de unió, aspectes que són lents i costosos d’estudiar amb tècniques experimentals o simulacions de dinàmica molecular (MD).
Objectiu: Desenvolupar una eina escalable capaç de generar conjunts (ensembles) d’estructures de proteïnes en equilibri de manera molt més ràpida que la MD i amb precisió comparable, permetent inferir funcions moleculars i propietats termodinàmiques.
Què és BioEmu?
- Un emulador biomolecular basat en aprenentatge profund generatiu.
- Combina representacions de seqüència-estructura d’AlphaFold amb un model de difusió per generar estructures 3D.
- Entrenament en tres fases:
- Preentrenament amb dades processades d’AlphaFoldDB per estimular la diversitat estructural.
- Entrenament amb més de 200 mil·lisegons agregats de simulacions MD reequilibrades.
- Ajust fi amb més de 500.000 mesures experimentals d’estabilitat mitjançant el nou mètode PPFT (Property-Prediction Fine-Tuning).
Principals resultats
- Cobertura de canvis conformacionals: Capacitat per predir dominis mòbils, desenrotllaments locals i formació de butxaques críptiques amb taxes d’èxit del 55-90% en casos coneguts.
- Emulació de distribucions d’equilibri MD: Errors mitjans de lliure energia <1 kcal/mol amb velocitats 10.000-100.000 vegades superiors a MD.
- Predicció d’estabilitats proteiques: Error <1 kcal/mol i correlació >0,6 per energies de plegament i canvis per mutacions puntuals.
- Generalització: Manté el rendiment amb similitud de seqüència baixa (<40%) respecte a l’entrenament.
Aplicacions
- Complementar fluxos de treball de MD facilitant punts de partida per simulacions.
- Interpretar experiments estructurals en termes mecànics.
- Identificar butxaques de unió i mecanismes al·lostèrics en descobriment de fàrmacs.
- Generar ensembles per a disseny dinàmic de proteïnes.
Limitacions i perspectives futures
- No modela la dinàmica temporal, només distribucions d’equilibri.
- Actualment restringit a cadenes simples en condicions fixes (~300 K) i sense entorns de membrana ni lligands explícits.
- Es preveu incorporar condicions (pH, temperatura), més cadenes i dades experimentals variades, així com mòduls de confiança i avaluació d’incertesa.
Conclusió
BioEmu demostra que és possible aprofitar dades costoses de MD i experiments per entrenar un model generatiu que prediu ensembles proteics amb alta velocitat i bona precisió. Això obre la porta a estudiar la funció molecular a escala genòmica amb un cost molt inferior al de les tècniques actuals.

Referència :
Lewis, S., Hempel, T., Jiménez-Luna, J., Gastegger, M., Xie, Y., Foong, A. Y. K., García Satorras, V., Abdin, O., Veeling, B. S., Zaporozhets, I., Chen, Y., Yang, S., Foster, A. E., Schneuing, A., Nigam, J., Barbero, F., Stimper, V., Campbell, A., Yim, J., … Noé, F. (2025). Scalable emulation of protein equilibrium ensembles with generative deep learning. Science, 389, eadv9817. https://doi.org/10.1126/science.adv9817

Deixa un comentari