BioEmu

Context: Els avenços en seqüenciació i predicció de l’estructura de proteïnes —com AlphaFold— han facilitat l’accés massiu a dades de seqüència i estructura. No obstant això, la funció de les proteïnes depèn de la seva dinàmica i de les transicions entre estats conformacionals i de unió, aspectes que són lents i costosos d’estudiar amb tècniques experimentals o simulacions de dinàmica molecular (MD).

Objectiu: Desenvolupar una eina escalable capaç de generar conjunts (ensembles) d’estructures de proteïnes en equilibri de manera molt més ràpida que la MD i amb precisió comparable, permetent inferir funcions moleculars i propietats termodinàmiques.

Què és BioEmu?

  • Un emulador biomolecular basat en aprenentatge profund generatiu.
  • Combina representacions de seqüència-estructura d’AlphaFold amb un model de difusió per generar estructures 3D.
  • Entrenament en tres fases:
    1. Preentrenament amb dades processades d’AlphaFoldDB per estimular la diversitat estructural.
    2. Entrenament amb més de 200 mil·lisegons agregats de simulacions MD reequilibrades.
    3. Ajust fi amb més de 500.000 mesures experimentals d’estabilitat mitjançant el nou mètode PPFT (Property-Prediction Fine-Tuning).

Principals resultats

  • Cobertura de canvis conformacionals: Capacitat per predir dominis mòbils, desenrotllaments locals i formació de butxaques críptiques amb taxes d’èxit del 55-90% en casos coneguts.
  • Emulació de distribucions d’equilibri MD: Errors mitjans de lliure energia <1 kcal/mol amb velocitats 10.000-100.000 vegades superiors a MD.
  • Predicció d’estabilitats proteiques: Error <1 kcal/mol i correlació >0,6 per energies de plegament i canvis per mutacions puntuals.
  • Generalització: Manté el rendiment amb similitud de seqüència baixa (<40%) respecte a l’entrenament.

Aplicacions

  • Complementar fluxos de treball de MD facilitant punts de partida per simulacions.
  • Interpretar experiments estructurals en termes mecànics.
  • Identificar butxaques de unió i mecanismes al·lostèrics en descobriment de fàrmacs.
  • Generar ensembles per a disseny dinàmic de proteïnes.

Limitacions i perspectives futures

  • No modela la dinàmica temporal, només distribucions d’equilibri.
  • Actualment restringit a cadenes simples en condicions fixes (~300 K) i sense entorns de membrana ni lligands explícits.
  • Es preveu incorporar condicions (pH, temperatura), més cadenes i dades experimentals variades, així com mòduls de confiança i avaluació d’incertesa.

Conclusió

BioEmu demostra que és possible aprofitar dades costoses de MD i experiments per entrenar un model generatiu que prediu ensembles proteics amb alta velocitat i bona precisió. Això obre la porta a estudiar la funció molecular a escala genòmica amb un cost molt inferior al de les tècniques actuals.


Referència :
Lewis, S., Hempel, T., Jiménez-Luna, J., Gastegger, M., Xie, Y., Foong, A. Y. K., García Satorras, V., Abdin, O., Veeling, B. S., Zaporozhets, I., Chen, Y., Yang, S., Foster, A. E., Schneuing, A., Nigam, J., Barbero, F., Stimper, V., Campbell, A., Yim, J., … Noé, F. (2025). Scalable emulation of protein equilibrium ensembles with generative deep learning. Science, 389, eadv9817. https://doi.org/10.1126/science.adv9817