La recerca en biomedicina no seria possible sense l’ús massiu de dades. És l’única via per trobar les claus de la lluita contra el càncer, per explicar com milers de neurones estructuren el nostre cervell o per desenvolupar assaigs virtuals de medicaments. El big data garanteix que la medicina avanci a passes de gegant.
Catalunya participa de manera rellevant en alguns dels projectes més ambiciosos sobre big data i biomedicina, com ara el genoma del càncer (en concret, entorn de la leucèmia), el projecte Human Brain i ENCODE, el consorci per revelar la utilitat de les parts més fosques i desconegudes del nostre genoma. També hi ha en marxa molts altres projectes per provar molècules candidates a esdevenir fàrmacs gràcies a simulacions que requereixen l’ús massiu de dades. Detectar entre molts compostos candidats, i simular-ne els efectes en un entorn virtual escurça el camí i fa més segur l’encert abans de començar els assaigs clínics.
A Catalunya uns vuit-cents científics treballen en l’àmbit de la bioinformàtica, alguns d’ells experts reconeguts a escala internacional. També hi trobem instal·lacions capdavanteres en l’emmagatzematge, l’anàlisi i la producció de dades, com ara el Centre de Supercomputació de Barcelona (BSC), amb el Marenostrum recentment actualitzat i preparat per emmagatzemar i analitzar dades de gran volum, o el Centre Nacional d’Anàlisi Genòmica (CNAG), amb maquinària avançada de seqüenciació.
Mineria de dades genètiques
El big data no és nou per a la biomedicina. “Les primeres bases de dades massives es van crear als anys cinquanta, quan es va començar a emmagatzemar la seqüència de proteïnes”, explica Roderic Guigó, coordinador del programa de bioinformàtica del Centre de Regulació Genòmica (CRG), reconegut com un dels principals experts mundials en bioinformàtica ja des de l’obtenció del primer genoma humà l’any 2000 (va ser un dels pocs europeus que hi van participar). Però no va ser fins a l’aparició dels primers ordinadors, als anys vuitanta, que es van poder explotar les primeres bases de dades electròniques. “El 1983, fent mineria de dades, es va trobar el primer oncogen”, recorda Guigó. Els tres mil milions de bases d’un sol genoma humà ocupa tres gigues. “No sembla gaire, però sí que ho és quan n’hi ha molts”, afirma.
Avui dia, la recerca en biomedicina seria impensable sense el big data, que planteja dos grans reptes, segons Guigó: la potència necessària per fer càlculs complexos i la capacitat d’emmagatzematge. Catalunya té un paper fonamental a escala europea en tots dos aspectes. No és casualitat que l’Institut Europeu de Bioinformàtica (EBI) hagi dipositat tota la seva confiança en Barcelona per establir-hi la seu de l’Arxiu Europeu del Genoma-Fenoma (EGA), encapçalat pel CRG. Recull dades genètiques de cent mil pacients que han participat en més de set-cents estudis científics sobre càncer, diabetis, malalties autoimmunes i cardiovasculars, entre moltes altres patologies.
Al món tan sols hi ha una altra base de dades genètiques amb un volum similar, liderada per l’Institut Nacional de Salut (NIH) dels Estats Units. L’arxiu català disposa de dades de treballs fets amb malalts i persones sanes que participen en assaigs en uns dos-cents centres de tot el món. L’EGA custodia genomes (dades genètiques) i fenomes (dades de fenotips, és a dir, des del color dels cabells o els ulls fins a les malalties que pateixen les persones que participen en els assaigs).
A aquestes dades tenen accés investigadors de tot el món que treballin en institucions sense ànim de lucre. Només durant els primers quatre mesos del 2014 les dades emmagatzemades a l’EGA es van transferir més de dues-centes mil vegades a gairebé cinc mil grups de recerca de tots els continents. Entre les moltes joies que guarda la seu de Barcelona de l’EGA hi ha les dades d’un dels projectes més ambiciosos que s’han fet mai per estudiar set malalties complexes, dut a terme pel Wellcome Trust, amb dades de més de cinc mil persones. Els científics hi tenen accés gratuït.
El mapa complet de la leucèmia
A l’EGA també hi ha les dades genètiques dels milers de genomes que s’han seqüenciat al Consorci Internacional del Genoma del Càncer, un ambiciós projecte d’àmbit mundial que té com a objectiu obtenir un mapa genètic complet de cada tipus de càncer. Al consorci, que es va posar en marxa el 2008, s’estudien més de quaranta tipus d’aquesta malaltia, que es divideixen en diferents projectes, un dels quals és el nostre. Per a cada projecte s’estudia un mínim de cinc-cents pacients.
Des de Barcelona hi participen el Centre Nacional d’Anàlisi Genòmica, el Centre de Supercomputació i investigadors de l’Hospital Clínic. Elías Campo, responsable de l’equip de recerca d’oncomorfologia funcional humana i experimental de l’institut de recerca IDIBAPS del Clínic, codirigeix una de les seccions d’aquest macroprojecte, el Consorci per a l’Estudi del Genoma de la Leucèmia Limfàtica Crònica (CLL). L’equip ha completat el genoma de cent cinquanta individus i l’exoma de quatre-cents. L’exoma són les regions del genoma on hi ha les parts codificadores dels gens, que formaran l’ARN missatger i que, quan la maquinària cel·lular el tradueixi, donarà lloc a les proteïnes. És la part funcional més important del genoma perquè és la que finalment determina com és un organisme.
Tot el cervell dins un superordinador
Cada any es publiquen uns seixanta mil articles científics de gran qualitat sobre el cervell. Ara bé, tots expliquen només una part de la història. I per això, malgrat tots aquests esforços, el cervell continua sent una caixa negra força impenetrable. El somni dels científics és integrar totes aquestes dades i construir un gran cervell virtual on es pugui recrear cada neurona, cada impuls elèctric, cada neurotransmissor, cada circuit cerebral. Així es podria entendre tota la maquinària que es posa en marxa quan, per exemple, es genera un pensament i es pren una decisió. També es podria conèixer amb tot detall què falla en les més de cinc-centes malalties relacionades amb el cervell, moltes de les quals avui no tenen solució i afecten un terç de la població europea.
Treballar per aconseguir fer realitat aquest somni és el que ja han començat a fer els més de vuitanta centres de recerca de tot el món (la major part europeus) que participen en el projecte Human Brain (HBP). Dirigeix l’ambiciós treball el Swiss Federal Institute of Technology de Lausana (EPFL) i hi participen dos centres de recerca catalans, el Centre de Supercomputació de Barcelona (BSC) i l’Institut de Recerca Biomèdica (IRB Barcelona).
El BSC i l’IRB investiguen per modelitzar la complexitat molecular que s’estableix entre dues neurones. “Una neurona és com un interruptor –explica Modesto Orozco, al capdavant del projecte a l’IRB Barcelona, que facilitarà les dades matemàtiques al BSC perquè pugui fer les modelitzacions–. El nostre objectiu és simular interaccions entre neurones a escala atòmica. Això permetrà modelitzar l’estudi de fàrmacs que canviïn les propietats de transmissió de la sinapsi.”
Es tracta de transformar en models matemàtics els potencials elèctrics i la generació de molècules entre neurona i neurona. Entre altres aspectes s’estudiaran els canals iònics, una maquinària complexa de proteïnes que s’obren i es tanquen per permetre o obstaculitzar la circulació d’ions entre neurones. “Volem visualitzar i modelitzar com funciona la sinapsi, com se’n pot bloquejar o potenciar l’efecte”, puntualitza Orozco. Aquests canals es poden alterar per causes externes, com ara el consum de drogues, els efectes secundaris d’alguns fàrmacs o alguna malaltia.
A partir dels models que es pugui crear s’obtindran dades que explicaran, per exemple, per què hi ha persones amb depressió que responen als fàrmacs i d’altres que no. O per què a alguns els produeixen efectes secundaris importants mentre que a d’altres no tant. També es podran entendre millor altres malalties, com ara l’esquizofrènia o l’Alzheimer. “Podrem reconstruir l’arquitectura de la memòria –afirma Orozco–. I, en definitiva, conèixer a escala molecular què ens fa humans.”