Bioinformàtica

De la Viquipèdia, l'enciclopèdia lliure
Alineament de diferents proteïnes d'hemoglobina, realitzat amb el servei web per ClustalW implementat en el Institut Europeu de Bioinformàtica. El alineament de seqüències biològiques és una de les eines bàsiques de la bioinformàtica.

La bioinformàtica, segons una de les seves definicions més senzilles, és l'aplicació de tecnologia d'ordinadors a la gestió i anàlisi de dades biològiques. [1] Els termes bioinformàtica, biologia computacional i, de vegades, biocomputació, utilitzats en moltes situacions com a sinònims,[2][3] fan referència a camps d'estudis interdisciplinaris molt vinculats que requereixen l'ús o el desenvolupament de diferents tècniques estudiades universitàriament a la enginyeria informàtica com a ciència aplicada de la disciplina informàtica.[4] Entre aquestes poden destarcar-se les següents: matemàtica aplicada,[5]estadística,[6] ciències de la computació,[7] intel·ligència artificial,[8] química [9] i bioquímica [10] amb les quals l'enginyer iInformàtic soluciona problemes en analitzar dades, o simular sistema sobre mecanismes, tots ells d'índole biològica, i usualment (però no de forma exclusiva) al nivell molecular.[11] El nucli principal d'aquestes tècniques es troba en la utilització de recursos computacionals per a solucionar o investigar problemes sobre escales de tal magnitud que sobrepassen el discerniment humà. La investigació en biologia computacional se solapa sovint amb la biologia de sistemes.[12]

Els principals esforços d'investigació en aquests camps inclouen l'alineament de seqüències, la predicció de gens, muntatge del genoma, alineament estructural de proteïnes, predicció d'estructura de proteïnes, predicció de la expressió gènica, interaccions proteïna-proteïna, i modelatge de l'evolució.[13]

Una constant en projectes de bioinformàtica i biologia computacional és l'ús d'eines matemàtiques per extreure informació útil de dades obtingudes per tècniques biològiques d'alta productivitat, com la seqüenciació del genoma. En particular, el muntatge o acoblament de seqüències genòmiques d'alta qualitat des de fragments obtinguts després de la seqüenciació de l'ADN a gran escala és una àrea d'alt interès. [13] [14] Altres objectius són l'estudi de la regulació de l'expressió gènica per interpretar perfils d'expressió gènica utilitzant dades de xips d'ADN o espectrometria de masses.[15]

Map of the human X chromosome

Conceptes i abast[modifica]

Els termes bioinformàtica, biologia computacional i biocomputació són utilitzats sovint com a sinònims, i apareixen sovint en la literatura bàsica de forma indiferenciada en els seus usos comuns. No obstant això, hi ha conformades àrees d'aplicació pròpies de cada terme. Els Instituts Nacionals de la Salut dels Estats Units (NIH, de l'anglès National Institutes of Health), per exemple, tot i reconèixer prèviament que cap definició podria eliminar completament el solapament entre activitats de les diferents tècniques, defineix explícitament els termes bioinformàtica i biologia computacional: [16]

  • Bioinformàtica és la investigació, desenvolupament o aplicació d'eines computacionals i aproximacions per a l'expansió de l'ús de dades biològiques, mèdiques, conductuals o de salut, incloses les eines que serveixin per adquirir, emmagatzemar, organitzar, analitzar o visualitzar aquestes dades.

D'aquesta manera, la bioinformàtica tindria més a veure amb la informació, mentre que la biologia computacional ho faria amb les hipòtesis. D'altra banda, el terme biocomputació sol emmarcar-se en les actuals investigacions amb biocomputador si, per exemple, T. Kaminuma el defineix així: «Biocomputació és la construcció i ús d'ordinadors que contenen components biològics o funcionen com organismes vius.»[17]

A part de les definicions formals d'organismes o institucions de referència, els manuals d'aquesta matèria aporten les seves pròpies definicions operatives, vinculades en major o menor mesura amb les ja vistes. Com a exemple, David W. Mount, en un difós text sobre bioinformàtica,[18] precisa que:

« ... la bioinformàtica se centra més en el desenvolupament d'eines pràctiques per a la gestió de dades i l'anàlisi (per exemple, la presentació d'informació genòmica i anàlisi seqüencial), però amb menys èmfasi en l'eficiència i en la precisió. »

D'altra banda, i segons el mateix autor:

« ... la biologia computacional generalment es relaciona amb el desenvolupament de algoritmes nous i eficients, que es pot demostrar funcionen sobre un problema difícil, com com el alineament múltiple de seqüències o el muntatge (o ensamblat) de fragments de genoma. »

Finalment, es troba de vegades una categorització explícita d'aquests conceptes segons la qual la bioinformàtica és una subcategoria de la biologia computacional. Per exemple, la biòloga Cynthia gibas afirma:[19]

« La bioinformàtica és la ciència de l'ús de la informació per entendre la biologia. (...) Parlant estrictament, la bioinformàtica és un subconjunt del camp més gran de la biologia computacional, (sent aquesta última) l'aplicació de tècniques analítiques quantitatives en el modelatge de sistemes biològics. »

Tanmateix, i fent referència al seu propi text ( Developing Bioinformatics Computer Skills, desenvolupament d'habilitats computacionals per bioinformàtica), de seguida passa a aclarir que:

« ... passarem de bioinformàtica a biologia computacional i viceversa. Les distincions entre les dues no són importants per al nostre propòsit aquí. »

En moltes ocasions, per tant, els termes seran intercanviables i, excepte en contextos de certa especialització, el significat últim es mantindrà clar utilitzant qualsevol d'ells.

Història[modifica]

A més dels fets rellevants directament relacionats amb el desenvolupament de la bioinformàtica, s'esmenten aquí algunes fites científiques i tecnològiques per posar en un context adequat aquest desenvolupament.[20] La història de la bioinformàtica comença en la dècada de 1950, en què James Watson i Francis Crick proposen l'estructura de doble hèlix de l'ADN (1953),[21] Frederic Sanger seqüència la primera proteïna (insulina bovina) (1955),[22] i Jack Kilby construeix el primer circuit integrat per en els laboratoris de Texas Instruments (1958).[23]

Dècades de 1960 i 1970[modifica]

En la dècada de 1960, Linus Pauling elabora la seva teoria sobre evolució molecular (1962),[24] i Margaret Dayhoff, una de les pioneres de la bioinformàtica, publica el primer dels Atles of Protein Sequences (1965), que tindrà continuïtat en anys posteriors, es convertirà en una obra bàsica en el desenvolupament estadístic, alguns anys més tard, de les matrius de substitució PAM, i serà precursor de les actuals bases de dades de proteïnes.[25] En l'àrea de la tecnologia de computadors, es presenten en l'ARPA ( Advanced Research Projects Agency, agència de projectes d'investigació avançats) els protocols de commutació de paquets de dades sobre xarxes d'ordinadors (1968), que permetran enllaçar poc després diversos ordinadors de diferents universitats als EUA. Havia nascut ARPANET (1969), embrió del que posteriorment serà Internet.[26]

El 1970 es publica l'algorisme de Needleman-Wunsch per a alineament de seqüències; [27] s'estableix el Brookhaven Protein Data Bank (1971),[28] s'obté la primera molècula de ADN recombinant (Paul Berg, 1972),[29] E. M. Southern desenvolupa la tècnica Southern blot de localització de seqüències específiques d'ADN (1976),[30] comença la seqüenciació d'ADN i el desenvolupament de programari per a analitzar (F. Sanger, programari de R. Staden, 1977),[31][32] i es publica el 1978 la primera seqüència de gens completa d'un organisme, el fag Φ-X174 (5386 parells de bases que codifiquen nou proteïnes).[33] En àmbits tecnològics vinculats, en aquests anys neix el correu electrònic (Ray Tomlinson, BBN, 1971),[34] Robert Metcalfe desenvolupa Ethernet (protocol de comunicacions que facilitarà la interconnexió d'ordinadors, principalment a xarxes d'àmbit local) (1973),[35] i Vinton Cerf i Robert Kahn desenvolupen el protocol TCP (Transmission Control Protocol, protocol de control de transmissió) (1974), un dels protocols bàsics d'Internet.[36]

Dècada de 1980[modifica]

En la dècada de 1980 es produeixen destacats avenços en diverses àrees.

Avenços científics[modifica]

Nivells d'estructura de les proteïnes. En els primers vuitanta es publica com investigar l'estructura terciària mitjançant RMN, en la següent dècada es desenvoluparan mètodes per predir de novo algunes estructures secundàries.

Quatre anys després de la seqüenciació del fag Φ-X174, el 1982 Sanger aconsegueix la seqüenciació del genoma del fag λ (fag lambda) utilitzant una nova tècnica, la seqüenciació shotgun (seqüenciació per perdigonada), desenvolupada per ell mateix.[37] Entre 1981 i 1982 K. Wüthrich publica el mètode d'utilització de la RMN (ressonància magnètica nNuclear) per determinar estructures de proteïnes.[38] Ford Doolittle treballa amb el concepte de seqüència motiu (similituds supervivents, segons les anomena en el resum del seu article) el 1981.[39] El 1983, Kary Mullis descobreix la tècnica de la reacció en cadena de la polimerasa (PCR, de l'anglès polymerase chain reaction) que permet obtenir moltes còpies d'un fragment d'ADN específic, el que en facilita l'anàlisi.[40] El 1987, Sr T. Burke et al. descriuen l'ús de cromosomes artificials de llevat (YAC, Yeast Artificial Chromosome ),[41] i Kulesh et al. senten les bases dels xips d'ADN.[42]

Avenços en bioinformàtica[modifica]

Pel que fa al desenvolupament d'algorismes, mètodes i programes, apareixen l'algorisme de Smith-Waterman (1981),[43] l'algorisme de recerca en bases de dades de seqüències (Wilbur-Lipman, 1983),[44] FASTP/FASTN (recerca ràpida de similituds entre seqüències, 1985),[45] l'algorisme FASTA per comparació de seqüències (Pearson i Lipman, 1988),[46] i comencen a utilitzar-se models ocults de Markov per analitzar patrons i composició de les seqüències (Churchill, 1989),[47] el que permetrà més endavant localitzar gens [48] i predir estructures proteiques.[49] També en aquesta dècada apareixen importants bases de dades biològiques (GenBank el 1982, Swiss-Prot el 1986),[50][51] xarxes que les interconnecten (EMBnet el 1988),[52] i es potencien o es creen diferents organismes i institucions (EMBL es constitueix el 1974 però es desenvolupa durant la dècada de 1980, NCBI el 1988).[53][54] Es comença a estudiar la viabilitat de la Human Genome Initiative (First Santa Fe Conference, 1985), que el Departament d'Energia del Govern dels EUA anunciarà un any després i posarà en marxa projectes pilot per desenvolupar recursos i tecnologies crítiques. El 1987 els NIH comencen a aportar fons a projectes genoma, mentre que el 1988 arrenca la Human Genome Initiative, més coneguda finalment com a Projecte Genoma Humà (Human Genome Project).[55][56]

Avenços tecnològics[modifica]

L'any 1983 veurà l'aparició de l'estàndard disc compacte (CD) en la seva versió per a ser llegit per un ordinador (Yellow Book ).[57] El 1984. Jon Postel i Paul Mockapetris desenvolupen el sistema de noms de domini (DNS, de l'anglès domain name system) necessari per a un adreçament correcte i àgil a Internet.[58] El 1987 Larry Wall desenvolupa el llenguatge de programació PERL, d'ampli ús posterior en bioinformàtica, [59] i a finals de la dècada sorgeixen les primeres grans empreses privades amb activitats vinculades al genoma, proteïnes, bioquímica, etc. (Genetics Computer Group - GCG, Oxford Molecular Group, Ltd), i que, en general, experimentaran importants transformacions anys més tard.[60]

Dècada de 1990[modifica]

Avenços científics[modifica]

El 1991 comença la seqüenciació amb EST ( Expressed Sequence Tags, marcatge de seqüències expressades); [61] l'any següent és publicat el mapa de lligament genètic (en baixa resolució) del genoma humà complet; [62] el 1995 s'aconsegueix seqüenciar completament els primers genomes de bacteris ( Haemophilus influenzae, Mycoplasma genitalium, de 1,8 milions de parells de bases-Mbps-i 0,58 Mbps, respectivament); [63][64] el 1996, i en diferents passos (per cromosoma), es fa el mateix amb el primer genoma eucariota, el del llevat ( Saccharomyces cerevisiae, amb 12 Mbp),[65] i el 1997 amb el genoma d'Escherichia coli (4,7 Mbp),[66] el 1998 amb el primer genoma d'un organisme multicel·lular (97 MBP del Caenorhabditis elegans ),[67] per acabar la dècada amb el primer cromosoma humà (el 22) completament seqüenciat el 1999 (33,4 Mbp).[68]

Avenços bioinformàtics[modifica]

El 1990 es desenvolupa la recerca ràpida de similituds entre seqüències amb BLAST; [69] base de dades d'empremtes de proteïnes PRINTS, de Attwood i Beck (1994); [70] ClustalW, orientat a l'alineament múltiple de seqüències, el 1994,[71] i PSI-BLAST el 1997; [72] a finals de la dècada es desenvolupa T-Coffee, que es publica el 2000.[73] Pel que fa a activitats institucionals i nous organismes, el 1990, el DoE i els NIH presenten al Congrés dels EUA un pla d'esforços conjunts al Projecte Genoma Humà per a cinc anys; [74] es creen el Sanger Centre (Hinxton, UK, 1993; ara Wellcome Sanger Institute ) i el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).[75][76]

Avenços tecnològics[modifica]

Tim Berners-Lee inventa la World Wide Web (1990) mitjançant aplicació de protocols de xarxa que exploten les característiques del hipertext; [77] el 1991 apareixen els protocols definitius d'Internet (CERN) [78] i la primera versió del sistema operatiu Linux,[79] molt utilitzat posteriorment en aplicacions científiques. El 1998 Craig Venter funda Celera, companyia que perfeccionarà la seqüenciació per perdigonada de F. Sanger i analitzarà els resultats amb programari propi.[80]

Primers anys del segle xxi[modifica]

En la primera dècada del segle xxi estan culminant múltiples projectes de seqüenciació de genomes de diferents organismes: el 2000 es publiquen, entre altres, el genoma de Arabidopsis thaliana (100 Mb) [81] i el de Drosophila melanogaster (180 MBP).[82] Després d'un esborrany operatiu de la seqüència d'ADN del genoma humà del any 2000,[83] el 2001 apareix publicat el genoma humà (3 GBP).[84] Poc després, el 2003, i amb dos anys d'avançament sobre que preveu, es completa el Projecte Genoma Humà.[85] El 2004 apareix l'esborrany del genoma de Rattus norvegicus (rata),[86] el 2005 el del ximpanzé,[87] el 2006 el del macaco rhesus,[88] el 2007 el del gat domèstic,[89] i el 2008 se seqüència per primera vegada el genoma d'una dona.[90] Gràcies al desenvolupament de les tècniques adequades, s'han anat seqüenciant genomes de tot tipus d'organismes.

el 2003 es funda a Espanya el Institut Nacional de Bioinformàtica,[91] suportat per la Fundació Genoma Espanya (fundada, al seu torn, un any abans i que pretén constituir-se en instrument de l'estat per a potenciar la investigació en aquest camp).[92] el 2004, l'Adminsitració d'Aliments i Fàrmcas dels Estats Units (FDA, de l'anglès Food and Drug Administration) autoritza l'ús d'un xip d'ADN per primera vegada.[93] el 2005 es completa el projecte HapMap (catalogació de variacions genètiques en l'ésser humà).[94] el 2008 UniProt presenta el primer esborrany del proteoma complet del ésser humà, amb més de vint mil entrades.[95]

A poc a poc, els primers programes bioinformàtics es van perfeccionant, i se'n produeixen versions més completes com la 2.0 de ClustalW (reescrit en C++ el 2007).[96]

Principals àrees d'investigació[modifica]

Anàlisi de seqüències[modifica]

Des que el fag Φ-X174 va ser seqüenciat el 1977 (seqüència provisional: un any més tard es publicaria la seqüència completa definitiva),[33] les seqüències de ADN de centenars d'organismes han estat descodificades i guardades en bases de dades. Aquestes dades són analitzats per determinar els gens que codifiquen per a certes proteïnes, així com també seqüències reguladores. Una comparació de gens en una espècie o entre espècies pot mostrar similituds entre funcions de proteïnes, o relacions entre espècies (ús de filogenètica molecular per construir arbres filogenètics).[97]

Amb la creixent quantitat de dades, des de fa molt s'ha tornat poc pràctic analitzar seqüències de ADN manualment. Avui s'usen programes de ordinador per estudiar el genoma de milers de organismes, contenint milers de milions de nucleòtid s. Aquests programes poden compensar mutacions (amb bases intercanviades, esborrades o inserides) en la seqüència d'ADN, per identificar seqüències que estan relacionades, però que no són idèntiques.[39] Una variant d'aquest alineament de seqüències s'usa en el procés de seqüenciació.

La seqüenciació coneguda com shotgun (o per perdigonada : va ser usada, per exemple, per l'Institut d'Investigació Genòmica - The Institute for Genomic Research, TIGR, avui J. Craig Venter Institute - per seqüenciar el primer genoma de bacteri, Haemophilus influenzae) [63] no dóna una llista seqüencial de nucleòtids, però en canvi ens ofereix les seqüències de milers de petits fragments d'ADN (cadascun d'aproximadament 600-800 nucleòtids de llarg). Les terminacions d'aquests fragments se superposen i, quan són alineats de la manera correcta, constitueixen el genoma complet de l'organisme en qüestió.[98]

El seqüenciament shotgun proporciona dades de seqüència ràpidament, però la tasca de acoblar els fragments pot ser força complicada per genomes molt grans. En el cas del Projecte Genoma Humà, va portar diversos mesos de temps de processador (en una estació DEC Alpha d'arreu del 2000) per acoblar els fragments. El shotgun sequencing és el mètode d'elecció per a tots els genomes seqüenciats avui en dia i els algoritmes de ensamblat genòmic són una àrea crítica de la recerca en bioinformàtica.

Un altre aspecte de la bioinformàtica en anàlisi de seqüències és la cerca automàtica de gens i seqüències reguladores dins d'un genoma.[99] No tots els nucleòtids dins d'un genoma són gens. Dins del genoma d'organismes més avançats, grans parts de l'ADN no serveixen a cap propòsit obvi. Aquest ADN, conegut com "ADN escombraries", pot, però, contenir elements funcionals encara no reconeguts.[100] La bioinformàtica serveix per estrènyer la bretxa entre els projectes de genoma i proteoma (per exemple, en l'ús de seqüències d'ADN per a identificació de proteïnes).

Mapa del cromosoma X de l'ésser humà (extret de la pàgina web del NCBI). La transcripció del genoma humà és un dels majors èxits de la bioinformàtica.

Anotació de genomes[modifica]

En el context de la genòmica, «anotació» és el procés de marcat dels gens i altres característiques biològiques de la seqüència d'ADN.[101] El primer sistema programari d'anotació de genomes va ser dissenyat el 1995 per Owen White, qui va ser membre de l'equip que va seqüenciar i analitzar el primer genoma a ser descodificat d'un organisme independent, el bacteri Haemophilus influenzae. White va construir un programari per localitzar els gens (llocs en la seqüència de DNA que codifiquen una proteïna), el ARN de transferència, i altres característiques, així com per realitzar les primeres atribucions de funció a aquests gens.[63] La majoria dels actuals sistemes d'anotació genòmica treballen de manera similar, però els programes disponibles per a l'anàlisi del genoma es troben en continu canvi i millora.

Biologia evolutiva computacional[modifica]

La biologia evolutiva és l'estudi de l'origen ancestral de les espècies, així com del seu canvi a través del temps.[102] La informàtica ha donat suport als biòlegs evolutius en camps clau. Ha permès als investigadors seguir l'evolució de molts organismes mesurant canvis en el seu ADN, en lloc de fer-ho exclusivament mitjançant la seva taxonomia física o observacions fisiològiques.[39] La comparació de genomes complets permet l'estudi d'esdeveniments evolutius més complexos, com ara la duplicació de gens, la transferència horitzontal de gens, o la predicció de factors significatius en la especiació bacteriana.[103] La informàtica aplicada als estudis evolutius també permet construir models computacionals complexos de poblacions per predir el resultat del sistema a través del temps[104] i seguir i compartir informació sobre un gran nombre d'espècies i organismes com més va més gran.

Els esforços futurs se centraran a reconstruir el cada vegada més complex arbre filogenètic de la vida.[105] L'àrea d'investigació de les ciències de la computació denominada computació evolutiva es confon ocasionalment amb la biologia evolutiva computacional, però ambdues àrees no guarden relació. Aquest camp se centra en el desenvolupament de algoritmes genètics i altres estratègies de resolució de problemes amb una marcada inspiració evolutiva i genètica.[cal citació]

Mesura de la biodiversitat[modifica]

La biodiversitat d'un ecosistema pot definir-se com el conjunt genòmic complet de totes les espècies presents en un medi ambient particular,[106] ja sigui aquest una biopel·lícula en una mina abandonada, una gota d'aigua de mar, un grapat de terra, o la biosfera completa del planeta Terra. S'utilitzen bases de dades per recollir els noms de les espècies i de les seves descripcions, distribucions, informació genètica, estat i mides de les poblacions, necessitats del seu hàbitat, i com cada organisme interacciona amb altres espècies. S'usa un programari especialitzat per trobar, visualitzar i analitzar la informació.[107] La simulació computacional pot modelar fenòmens com ara la dinàmica poblacional, o calcular la millora del patrimoni genètic d'una varietat (en agricultura), o la població amenaçada (en biologia de la conservació). A més, és possible preservar les seqüències completes del ADN, o genomas d'espècies amenaçades d'extinció, permetent registrar els resultats de l'experimentació genètica de la natura in silico per a la seva possible reutilització futura, encara que aquestes espècies s'haguessin extingit.[108] Poden citar-se, com a exemples significatius, els projectes Species 2000 o uBio.

Anàlisi de l'expressió gènica[modifica]

La expressió gènica de molts gens es pot determinar pel mesurament de nivells de mRNA mitjançant diverses tècniques, com ara xips d'ADN, seqüenciació de EST (expressed sequence tag), anàlisi en sèrie de l'expressió gènica (SAGE, de l'anglès serial analysis of gene axpression), MPSS (Massively Parallel Signature Sequencing), o diverses aplicacions d'hibridació in situ. Totes aquestes tècniques són extremadament propenses al soroll i/o subjectes a biaixos en el mesurament biològic, i una de les principals àrees de recerca en la biologia computacional tracta del desenvolupament d'eines estadístiques per separar el senyal del soroll en els estudis d'expressió gènica amb alt volum de processament.[109] Aquests estudis es fan servir sovint per determinar els gens implicats en un desordre: podrien, per exemple, comparar dades de xips d'ADN de cèl·lulas epitelials canceroses amb dades de cèl·lules no canceroses per determinar les transcripcions que són activades o reprimides en una població particular de cèl·lules canceroses.[110]

Anàlisi de la regulació[modifica]

La regulació gènica és la complexa orquestració d'esdeveniments que comencen amb un senyal extracel·lular com ara una hormona, que condueixen a un increment o decrement en l'activitat d'una o més proteïnas.[111] S'han aplicat tècniques bioinformàtiques per explorar diversos passos en aquest procés. Per exemple, l'anàlisi del promotor d'un gen implica la identificació i estudi de les seqüències motiu al voltant de l'ADN de la regió codificant d'un gen.[112] Aquests motius influeixen en l'abast segons el qual aquesta regió es transcriu a ARNm. Les dades d'expressió poden usar-se per inferir la regulació gènica: podrien comparar dades de xips d'ADN provinents d'una àmplia varietat d'estats d'un organisme per formular hipòtesis sobre els gens que intervenen en cada estat. En un organisme unicel·lular, podrien comparar etapes del cicle cel·lular al llarg de condicions variades d'estrès (xoc de calor, inanició, etc.). Podrien aplicar, llavors, algoritmes d'agrupament (algoritmes de clustering, o anàlisi de clúster ) a aquesta informació d'expressió per determinar quins gens són expressats simultàniament.[113] Per exemple, els promotors d'aquests gens es poden buscar segons l'abundància de seqüències o elements reguladors.[cal citació]

Anàlisi de l'expressió de proteïnes[modifica]

Els xips d'ADN de proteïnes i la espectrometria de masses d'alt rendiment poden proporcionar una instantània de les proteïnes presents en una mostra biològica. La bioinformàtica està molt compromesa en donar suport a ambdós procediments. L'aproximació als xips d'ADN de proteïnes presenten problemes similars als existents per al xips d'ADN destinats a ARNm,[114] mentre que, per a la espectrometria de masses, el problema és casar grans quantitats de dades de massa contra masses predites per bases de dades de seqüències de proteïnes, a més de la complicada anàlisi estadística de mostres en què es detecten molts, però incomplets, pèptids de cada proteïna.[115]

Anàlisi de mutacions en el càncer[modifica]

En el càncer, els genomes de les cèl·lules afectades són reordenats en maneres complexes i/o encara impredictibles. Es fan grans esforços de seqüenciació per a identificar substitucions individuals de bases (o mutacions puntuals) encara desconegudes en una varietat de gens en el càncer.[116] Els bioinformàtics continuen produint sistemes automatitzats per gestionar l'important volum de dades de seqüències obtingut, i creen nous algoritmes si programari per comparar els resultats de seqüenciació[No s'entén] amb la creixent col·lecció de seqüències del genoma humà i dels polimorfismes de la línia germinal. S'estan utilitzant noves tecnologies de detecció física, com els microarrays d'oligonucleòtids per identificar pèrdues i guanys cromosòmiques (tècnica anomenada hibridació genòmica comparativa),[117] i els xips de polimorfismes de nucleòtid simple per detectar punts de mutació coneguts.[118] Aquests mètodes de detecció mesuren simultàniament bastants centenars de milers de posicions al llarg del genoma, i quan s'usen amb una alta productivitat per analitzar milers de mostres, generen terabits de dades en cada experiment. D'aquesta manera les quantitats massives i nous tipus de dades proporcionen noves oportunitats per als bioinformàtics. Sovint es troba en les dades una considerable variabilitat, o soroll, de manera que mètodes com el dels models ocults de Markov i l'anàlisi de punts de canvi estan sent desenvolupats per inferir canvis reals en el nombre de còpies dels gens (nombre de còpies d'un gen particular en el genotip d'un individu, la magnitud pot ser elevada en cèl·lules canceroses).[119][120]

Un altre tipus de dades que requereix nous desenvolupaments informàtics és l'anàlisi de les lesions trobades de manera recurrent en bon nombre de tumors, principalment per anàlisi automatitzat d'imatge clínica.

Predicció de l'estructura de les proteïnes[modifica]

Alineament estructural de tiorredoxinas de l'ésser humà i de la mosca Drosophila melanogaster. Les proteïnes es mostren com cintes, amb la proteïna humana en vermell i la de la mosca en groc. Generat amb PDB 3TRX i 1XWC.

La predicció de l'estructura de les proteïnes és una altra important aplicació de la bioinformàtica. La seqüència de aminoàcids d'una proteïna, també anomenada estructura primària, es pot determinar fàcilment des de la seqüència de nucleòtids sobre el gen que la codifica.[121] En la immensa majoria dels casos, aquesta estructura primària determina únicament una estructura de la proteïna en el seu ambient natiu. (Hi ha excepcions, com ara l'encefalopatia espongiforme bovina, o «mal de les vaques boges; vegeu, també, prió.) El coneixement de l'estructura de la proteïna és fonamental per entendre'n la funció.[122] En absència de millors termes, la informació estructural de les proteïnes es classifica usualment com a estructura secundària, terciària i quaternària. Una solució general viable per a la predicció d'aquestes estructures roman encara com problema obert. Per ara, la majoria dels esforços han estat dirigits cap heurístiques que funcionen la majoria de les vegades.[123]

Una de les idees clau en bioinformàtica és la noció d'homologia. A la branca genòmica de la bioinformàtica, s'usa l'homologia per predir la funció d'un gen: si la seqüència de gen A, la funció del qual és coneguda, és homòloga a la seqüència de gen B, la funció del qual és desconeguda, pot inferir-se que B podria compartir la funció d'A [124] A la branca estructural de la bioinformàtica, l'homologia s'usa per dir quines["quines" què?] d'una proteïna són importants en la formació de l'estructura i en la interacció amb altres proteïnes. En la tècnica anomenada modelat per homologia, aquesta informació s'utilitza per predir l'estructura d'una proteïna un cop coneguda l'estructura d'una proteïna homòloga.[125] Aquesta via és, actualment, l'única per predir estructures de proteïnes d'una manera fiable.

Un exemple d'això és la similar homologia proteica entre l'hemoglobina dels humans i l'hemoglobina dels llegums (leghemoglobina). Ambdues serveixen per a la mateixa funció de transportar oxigen en l'organisme. Tot i que les dues tenen una seqüència d'aminoàcids completament diferent, les seves estructures són pràcticament idèntiques, el que reflecteix les seves funcions, pràcticament idèntiques.[126]

Altres tècniques per predir l'estructura de les proteïnes són l'enfilat de proteïnes (protein threading) [127] i el modelatge de novo (des de zero), basat en les característiques físiques i químiques.[128]

Sobre això, es poden veure també motiu estructural (structural motif) i domini estructural (structural domain).

Genòmica comparativa[modifica]

El nucli de l'anàlisi comparativa del genoma és l'establiment de la correspondència entre gens (anàlisi ortòleg) o entre altres característiques genòmiques de diferents organismes. Aquests mapes intergenómics són els que fan possible rastrejar els processos evolutius responsables de la divergència entre dos genomes. Molts esdeveniments evolutius actuant a diferents nivells organitzatius conformen l'evolució del genoma.[129] Al nivell més baix, les mutacions puntuals afecten nucleòtids individuals. Al major nivell, amplis segments cromosòmics experimenten duplicació, transferència horitzontal, inversió, transposició, esborrat i inserció. Finalment, els genomes sencers poden intervenir en processos d'hibridació, poliploïdia i endosimbiosi, que sovint originen una sobtada especiació.[cal citació]

La complexitat de l'evolució del genoma planteja molts reptes a desenvolupadors de models matemàtics i algoritmes, que han de recórrer a diverses tècniques algorítmiques, estadístiques i matemàtiques que s'estenen des d'exactes, heurístiques, amb paràmetres fixats, i mitjançant algoritmes d'aproximació per problemes basats en models de parsimònia, fins a algoritmes de la cadena de Màrkov Monte Carlo (MCMC, de l'anglès Markov chain Monte Carlo) per anàlisi bayesià de problemes basats en models probabilístics.[130]

Molts d'aquests estudis estan basats en la detecció d'homologia i la computació de famílies de proteïnes.

Modelatge de sistemes biològics[modifica]

La biologia de sistemes es basa en simulacions per ordinador de subsistemes cel·lulars (com ara xarxes de metabòlits i enzims que comprenen el metabolisme, vies de transducció de senyals i xarxes de regulació genètica), tant per analitzar com per a visualitzar les complexes connexions d'aquests processos cel·lulars.[131] La vida artificial o l'evolució virtual tracten d'entendre els processos evolutius mitjançant de la simulació per ordinador de senzilles formes de vida (artificial).[132]

Anàlisi d'imatge d'alt rendiment[modifica]

S'estan usant tecnologies de computació per accelerar o automatitzar completament el processament, quantificació i anàlisi de grans quantitats d'imatges biomèdiques amb alt contingut d'informació. Els moderns sistemes de anàlisi d'imatge incrementen l'habilitat de l'observador per realitzar anàlisis sobre un conjunt d'imatges ampli o complex, tot millorant-ne la precisió, l'objectivitat (independència dels resultats segons l'observador) o la rapidesa. Un sistema d'anàlisi totalment desenvolupat podria reemplaçar completament l'observador. Tot i que aquests sistemes no són exclusius del camp de les imatges biomèdiques, cada vegada són més importants tant per al diagnòstic com per a la investigació. En són alguns exemples: la quantificació i localització subcel·lular amb alta productivitat i precisió (high-content screening, citohistopatología);[133] la morfometria;.[134] l'anàlisi i visualització d'imatges clíniques;[135] la determinació de patrons en el flux de l'aire en temps real de la respiració pulmonar d'animals vius; la quantificació de la grandària de l'oclusió a través d'imatges en temps real, tant per desenvolupament com per recuperació, de lesions artèrials;[136] les observacions conductuals basades en enregistraments en vídeo perllongats d'animals de laboratori, i les observacions amb infraroig (espectroscòpia infraroja) per a la determinació de l'activitat metabòlica.[137]

Acoblament proteïna-proteïna[modifica]

En les últimes dues dècades, desenes de milers d'estructures tridimensionals de proteïnes han estat determinades per cristal·lografia de raigs X i espectroscòpia mitjançant ressonància magnètica nuclear de proteïnes (RMN de proteïnes). Una qüestió central per als científics és si resulta viable la predicció de possibles interaccions proteïna-proteïna sols basats en aquestes formes en tres dimensions, sense fer experiments identificatius d'aquestes interaccions. S'han desenvolupat una varietat de mètodes per enfrontar-se al problema de l'acoblament proteïna-proteïna, si bé sembla que queda encara molta feina en aquest camp.[138]

Programes[modifica]

Els programes per a bioinformàtica van des de simples eines de línia d'ordres fins a programes gràfics molt més complexos i serveis web autònoms situats en companyies de bioinformàtica o institucions públiques. La més coneguda eina de biologia computacional entre els els biòlegs és, probablement, BLAST, un algorisme per determinar la similitud de seqüències arbitràries amb altres seqüències,[69] probablement residents en bases de dades de proteïnes o de seqüències d'ADN. El Centre Nacional per a la Informació Biotecnològica dels Estats Units (NCBI, de l'anglès National Center for Biotechnology Information), per exemple, proporciona una implementació molt utilitzada, basada en web, i que treballa sobre les seves bases de dades.[139]

Per alineaments múltiples de seqüències, el clàssic ClustalW,[71] és el programari de referència. Es pot treballar amb una implementació d'aquest programari a l'Institut Europeu de Bioinformàtica (EBI, de l'anglès European Bioinformatics Institute).[140]

BLAST i ClustalW són només dos exemples dels molts programes de alineament de seqüències disponibles. Hi ha, d'altra banda, altres programaris bioinformàtics amb altres objectius: alineament estructural de proteïnes, predicció de gens i altres motius, predicció d'estructura de proteïnes, predicció d'acoblament proteïna–proteïna, o modelat de sistemes biològics, entre d'altres. En Annex: Programari per alineament de seqüències i Annex: Programari per alineament estructural es poden trobar sengles relacions de programes o serveis web adequats per a cada un d'aquests dos objectius en particular.

Serveis web en bioinformàtica[modifica]

S'han desenvolupat interfícies basades en protocol simple d'accés a objectes (SOAP, de l'anglès simple object access protocol) i en REST ( Representational State Transfer, transferència d'estat representacional) per a una gran varietat d'aplicacions bioinformàtiques, que permeten que una aplicació, corrent en un ordinador de qualsevol part del món, pugui utilitzar algoritmes, dades i recursos de computació allotjats a servidors en qualsevol altra part del planeta. Els principals avantatges radiquen en el fet que l'usuari final no s'ha de preocupar de fer actualitzacions i modificacions en el programari o en les bases de dades.[141] Els serveis bioinformàtics bàsics, d'acord a la classificació implícita de l'Institut Europeu de Bioinformàtica, són: Serveis d'obtenció d'informació en línia (consultes a bases de dades, per exemple); eines d'anàlisi (per exemple, serveis que donen accés a emboss); cerca de similituds entre seqüències (serveis d'accés a FASTA o BLAST, per exemple); alineaments múltiples de seqüències (accés a ClustalW o T-Coffee); anàlisi estructural (accés a serveis de alineament estructural de proteïnes, per exemple) i serveis d'accés a literatura especialitzada i ontologies.[142]

La disponibilitat d'aquests serveis web basats en SOAP a través de sistemes com ara els serveis de registre,[143] (serveis de distribució i descobriment de dades a través de serveis web) demostra l'aplicabilitat de solucions bioinformàtiques basades en web. Aquestes eines varien des d'una col·lecció d'eines autònomes amb un format de dades comú, i sota una única interfície autònoma o basada en web, fins a sistemes integradors i extensibles per a la gestió del flux de treball bioinformàtic.

Referències[modifica]

  1. European Bioinformatics Institute. What is Bioinformatics? (en anglès), 2006 [Consulta: 3 setembre 2008]. 
  2. Un exemple de la utilització com a sinònims entre bioinformàtica i biologia computacional es troba en el propi lloc de l' Human Genome Project , on en el seu glossari redirigeixen al final Bioinformatics la definició de Computational biology .
  3. Un exemple de la utilització com a sinònims entre biocomputació i bioinformàtica es troba en el lloc de la Biocomputing Unit Arxivat 2008-10-26 a Wayback Machine. del Centre Nacional de Biotecnologia , centre científic espanyol dependent del CSIC
  4. Bajic, V. B., et al. «1.59.1237 From informatics to Bioinformatics». Proceedings of the first Àsia-Pacific Bioinformatics conference on Bioinformatics, Adelaide, 2003.
  5. Lander, Eric S.; Waterman, Michael S.. Calculating the Secrets of Life: Contributions of the Mathematical Sciences to Molecular Biology. National Academy Press, 1995. ISBN 0-309-07502-5. 
  6. Plantilla:Cita statistics for Bioinformatics
  7. Veure, per exemple, els workshops anuals WABI ( Workshop on Algorithms in Bioinformatics , taller sobre algoritmes bioinformàtics), el setembre de 2008, l'últim WABI realitzat pot trobar informació a www.wabi07.org/, mentre que de WABI 2008 pot trobar informació prèvia a http://algo2008.org/doku.php/wabi Arxivat 2015-06-30 a Wayback Machine.
  8. Frasconi, P.; Shamir, R. NAT Science. Artificial Intelligence and Heuristic Methods in Bioinformatics. IOS Press, agost 2003. ISBN 1586032941. 
  9. Plantilla:Cita in Bioinformatics
  10. Ibba, M. «Biochemistry and Bioinformatics: when Worlds Collide». Trends in Biochemical Sciences, 27, 2002.
  11. [B. Altman]. . html Guide to Bioinformatics at Stanford University (en anglès), 2006 [Consulta: 28 agost 2008]. « The definition of Bioinformatics is not univerally agreed upon. Generally speaking, we defineix it es the creation and development of advanced information and computational technologies for problems in biology, most commonly molecular biology (but increasingly in other àrees of biology). » 
  12. Werner, E. «2005/278/pe16 The Future and Limits of Systems Biology». Science Signaling, 2005, 2005. ISSN 1525-8882.
  13. 13,0 13,1 Kanehisa, M; Bork, P. «Bioinformatics in the post-sequence era». Nature Genetics, 33, 2003.
  14. Plantilla:Cita Genomics and Its Impact on Science and Society: The Human Genome Project and Beyond
  15. jsp Genevestigator és un complet exemple d'aplicació (basada en web, en aquest cas) orientada a l'estudi de l'expressió i regulació dels gens.
  16. Horta, M et al.. NIH working definition of Bioinformatics and computational biology (pdf) (en anglès), 17 juliol 2000 [Consulta: 21 agost 2008]. 
  17. Kaminuma, T; Matsumoto, G. Biocomputers. Chapman and Hall, 1991. ISBN 978-0412357701. 
  18. Mount, David W. Bioinformatics. Sequence and Genome Analysis. 2 ª. Cold Spring Harbor Laboratory Press, 2004. ISBN 0-87969-712-1. 
  19. gibas, Cynthia. Developing Bioinformatics Computer Skills. O'Reilly, 2001. ISBN 1-56592-664-1. 
  20. Attwood TK, Gisel A., Eriksson NE. and Bongcam-Rudloff E.. Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European - Trends and Methodologies. InTech, 2011 [Consulta: 8 gener 2012]. 
  21. Watson, JD i Crick, F.H.C.. A Structure for Deoxyribose Nucleic Acid. 171, 1953, p. 737-738. DOI 10.1038/171737a0. 
  22. Shampo, M. A. i Kyle, R. A.. Frederick Sanger- Winner of 2 Nobel Prizes (en anglès). Maig Clinic Proceedings, 2002 [Consulta: 5 setembre 2008].  Arxivat 2009-01-16 a Wayback Machine.
  23. Texas Instruments. The Xip that Jack Built (en anglès) [Consulta: 5 setembre 2008]. 
  24. Pauling, L. i Zuckerkandl, E.. «Molecular disease, evolution, and genic heterogeneity». A: Horizons in Biochemistry. Academic Press, 1962. 978-0124004504. 
  25. Guigó, R. «Bioinformàtica: La creixent interconnexió entre biologia i computació». Butlletí electrònic de la Societat Espanyola de Genètica, 2003.
  26. Hauben, M.. «History of ARPANET». A: acc/docs/arpa.html Behind the Net: The Untold Story of the ARPANET and Computer Science (en anglès), 1998 [Consulta: 5 setembre 2008]. 
  27. Needleman, S. i Wunsch, C. «A general method applicable to the search for similarities in the amino acid sequence of two proteins». Journal of Molecular Biology, 48, 1970.
  28. Bernstein, F. C., et al. «The Protein Data Bank. A Computer-Based Archival File for Macromolecular Structures». European Journal of Biochemistry, 80, 1977.
  29. Berg, P., et al. «Biochemical Method for Inserting New Genetic Information into DNA of Simian Virus 40: Circular SV40 DNA molecules Containing Lambda Phage Gens and the Galactose Operon of Escherichia coli». Proceedings of the National Academy of Sciences, 69, 1972.
  30. Southern, E. M. «Detection of specific sequences among DNA fragments separated by gel electrophoresis». Journal of Molecular Biology, 98, 3, 1975.
  31. Sanger, F., et al. «artid = 431765 & blobtype = pdf DNA sequencing with chain-terminating inhibitors». Proceedings of National Academy of Sciences, 74, 1977.
  32. Staden, R. «Sequence data handling by computer». Nucleic Acids Research, 4, 1977. Pàg. 4037-4051.
  33. 33,0 33,1 Sanger, F., et al. «The nucleotide sequence of bacteriophage φX174». Journal of Molecular Biology, 125, 2, 1978.
  34. Tomlinson, R .. tomlinso/ray/firstemailframe.html The First Network Email (en anglès). BBN Technologies [Consulta: 6 setembre 2008]. 
  35. Alfred, R. «# May 22, 1973: Enter Ethernet». WIRED, 2008.
  36. Cerf, V., Kahn, R., et al.. A Brief History of the Internet (en anglès). Internet Society, 2003 [Consulta: 6 setembre 2008]. 
  37. Sanger, F., et al. «nucleotide sequence of bacteriophage λ DNA». Journal of Molecular Biology, 162, 4, 1982.
  38. Wüthrich, K., et al. «ethz.ch/groups/wider_group/publications/WIDERjmolbiol155.311.pdf Sequential Resonance Assignments es a Basis for Determination of Spatial Protein Structures by High Resolution Proton Nuclear Magnetic Resonance». Journal of Molecular Biology, 1982.
  39. 39,0 39,1 39,2 Doolittle, R. F. «Similar amino acid sequences: chance or common ancestry?». Science, 214, 1981.
  40. Bartlett, J. M. S., Stirling, Sr «-4:3 # A Short History of the Polymerase Chain Reaction». Methods in Molecular Biology, 226, 2003.
  41. Burke, D. T., el al. «Cloning of Large segments of Exogenous DNA into Yeast by Means of Artificial Chromosome Vectors». Science, 236, 1987.
  42. Kulesh, D. A., et al. «Identification of interferon-modulated proliferation-related cDNA sequences». Proceedings of the National Academy of Sciences, 84, 1987.
  43. smith T. F., Waterman M. S. «chc/AB_papers/03.pdf Identification of Common Molecular Subsequences». Journal of Molecular Biology, 147, 1981. DOI: 10.1016/0022-2836 (81) 90087-5.
  44. Wilbur, W. J., Lipman, Sr J. «Rapid similarity searches of Nucleic acid and protein data banks». Proceedings of the National Academy of Sciences, 80, 1983.
  45. Lipman, D. J., Pearson, W. R. «= PubMed & list_uids = 2983426 Rapid and Sensitive Protein similarity Searches». Science, 227, 1985.
  46. Lipman, D. J., Pearson, W. R. «Improved tools for biological sequence comparison.». Proceedings of the National Academy of Sciences, 85, 1988.
  47. Churchill, G. A. «Teoria models for heterogeneous DNA sequences». Bulletin of Mathematical Biology, 51, 1989.
  48. Un exemple d'article de predicció de gens en E. coli aplicant HMM el trobem en Krogh, A., et al. (1993) A Hidden Markov Model that finds gens in E. coli DNA
  49. Un exemple d'article de predicció d'estructures en proteïnes el trobem en Sonnhammer, E. L. L. (1998) A hidden Markov model for predicting transmembrane helices in protein sequences
  50. Cravedi, K. org/pub_releases/2008-04/nlom-gc2040708.php GenBank celebrates 25 years of service (en anglès). AAAS (Eurekalert), 2008 [Consulta: 7 setembre 2008]. 
  51. Bairoch, A., Boeckmann, B. «? artid = 308324 The Swiss-Prot protein sequence data bank: current status». Nucleic Acids Research, 22, 1994.
  52. Un bon recurs d'introducció a EMBnet és la pàgina What is EMBnet? Arxivat 2008-09-07 a Wayback Machine. de la pròpia web de l'organització, a partir de la qual pot explorar la mateixa amb facilitat
  53. Office of Information and Public Affairs (EMBL). Brief History (en anglès). EMBL, 2008 [Consulta: 7 setembre 2008].  Arxivat 24 de juliol 2008 a Wayback Machine.
  54. National Center for Biotechnology Information. NCBI at a Glance: Our Mission (en anglès). NCBI, 2004 [Consulta: 7 setembre 2008]. 
  55. U. S. Human Genome Project. Major Events in the US Human Genome Project and Related Projects (en anglès). Office of Science - U. S. Dpt. of Energy, 2008 [Consulta: 7 setembre 2008]. 
  56. Plantilla:Cita Genomics and Its Impact on Science and Society: The Human Genome Project and Beyond
  57. Davidson, M. W.. History of the disc compacte (en anglès). Florida State University, 2003 [Consulta: 7 setembre 2008]. 
  58. Robles, O. Butlletí de Política Informàtica (Institut Nacional d'Estadística i Geografia, govern de Mèxic), 1.
  59. Mount , D. W.. «Bioinformatics Programming Using Perl and Perl Modules». A: Bioinformatics: Sequence and Genome Analysis - 2nd ed. New York: Cold Spring Harbor Laboratory Press, 2004. ISBN 0-87969-712-1. 
  60. Accelrys Programari Inc. About Accelrys (en anglès) [Consulta: 7 setembre 2008].  Arxivat 9 de gener 2010 a Wayback Machine.
  61. Adams, M. D., et al. «Complementary DNA sequencing: Expressed sequence tags and human genome project». Science, 252, 1991.
  62. Weissenbach, J., et al. «A second-generation linkage map of the human genome». Nature, 359, 1992.
  63. 63,0 63,1 63,2 Fleischmann, R. D., et al. «dopt = Abstract Whole-genome random sequencing and assembly of Haemophilus influenzae Rd». Science, 269, 1995.
  64. Fraser, C. M., et al. «The Minimal General Complement of Mycoplasma genitalium ». Science, 270, 1995.
  65. National Human Genome Research Institute - NIH. International Team Completes DNA Sequence of Yeast (en anglès), 1996 [Consulta: 9 setembre 2008]. 
  66. Blattner, F. R. «The complete genome sequence of Escherichia coli K-12». Science, 277, 1997.
  67. C. elegans Sequencing Consortium «Genome sequence of the nematode C. elegans: a platform for investigating biology». Science, 282, 1998.
  68. Dunham, I. , et al. «The DNA sequence of human chromosome 22». Nature, 402, 1999. ISSN 0028-0836, pàg. 489-495.
  69. 69,0 69,1 Altschul, S. F. «lippert/18.417/papers/altschuletal1990.pdf Basic Local Alignment Search Tool». Journal of Molecular Biology, 215, 3, 1990.
  70. Attwood, T. K., Beck, M. E. «PRINTS-a protein motif fingerprint database». Protein Engineering, 7, 1994. ISSN 1741-0134, pàg. 841-848.
  71. 71,0 71,1 Thompson, J. D., et al. «CLUSTAL W: Improving the sensitivity of progressive múltiple sequence Alignment through sequence weighting, position-specific gap penals and weight matrix choice». Nucleic Acids Research, 22, 1994. Pàg. 4673-80.
  72. Altschul, S. F., et al. «Gapped BLAST and PSI-BLAST: a new generation of protein database search programs». Nucleic Acids Research, 25, 1997. Pàg. 3389-402.
  73. Notredame, C. «T-Coffee: A novell method for fast and accurate múltiple sequence Alignment». Journal of Molecular Biology, 302, 1, 2000.
  74. Roberts, L. «A History of the Human Genome Project». Science, 291, 2001. Pàg 1195.
  75. Sanger Institute. «Introduction to the Sanger Institute: General Information» (en anglès), 2008. [Consulta: 10 setembre 2008].
  76. European Bioinformatics Institute. «About the EMBL-EBI» (en anglès), 2006. [Consulta: 10 setembre 2008].
  77. CERN. Welcome to info.cern.ch: The website of the world 's first-ever web server (en anglès), 2008 [Consulta: 10 setembre 2008]. 
  78. Berners-Lee, T., et al. «World-Wide Web: An Information Infrastructure for High-Energy Physics». Proceedings of the Workshop on Software Engineering, Artificial Intelligence and Expert Systems for High Energy and Nuclear Physics, 1992.
  79. Linux Online !. The History of Linux (en anglès). linux.org, 1994-2008 [Consulta: 10 setembre 2008]. 
  80. Celera. Celera: Our History (en anglès), 2008 [Consulta: 10 setembre 2008]. 
  81. The Arabidopsis Initiative «Analysis of the genome sequence of the Flowering plant Arabidopsis thaliana». Nature, 408, 2000. Pàg. 796-815.
  82. Adams, M. D., et al. «The Genome Sequence of Drosophila melanogaster». Science, 287, 2000. Pàg. 2185-2195.
  83. Thompson, A.. International Human Genome Sequencing Consortium Announces "Working Draft" of Human Genome (en anglès). National Human Genome Research Institute - NHGRI (NIH), juny 2000 [Consulta: 13 setembre 2008]. 
  84. Venter, J. C., et al. «The Sequence of the Human Genome». Science, 291, 2001. Pàg. 1304-1351.
  85. Error en el títol o la url.Human Genome Project. «» (en anglès). Office of Science (DoE), 2003. [Consulta: 13 setembre 2008].
  86. National Human Genome Research Institute - NHGRI (NIH). Scientists Compareu Rat Genome With Human, Mouse (en anglès). NHGRI, març 2004 [Consulta: 13 setembre 2008]. 
  87. Chimpanzee Sequencing and Analysis Consortium «Initial sequence of the Chimpanzee genome and comparison with the human genome». Nature, 437, 2005. Pàg. 69-87.
  88. National Institutes of Health (NIH) «Researchers assemble Second Non-Human Primat Genome» (en anglès). NIH News. NIH, febrer 2006 [Consulta: 13 setembre 2008].
  89. ScienceDaily. Domestic Cat Genome Sequenced (en anglès). ScienceDaily, novembre 2007 [Consulta: 13 setembre 2008]. 
  90. Enserink, M.. GENOMICS: Read All About It - The First Female Genome ! Or is it? (en anglès). Science, juny 2008 [Consulta: 13 setembre 2008]. 
  91. Fundació Genoma España. . cfm? pàg = 0400 Institut Nacional de Bioinformàtica: Què és?. Fundació Genoma Espanya, 2008 [Consulta: 13 setembre 2008]. 
  92. Fundació Genoma España. «Fundación Genoma Espanya: Història». Fundació Genoma Espanya - Informació Corporativa, 2008. [Consulta: 13 setembre 2008].
  93. U. S. Food and Drug Administration - FDA «FDA Clears First of Kind Genetic Lab Test» (en anglès). FDA News. FDA, desembre 2004 [Consulta: 13 setembre 2008].
  94. The International HapMap Consortium «A haplotype map of the human genome». Nature, 437, 2005. Pàg. 1299-1320.
  95. UniProt Consortium «First draft of the complete human proteome available in UniProtKB/Swiss-Prot» (en anglès). UniProt News, setembre 2008 [Consulta: 21 setembre 2008].
  96. Larkin, M. A., et al. «Clustal W and Clustal X versió 2.0». Bioinformatics, 23, 2007. Pàg. 2947-2948.
  97. Li, Wen-Hsiung. Molecular Evolution. Sinauer Associates Inc, 2006. ISBN 978-0878934805. 
  98. Pop, M. «Shotgun Sequence Assembly». Advances in Computers, 60, 2004. ISSN 0065-2458, Págs.193-248.
  99. Center for Bioinformatics and Computational Biology - CBCB. Gene Finding Tools (i altres recursos) (en anglès). CBCB, 2006 [Consulta: 14 setembre 2008].  Arxivat 18 de desembre 2008 a Wayback Machine.
  100. The ENCODE Project Consortium «Identification and analysis of functional Elements in 1% of the human genome by the ENCODE pilot project». Nature, 447, 2007. ISSN 0028-0836, pàg. 799-816.
  101. Abascal, F.. Anàlisi de genomes. Mètodes per a la predicció i anotació de la funció de les proteïnes (pdf), 2003 [Consulta: 14 setembre 2008].  Arxivat 9 August 2011[Date mismatch] a Wayback Machine.
  102. Futuyma, Douglas J. Evolutionary Biology. 3 ª. Sinauer Associates, 1997. ISBN 0878931899. 
  103. Human Genome Project Information. Functional and Comparative Genomics Fact Sheet (en anglès). U. S. Doe - Office of Science, 2008 [Consulta: 15 setembre 2008]. 
  104. Levin, S. A. «= Mathematical and Computational Challenges in Population Biology and Ecosystems Science». Science, 275, 1997. ISSN 0036-8075, pàg. 334-343.
  105. PhyLoTA Project. PhyLoTA project lloc web - Tools to build the tree of life from sequence databases (en anglès). Univ d'Arizona [Consulta: 16 setembre 2008].  Arxivat 26 de febrer 2009 a Wayback Machine.
  106. United Nations Environment Programme - UNEP, et al. «.org/publication/content/8515 The diversity of life» (en anglès). Global Biodiversity Strategy: Guidelines for action to save, study and utilitzeu Earth s BIOTIC wealth sustainably and equitably. World Resources Institute (per l'edició en web), 1992 [Consulta: 16 setembre 2008].
  107. Bisby, F . A. «The Quiet Revolution: Biodiversity Informatics and the Internet». Science, 289, 2000. ISSN 0036-8075, pàg. 2309-2312.
  108. Ryder, O. A., et al. Science, 288, 5464, 2000. ISSN 0036-8075, pàg. 275-277.
  109. Plantilla:Cita the transcriptome - methods and applications
  110. Buhler, J.. jbuhler/research/array/ Anatomy of a Comparative Gene Expression Study (en anglès). Washington University in St Louis - Dpt. of Computer Science & Engineering, 2002 [Consulta: 18 setembre 2008]. 
  111. King , M. W. «Control of Gene Expression» (en anglès). The Medical Biochemistry Page, 2008 [Consulta: 19 setembre 2008].
  112. Pedersen, A. G., et al. «The Biology of Eukaryotic Promoter Prediction-a Review». Computers & Chemistry, 23, 1999. Pàg. 191-207.
  113. Moreau, I. «Functional Bioinformatics of microarray data: from expression to regulation». Proceedings of the IEEE, 90, 11, 2002. Pàg. 1722-1743.
  114. Poetz, O., et al. «Protein microarrays: catching the proteome». Mechanisms of Ageing and Development, 126, 1, 2005. Pàg. 161-170.
  115. Cristoni, S.; Bernardi, L. R. «Bioinformatics in Mass Spectrometry data analysis for Proteomics studies». Expert Review of Proteomics, 1, 4, 2004. Pàg. 469-483.
  116. Plantilla:Cita Concepts: SNPs
  117. Pinkel, D.; Albertson, D. G. «Array comparative Genomic hybridization and its applications in cancer». Nature Genetics, 37, 2005. Pàg. S11-S17.
  118. Zhao, X., et al. «An Integrated View of Copy Number and Allelic Alterations in the Cancer Genome Using single nucleotide polymorphism Arrays». Cancer Research, 64, 2004. Pàg. 3060-3071.
  119. Lai, W. R., et al. «Comparative analysis of algorithms for Identifying amplifications and deletions in array CGH data». Bioinformatics, 21, 2005. ISSN 1460-2059, pàg. 3763-3770.
  120. Olshen, A . B.; Venkatraman, E. S. «Change-point analysis of array-based comparative Genomic hybridization data». American Statistical Association Proceedings of the Joint Statistical Meetings, American Statistical Association, Alexandria, VA, 2002. Pàg. 2530-2535.
  121. Nirenberg, M.. The genetic code (pdf) (en anglès). nobelprize.org, 2008 [Consulta: 25 setembre 2008]. 
  122. Hegyi, H.; Gerstein, M. Journal of Molecular Biology, 228, 1, 1999. Pàg. 147-164.
  123. Moult, J. Current Opinion in Structural Biology, 15, 3, 2005. Pàg. 285-289.
  124. Pellegrini, M., et al. «Assigning protein functions by comparative genome analysis: Protein Phylogenetic perfils». Proceedings of the National Academy of Sciences (EUA), 96, 1999. 4285-4288.
  125. Martí -Renom, M. A., et al. «wolfson/bioinfosem05/papers/homology_mod/Sali_annurev.biophys00.pdf Comparative Protein Structure Modeling of Gens and Genomes». Annual Review of Biophysics and Biomolecular Structure, 29, 2000. Pàg. 291-325.
  126. Berg, J. M., et al.. «7 - Exploring three-dimensional structure is much more closely associated with function than is sequence, tertiary structure is more evolutionarily conserved than is primary structure. This conservation is Apparent in the tertiary structures of the globins (...), which are extremely similar esdeveniments though the similarity between (...) human hemoglobin (α chain) and lupine leghemoglobin is not statistically Significant (15.6% identity).». A: Biochemistry. 5 ª. W. H. Freeman and Co (edició paper); NCBI Bookshelf (edició electrònica), 2002. ISBN 0716730510. 
  127. Bowie, J. U., et al. «A Method to Identify Protein Sequences That Fold into a Known Three-Dimensional Stucture». Science, 253, 1991. ISSN 0036-8075, pàg. 164-170.
  128. Baker, D.; Sali, A. «Protein Structure Prediction and Structural Genomics». Science, 294, 2001. ISSN 0036-8075, pàg. 93-96.
  129. Hardison, R. C. «Comparative Genomics». PLoS Biology, 1, 2003. Pàg. 156-160.
  130. Plantilla:Cita methods in comparative genomics
  131. Kitano, H. «Systems Biology: A Brief Overview». Science, 295, 2002. ISSN 0036-8075, pàg. 1662-1664.
  132. Bedau , M. A. «mab/publications/papers/BedauTICS03.pdf Artificial life: organization, Adaptation and complexity from the bottom up». TRENDS in Cognitive Sciences, 7, 2003. Pàg. 505-512.
  133. Jones, T. R., et al. «thouis/JonesEtAlMIAAB.pdf Methods for High-Content, High-Throughput Image-Based Cell Screening». Proceedings of the Workshop on Microscopic Image Analysis with Applications in Biology held in association with MICCAI06 (Medical Image Computing and Computer-Assisted Intervention ) - Copenhaguen, 5 octubre 2006, 2006. Pàg. 65-72.
  134. Zelditch, M., et al.. Geometric Morphometrics for Biologists: A Primer. Academic Press, 2004. ISBN 0127784608. 
  135. Meijer, G. A., et al. «Origins of ... Image analysis in clinical Pathology». Journal of Clinical Pathology, 50, 1997. Pàg. 365-370.
  136. Craiem, D . et al. «New Assessment of Endothelium-Dependent Flow-Mediated Vasodilation to Characterize Endothelium Dysfunction». American Journal of Therapeutics, 15, 2008. Pàg. 340-344.
  137. Ellis, D. I.; Goodacre, R. «Metabolic fingerprinting in disease diagnosi: Biomedical applications of infrared and Raman Spectroscopy». The Analyst, 131, 2006. Pàg. 875-885.
  138. Russell, R. B., et al. «A structural perspective on protein-protein interactions». Current Opinion in Structural Biology, 14, 2004. Pàg. 313-324.
  139. National Center for Biotechnology Information - NCBI. NCBI/BLAST Home (en anglès) [Consulta: 14 setembre 2008]. 
  140. Institut Europeu de Bioinformàtica - EBI. ac.uk/Tools/clustalw2/index.html EMBL-EBI: ClustalW2 (en anglès), 2008 [Consulta: 14 setembre 2008]. 
  141. European Bioinformatics Institute. uk/2can/tutorials/webservices/index.html EBI Web Services (en anglès), 2006 [Consulta: 3 setembre 2008]. 
  142. European Bioinformatics Institute. Web Services at the EBI (en anglès), 2006 [Consulta: 3 setembre 2008]. 
  143. BioMoby, usat per, entre altres, el Nacional de Bioinformàtica espanyol, és un exemple d'aquests serveis de registre. Genera una infraestructura per a la distribució i el descobriment de dades biològiques a través de serveis web.

Bibliografia[modifica]

  • Attwood, TK, i Parry-Smith, DJ. Introducció a la Bioinformàtica (en espanyol). Prentice Hall, 2002. ISBN 84-205-3551-6 [Consulta: 13 juny 2010]. 
  • Aluru, Srinivas, ed.. Handbook of Computational Molecular Biology (en anglès). Computer and Information Science Sèries. Chapman & Hall/CRC, 2006. ISBN 1-58488-406-1 [Consulta: 13 juny 2010]. 
  • Baldi, P and Brunak, S. Bioinformatics: The Machine Learning Approach (en anglès). 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X [Consulta: 13 juny 2010]. 
  • Barnes, M.R. and Gray, IC, eds.. Bioinformatics for Geneticists (en anglès). first edition. Wiley, 2003. ISBN 0-470-84394-2 [Consulta: 13 juny 2010]. 
  • Baxevanis, A.D. and Ouellette, BFF, eds.. Bioinformatics: A Practical Guide to the Analysis of Gens and Proteins (en anglès). third edition. Wiley, 2005. ISBN 0-471-47878-4 [Consulta: 13 juny 2010]. 
  • Baxevanis, AD, Petsko, GA, Stein, LD, and Stormo, GD, eds.. Current Protocols in Bioinformatics (en anglès). Wiley, 2007. ISBN 0-471-25093-7 [Consulta: 13 juny 2010]. 
  • Cristianini, N. and Hahn, M.. Introduction to Computational Genomics (en anglès). Cambridge University Press, 2006. ISBN 978-0-521-67191-0 i 0-521-67191-4 [Consulta: 13 juny 2010]. 
  • Durbin, R., S. Eddy, A. Krogh and G. Mitchison. Biological sequence analysis (en anglès). Cambridge University Press, 1998. ISBN 0-521-62971-3 [Consulta: 13 juny 2010]. 
  • Michael S. Waterman. Introduction to Computational Biology: Sequences, Maps and Genomes (en anglès). CRC Press, 1995. ISBN 0-412-99391-0 [Consulta: 13 juny 2010]. 
  • Mount, David W.. Bioinformatics: Sequence and Genome Analysis (en anglès). 2a ed.. Spring Harbor Press, 2004. ISBN 0-87969-712-1 [Consulta: 13 juny 2010]. 
  • Pevzner, Pavel A.. Computational Molecular Biology: An Algorithmic Approach (en anglès). The MIT Press, 2000. ISBN 0 - 262-16197-4 [Consulta: 13 juny 2010]. 

Bibliografia complementària[modifica]

  • Claverie, J.M. and C. Notredame. Bioinformatics for Dummies (en anglès). Wiley, 2003. ISBN 0-7645-1696-5 [Consulta: 13 juny 2010]. 
  • gibas, Cynthia, and Per Jambeck. Developing Bioinformatics Computer Skills (en anglès). O'Reilly, 2001. ISBN 1-56.592 -664-1 [Consulta: 13 juny 2010]. 
  • Keedwell, E.. Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems (en anglès). Wiley, 2005. ISBN 0-470-02175-6 [Consulta: 13 juny 2010]. 
  • Kohane, et al.. Microarrays for an Integrative Genomics (en anglès). The MIT Press, 2002. ISBN 0-262 - 11.271-X [Consulta: 13 juny 2010]. 
  • Lund, O. et al.. Immunological Bioinformatics (en anglès). The MIT Press, 2005. ISBN 0-262-12280-4 [Consulta: 13 juny 2010]. 
  • Pachter, Lior and Sturmfels, Bernd. algebraic ús per Computational Biology (en anglès). Cambridge University Press, 2005. ISBN 0 - 521-85700-7 [Consulta: 13 juny 2010]. 
  • Tisdall, James. Beginning Perl for Bioinformatics (en anglès). O'Reilly & Assoc, 2001. ISBN 0-596-00080 -4 [Consulta: 13 juny 2010]. 
  • Bassi, Sebastià. Python for Bioinformatics (en anglès). CRC Press, 2009. ISBN 978-1-58488-929-8 [Consulta: 13 juny 2010]. 

Bibliografia en línia[modifica]

MIT OCW[modifica]

  • Foundations of Computational and Systems Biology MIT Course]
  • Computational Biology: Genomes, Networks, Evolution MIT Course]
  • Algorithms for Computational Biology MIT Course]

Enllaços externs[modifica]