UCSC Genome Browser

De la Viquipèdia, l'enciclopèdia lliure
Infotaula de lloc webUCSC Genome Browser
URLhttp://genome.ucsc.edu Modifica el valor a Wikidata

L'UCSC Genome Browser (navegador de genomes de la UCSC) és un navegador de genomes en línia i descarregable, que acull la Universitat de Califòrnia, Santa Cruz (UCSC).[1][2][3] Es tracta d'un lloc web interactiu que ofereix accés a dades de seqüències de genomes d'una varietat d'espècies de vertebrats i invertebrats, i organismes model principals, integrats amb una gran col·lecció d'anotacions alineades. El navegador és un visualitzador gràfic optimitzat per a donar suport a un rendiment interactiu ràpid i és un conjunt d'eines basat en web basat en una base de dades MySQL per a la visualització ràpida, l'examen i la consulta de dades en molts nivells. La base de dades del navegador Genome, les eines de navegació, els fitxers de dades i la documentació descarregables es poden trobar al lloc web UCSC Genome Bioinformatics.

Història[modifica]

Inicialment construït i utilitzat per Jim Kent, un estudiant de postgrau, i David Haussler, professor de informàtica (actualment enginyer biomolecular) de la Universitat de Califòrnia, Santa Cruz (UCSC) el 2000, el navegador de genomes de la UCSC va començar com un recurs per a la distribució dels primers fruits del Projecte Genoma Humà. Finançat pel Howard Hughes Medical Institute i el National Human Genome Research Institute, NHGRI (un dels Instituts Nacionals de Salut dels Estats Units d'Amèrica), el navegador va oferir una visualització gràfica del primer muntatge de cromosoma complet de la seqüència del genoma humà. Actualment, el navegador és utilitzat per genetistes, biòlegs i metges moleculars, així com estudiants i professors d'evolució per accedir a informació genètica.

Genomes[modifica]

Des del seu inici, el navegador UCSC s'ha ampliat per adaptar-se a seqüències de genomes de totes les espècies de vertebrats i invertebrats seleccionats per als quals hi ha seqüències genètiques d'alta cobertura. (actualment inclou 46 espècies). És necessària una alta cobertura per permetre la superposició per guiar la construcció de regions contigües més grans. Les seqüències genètiques amb menys cobertura s'inclouen en pistes d'alineament múltiple en alguns navegadors, però la naturalesa fragmentada d'aquests muntats no els fa adequats per a la creació de navegadors complets.

En la següent taula es mostren les espècies amb els navegadors de genoma amb totes les funcions.

Genomes
grans simis humà, babuí, bonobo, ximpanzé, gibó, goril·la, orangutan
primats

no-simis

gàlag, Callithrix jacchus, lèmur ratolí, macaco rhesus, mona esquirol, tarser, tupaies
mamífers

no-primats

ratolí, alpaca, armadillo, gat, hàmster xinès, bou, gos, dofí, elefant, fura, conill porquí, eriçó, cavall, rata cangur, manatí, balena de Minke, farumfer, opòssum, ós panda, porc, pica, ornitorrinc, conill, rata, damà roquer del Cap, ovella, musaranya, peresós, esquirol, diable de Tasmània, tenrec, ualabi, rinoceront blanc
cordats

no-mamífers

al·ligàtor del Mississipi, bacallà, periquito, gall, celacant, Callorhinchus milii, fugu, llamprea, llangardaix, medaka, pinsà terrestre mitjà, tilàpia del Nil, tortuga pintada, gasterostèid, tetraodon, gall dindi, Xenopus tropicalis, diamant clapat, peix zebra
invertebrats Caenorhabditis spp (5), Drosophila spp. (11), virus d'Ebola, abella, amfioxiforme, mosquit, Pristionchus pacificus, Anaspidea, ascidi, eriçó de mar, rent

Funcionalitat del navegador[modifica]

La gran quantitat de dades sobre sistemes biològics que s'acumula a la literatura fa que sigui necessari recollir i digitalitzar la informació mitjançant les eines de la bioinformàtica. El navegador de genomes de la UCSC presenta una diversa col·lecció de conjunts de dades d'anotació (conegudes com a «tracks» (pistes) i presentades de manera gràfica), incloent alineacions de mRNA, assignacions d'elements de repetició de l'ADN, prediccions de gens, dades d'expressió de gens, dades d'associació de malalties (que representen les relacions de gens a malalties), i assignacions de xips genètics comercialment disponibles (per exemple, Illumina i Agilent). El paradigma bàsic de la visualització és mostrar la seqüència del genoma en la dimensió horitzontal i mostrar representacions gràfiques de les ubicacions dels mRNAs, prediccions de gens, etc. Els blocs de color al llarg de l'eix de coordenades mostren les ubicacions dels alineaments dels diferents tipus de dades. La capacitat de mostrar aquesta gran varietat de tipus de dades en un únic eix de coordenades fa que el navegador sigui una eina pràctica per a la integració vertical de les dades.

Per trobar un gen o regió genòmica específics, l'usuari pot introduir el nom del gen, un número d'accés d'un RNA, el nom d'una banda citològica genòmica (p.ex., 20p13 per la banda 13 del braç curt del chr20) o una posició cromosòmica (chr17:38,450,000-38,531,000 per la regió del voltant del gen BRCA1)

La presentació de les dades en el format gràfic permet al navegador presentar l'accés del vincle a informació detallada sobre qualsevol de les anotacions. La pàgina de detalls genètics de la pista de Genes UCSC proporciona una gran quantitat d'enllaços a informació més específica sobre el gen en molts altres recursos de dades, com ara l'Herència mendeliana en línia (OMIM) i SwissProt.

Dissenyat per a la presentació de dades complexes i voluminoses, el navegador UCSC està optimitzat per a la velocitat. Al prealinar els 55 milions d'ARN de GenBank a cadascun dels 81 conjunts de genomes (moltes de les 46 espècies tenen més d'un ensamblat), el navegador permet l'accés instantani a les alineacions de qualsevol ARN a qualsevol de les espècies allotjades.

La juxtaposició dels molts tipus de dades permet als investigadors mostrar exactament la combinació de dades que respondran preguntes específiques. Una funcionalitat de sortida pdf / postscript permet exportar una imatge preparada per a la seva publicació en revistes acadèmiques.

Una característica única i útil que distingeix el navegador de la UCSC d'altres navegadors de genomes és la naturalesa contínuament variable de la pantalla. Es pot visualitzar la seqüència de qualsevol mida, des d'una única base d'ADN fins al cromosoma sencer (humans chr1 = 245 milions de bases, Mb) amb pistes completes d'anotació. Els investigadors poden mostrar un sol gen, un sol exó o una banda de cromosomes sencera, mostrant desenes o centenars de gens i qualsevol combinació de les nombroses anotacions. Una convenient funció d'arrossegar i ampliar permet a l'usuari triar qualsevol regió de la imatge del genoma i expandir-la per omplir la pantalla completa.

Els investigadors també poden utilitzar el navegador per mostrar les seves pròpies dades a través de l'eina Custom Tracks (pistes personalitzades). Aquesta característica permet als usuaris pujar un fitxer de les seves pròpies dades i veure les dades en el context del muntatge del genoma de referència. Els usuaris també poden utilitzar les dades allotjades per la UCSC, creant subconjunts de les dades que trien amb l'eina Table Browser (taules de navegació) (com només el SNP que modifiquen la seqüència d'aminoàcids d'una proteïna) i mostren aquest subconjunt específic de les dades del navegador com a seguiment personalitzat.

Qualsevol vista de navegador creada per un usuari, inclosos aquells que continguin Custom Tracks, es poden compartir amb altres usuaris a través de l'eina Saved Sessions (Sessions guardades).

A sota de la imatge visualitzada del navegador de genomes UCSC es troben nou categories de camps addicionals que es poden seleccionar i mostrar juntament amb les dades originals. Aquestes categories són mapatge i seqüències, gens i prediccions de gens, fenotip i literatura, mRNA i EST, expressió, regulació, genètica comparativa, variació i repeticions.

Categories
Categoria Descripció Exemples de camps
Mapatge i seqüenciació Permet controlar sobre l'estil de seqüenciació que es mostra. Aquestes pistes permeten a l'usuari controlar la visualització de coordenades genòmiques, seqüències i buits. Els investigadors tenen la capacitat de seleccionar les pistes que millor representin la seva consulta per permetre que es mostrin les dades més aplicables depenent del tipus i profunditat de la recerca que es faci. Les pistes de mapatge i seqüenciació també poden mostrar una ruta basada en percentatges per mostrar un investigador si un element genètic en particular és més prevalent a l'àrea especificada. Base Position. Alt Map, Gap
Gens i Prediccions de gens Programes que prediuen els gens i quines bases de dades mostraran els gens coneguts. Els gens i les pistes de prediccions de gens controlen la visualització de gens i les seves parts posteriors. Les diferents pistes permeten que l'usuari pugui veure models de gens, regions de codificació de proteïnes i RNA no-codificant, així com altres dades relacionades amb els gens. Hi ha nombroses pistes disponibles que permeten als investigadors comparar ràpidament la seva consulta amb conjunts de gens preseleccionats per buscar correlacions entre conjunts de gens coneguts. GENCODE v24, Geneid Genes, Pfam in UCSC Gene
Fenotip i literatura Bases de dades que contenen estils específics de dades de fenotip. Les pistes de fenòmens i literatura tracten fenotips directament relacionats amb els gens i el fenotip genètic. Els usos d'aquestes pistes estan destinats principalment a metges i altres professionals relacionats amb trastorns genètics, investigadors de genètica i estudiants avançats en ciències i medicina. Un investigador també pot visualitzar una pista que mostra les posicions genòmiques de variants d'aminoàcids naturals i artificials. OMIM Alleles, Cancer Gene Expr Super-track
mRNA i EST Accés als mRNAs i EST per a cerques específiques humanes o cerques generals proposades. Aquestes pistes estan relacionades amb etiquetes de seqüència expressades i RNA missatger. Les EST són seqüències d'una sola lectura, generalment de 500 bases de longitud, que solen representar fragments de gens transcrits. Les pistes de mRNA permeten visualitzar les dades d'alineamient de mRNA en humans, així com, altres espècies. També hi ha pistes que permeten comparar amb regions d'EST que mostren signes d'empalmament quan s'alineen amb el genoma. Human ESTs, Other ESTs, Other mRNAs
Expressió Mostra expressions úniques de seqüències predeterminades. Les pistes d'expressió s'utilitzen per relacionar dades genètiques amb les àrees de teixits en què s'expressa. Això permet que un investigador descobreixi si un gen o seqüència particular està vinculat amb diversos teixits a tot el cos. Les pistes d'expressió també permeten visualitzar dades de consens sobre els teixits que expressen la regió de la consulta. GTEx Gene, Affy U133
Regulació Informació relacionada amb la regulació de transcripcions de diferents estudis. Les pistes de regulació del navegador de genomes de la UCSC són una categoria de pistes que controlen la representació de regions promotores i de control dins del genoma. Un investigador pot ajustar les pistes de regulació per afegir un gràfic de visualització al navegador del genoma. Aquestes pantalles permeten obtenir més detalls sobre les regions reguladores, els llocs d'unió de factors de transcripció, els llocs d'unió de l'ARN, les variants reguladores, els haplotips i altres elements reguladors. ENCODE Regulation Super-track Settings, ORegAnno
Genètica comparativa Permet la comparació de la seqüència cercada amb altres grups d'animals amb genomes seqüenciats. El navegador de genomes de la UCSC permet que l'usuari mostri diferents tipus de dades de conservació. L'usuari pot seleccionar entre diferents temes, inclosos els primats, els vertebrats, els mamífers, entre d'altres, i veure com es conserva la seqüència de gens entre altres espècies. Les alineacions comparades proporcionen una visió gràfica de les relacions evolutives entre espècies. Això fa que sigui una eina útil tant per a l'investigador, que pot visualitzar regions de conservació entre un grup d'espècies i fer prediccions sobre elements funcionals en regions d'ADN desconegudes i a l'aula com a eina per il·lustrar un dels arguments més convincents per a evolució de les espècies. La pista comparativa de 44 maneres en l'ensamblat humà demostra clarament que com més lluny es reprèn en el temps evolutiu, es manté la menor homologia de la seqüència, però es conserven regions funcionals importants del genoma (ex., exons i elements de control, però no introns) molt més lluny en el temps evolutiu. Conservation, Cons 7 Verts, Cons 30 Primates
Variació Compara la seqüència cercada amb variacions conegudes. També es mostren molts tipus de variació de dades. Per exemple, tot el contingut de cada versió de la base de dades dbSNP de NCBI es mapeja a humans, ratolins i altres genomes. Això inclou els fruits del 1000 Genomes Project, tan bon punt es llancin a dbSNP. Altres tipus de dades de variació inclouen una variació en el nombre de còpies (CNV) i freqüències d'al·lels de població humana del projecte HapMap. Common SNPs(150), All SNPs(146), Flagged SNPs(144)
Repeticions Permet el seguiment de diferents tipus de seqüències repetides a la consulta. Les pistes de repetició del navegador del genoma permeten a l'usuari veure una representació visual de les àrees d'ADN amb poques repeticions de complexitat. La possibilitat de visualitzar repeticions en una seqüència permet inferències ràpides sobre una consulta de cerca al navegador del genoma. Un investigador té el potencial de veure ràpidament que la cerca especificada conté grans quantitats de seqüències repetides d'un cop d'ull i ajustar la seva cerca o seguiment de la pantalla en conseqüència. RepeatMasker, Microsatellite, WM + SDust

Eines d'anàlisi[modifica]

El lloc web UCSC allotja un conjunt d'eines d'anàlisi del genoma, incloent una interfície gràfica completa per a la mineria de la informació a la base de dades del navegador, una eina d'alineació de la seqüència BLAT[4] que també és útil per trobar seqüències en la seqüència massiva (genoma humà = 3.23 milions de bases [Gb]) de qualsevol dels genomes destacats.

Una eina liftOver utilitza alineaments de tot el genoma per permetre la conversió de seqüències d'un ensamblat a un altre o entre espècies. L'eina Genomes Graphs permet als usuaris veure tots els cromosomes alhora i mostrar els resultats dels estudis d'associació de tot el genoma (GWAS). El generador de gens mostra gens agrupats per paràmetres no vinculats a la ubicació del genoma, com el patró d'expressió en els teixits.

Codi obert / rèpliques[modifica]

El codi base del navegador UCSC és un codi obert per a usos no comercials i té rèpliques locals en molts grups de recerca, cosa que permet la visualització de dades privades en el context de les dades públiques. Les rèpliques del navegador UCSC tenen diverses ubicacions per tot el món, tal com es mostra a la taula.

rèpliques oficials
Rèplica europea — mantinguda per la UCSC a la Universitat de Bielefeld, Alemanya
Rèplica asiàtica — mantinguda per la UCSC a l'institut de recerca RIKEN, Yokohama, Japó

El codi del navegador també es troba en instal·lacions separades a la UCSC Malaria Genome Browser i a l'Archaea Browser.

Referències[modifica]

  1. «The UCSC Genome Browser database: update 2011». Nucleic Acids Res., 39, Database issue, Jan 2011, pàg. D876-82. DOI: 10.1093/nar/gkq963. PMC: 3242726. PMID: 20959295.
  2. «The human genome browser at UCSC». Genome Res., 12, 6, juny 2002, pàg. 996–1006. DOI: 10.1101/gr.229102. PMC: 186604. PMID: 12045153.
  3. Kuhn, RM, Karolchik D, Zweig AS, Wang T, Smith KE, Rosenbloom KR, Rhead B, Raney BJ, Pohl A, Pheasant M, Meyer L, Hsu F, Hinrichs AS, Harte RA, Giardine B, Fujita P, Diekhans M, Dreszer T, Clawson H, Barber GP, Haussler D, Kent WJ «The UCSC Genome Browser Database: update 2009». Nucleic Acids Res., 37, gener 2009, pàg. D755-D761. DOI: 10.1093/nar/gkn875. PMC: 2686463. PMID: 18996895.
  4. Kent, WJ. «BLAT - the BLAST-like alignment tool». Genome Res, 12, 4, Apr 2002, pàg. 656–64. DOI: 10.1101/gr.229202. PMC: 187518. PMID: 11932250.

Vegeu també[modifica]

Enllaços externs[modifica]