Assemblatge de seqüències

De la Viquipèdia, l'enciclopèdia lliure

En bioinformàtica, l'assemblatge de seqüències es refereix a alinear i fusionar fragments curts d'una seqüència d'ADN per tal de reconstruir la seqüència original més llarga. Aquest procés és necessari donat que la tecnologia actual de seqüenciació d'ADN no pot llegir genomes sencers, sinó que llegeix peces petites d'entre 20 i 30000 bases, depenent de la tecnologia. Típicament els fragments curts, anomenats lectures (de l'anglès "reads"), provenen d'un procés de seqüenciació massiva o de l'obtenció de fragments més curts mitjançant la tecnologia EST (de l'anglés Expressed Sequence Tags).

El problema de l'assemblatge de seqüències pot ser comparat a agafar moltes còpies d'un llibre, passar cadascuna d'aquestes a través d'una trituradora i intentar reconstruir el llibre original a partir de les paraules resultants. A més de la dificultat òbvia d'aquesta tasca, hi ha alguns assumptes pràctics extres: l'original pot tenir molts paràgrafs repetits, i determinats fragments poden ser modificats durant el triturat i contenir, per tant, errors. A més, en el procés de triturat també poden afegir-se fragments d'un altre llibre donant lloc a un contingut completament irreconeixible.

La imatge mostra com un assemblador de seqüències agafaria fragments i els fusionaria en un fragment més llarg.. La imatge també mostra el problema potencial de seqüències repetitives en la seqüència.