Format FASTA

De Viquipèdia
Dreceres ràpides: navegació, cerca

En bioinformàtica, el format FASTA és un format de fitxer en text per a la representació de seqüències tant nucleotídiques com peptídiques, en què els nucleòtids i els aminoàcids es representen usant un codi d'una sola lletra. Aquest format[1] també permet que les seqüències estiguin encapçalades pel nom de la seqüència o comentaris. El format FASTA es va originar pel paquet de software FASTA, però avui en dia és un estàndard en el camp de la bioinformàtica.

La simplicitat del format FASTA fa que sigui fàcil manipular les seqüències usant eines de processament de text i llenguatges script com ara Python, Ruby o Perl.


Una seqüència en format FASTA comença amb una capçalera de descripció d'una sola línia amb el símbol '>' al principi. La paraula que en segueix, que no ha de tenir espais, acostuma a ser l'identificador de la seqüencia. Per altra banda, l'NCBI defineix un estàndard d'identificadors únics en aquesta capçalera de descripció,[2] que programes com el makeblastdb del BLAST utilitzen per indexar fitxers amb múltiples seqüències.

És habitual que la seqüencia biològica que en segueix contingui no més vuitanta caràcters per línia.

   >gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
   MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
   IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGF

L'extensió de fitxer que conté les seqüències acostuma a ser: .fa, .fasta o variacions similars.

Vegeu també[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. «Query Input and database selection - NCBI BLAST» (en en). [Consulta: 2015-02-27].
  2. «FASTA sequence ID format values» (en anglès). [Consulta: 2015-02-27].