BLOSUM

A la bioinformàtica, la matriu BLOSUM (Matriu de SUbstitució de BLOcs) és una matriu de substitució utilitzada per tal de puntuar alineaments de seqüències de proteïnes divergents evolutivament.. Les matrius BLOSUM varen ser introduïdes per primer cop pels germans Steven Henikoff i Jorja Henikoff a l'any 1992.^[1] Van ser creades a partir de l'alineació blocs, seqüències d'aminoàcids conservades en famílies de proteïnes, que permeten fer una anàlisi de proteïnes menys relacionades entre sí.^[2]

Origen i història

Les proteïnes amb seqüències similars d'aminoàcids tenen similars estructures i funcions i estan relacionades evolutivament. Degut a això, dins el món de la recerca, s'utilitza la comparació entre seqüències per tal d'obtenir nous coneixements sobre la funció i l'estructura de proteïnes de les quals es coneix la seva seqüència.^[3]

Per tal de puntuar seqüències de proteïnes s'utilitzen matrius de substitució d'aminoàcids. Aquestes matrius defineixen els ratios als quals els aminoàcids de les seqüències són substituïts per altres residus.

Matrius PAM (Mutacions puntuals acceptades)

Les primeres matrius d'alineament que es van inventar van ser les matriu PAM (Mutacions puntuals acceptades). Van ser creades al 1970 per Margaret Dayhoff. Aquest tipus de matriu es basa en puntuacions obtingudes d'un alineament de seqüències que eren més d'un 85% idèntiques.

La primera PAM es va crear considerant 1572 mutacions en arbres filogenètics de 71 famílies de proteïnes. Dayhoff va computar la probabilitat de que cada aminoàcid fos reemplaçat per un altre aminoàcid donada una distància evolutiva determinada.^[3]

Matrius BLOSUM (Matriu de substitució per blocs)

Les matrius BLOSUM varen ser introduïdes per primer cop pels germans Steven Henikoff i Jorja Henikoff a l'any 1992. Les matrius BLOSUM van sorgir per la necessitat de comparar seqüències de proteïnes més llunyanes evolutivament, ja que el mètode per l'alineació de seqüències que hi havia fins al moment es basava en el model de Dayhoff. Aquest model es basava en puntuacions obtingudes amb alineament de seqüències que eren més d'un 85% idèntiques, i això suposava un problema, ja que normalment s'utilitzen les matrius de substitució per tal de detectar relacions entre proteïnes molt més llunyanes.^[1]

Les matrius BLOSUM es van fer a partir de l'observació de substitucions d'aminoàcids en un conjunt de més de dues mil seqüències d'aminoàcids conservades entre famílies. Aquestes seqüències conservades són conegudes com a blocs.^[2]

Les famílies de proteïnes utilitzades per fer les matrius BLOSUM van ser identificades originalment per Amos Bairoch al catàleg Prosite, una base de dades de proteïnes. Aquest catàleg proporciona una llista de proteïnes que estan a la mateixa família perquè tenen una funció bioquímica similar marcada per una seqüència d'aminoàcids molt conservada.^[2]

Els germans Henikoff van examinar la presència de seqüències d'aminoàcids sense buits, és a dir, els blocs. Els blocs van ser utilitzats per tal d'identificar els membres d'aquella família de proteïnes i van ampliar el nombre de seqüències dins cada família.^[1]^[2]

La primera BLOSUM que van fer va ser la BLOSUM 62 al 1992, i a partir del 1993, els germans Henikoff van altres matrius BLOSUM que representen els canvis observats entre seqüències en funció de si s'alineen proteïnes més properes (com la BLOSUM 90) o més llunyanes evolutivament (com la BLOSUM 45).^[2]

Paquets de programari

Hi ha diversos paquets de programari en diferents llenguatges de programació que permeten un ús fàcil de les matrius de Blosum.

Alguns exemples són el mòdul blosum [1] per a Python, o la biblioteca BioJava per a Java .

Rerefons biològic

Transcripció i traducció del material genètic

El material genètic està emmagatzemat en forma d'ADN mitjançant la combinació de quatre bases nitrogenades diferents. L'ADN es transcriu a ARN, i aquest és traduït a proteïnes, que tindran una funció determinada dins l'organisme.

Aquesta traducció es fa segons el codi genètic, un codi universal que permet la conversió de combinacions de triplets de bases nitrogenades a aminoàcids, els quals acabaran formant les proteïnes.^[4]

Al llarg de la vida de la cèl·lula, aquesta informació és transcrita i replicada per mecanismes cel·lulars per tal de produir proteïnes o aportar instruccions per a les cèl·lules filles durant la divisió cel·lular. Durant la producció de proteïnes, existeix la possibilitat que el DNA s'alteri. Aquest fet és conegut com a mutació. A nivell molecular, hi ha sistemes de regulació que corregeixen la majoria d'aquests canvis de DNA abans que es repliqui, però tot i això, aquests sistemes de regulació no acaben corregint alguns canvis de DNA pel que les mutacions passen a la descendència.^[5]

Les proteïnes

Els 20 aminoàcids traduïts pel codi genètic varien segons les propietats físiques i químiques dels seus radicals; pel poden ser categoritzats en grups segons les seves propietats.

La funcionalitat d'una proteïna depèn molt de la seva estructura i per tant, de la seva seqüència. Substituir un aminoàcid per un altre de la mateixa categoria, segurament tindrà menys impacte en l'estructura i la funció de la proteïna, que si es substitueix amb un aminoàcid d'una altra categoria. Canviant un simple aminoàcid en una proteïna, es pot reduir la seva habilitat per dur a terme la seva funció determinada, o fins i tot, hi pot haver-hi un canvi total de funció.

Aquesta mena de canvis poden impactar severament una funció crucial de la cèl·lula, provocant que la cèl·lula mori i, en casos extrems, que mori l'organisme. Aquesta mutació, per tant, probablement no passarà a la descendència.

Tot i així, hi ha canvis que poden permetre que la cèl·lula continuï funcionant de manera diferent, i la mutació pot ser passada a la descendència. Si aquest canvi no resulta en cap desavantatge física a la descendència, existeix la possibilitat que aquesta mutació persisteixi a la població. A més, també existeix la possibilitat que el canvi de funció signifiqui una avantatge.

Alineament de seqüències d'aminoàcids

L'alineament de seqüència és un mètode de recerca fonamental per a la biologia moderna. L'alineament més comú per una proteïna és buscar la similitud entre les diferents seqüències per deduir la funció o establir relacions evolutives. Això ajuda als investigador a entendre millor l'origen i la funció de gens dins la naturalesa de la homologia i la conservació.

Les matrius de substitució utilitzen algorismes per tal de calcular la similitud de diferents seqüències de proteïnes. La primera matriu creada va ser la matriu PAM, però el seu ús ha disminuït al llarg del temps a causa que requereix l'ús de seqüències amb una similitud major a un 85%. Per tal d'omplir aquest buit, els germans Henikoff varen crear la matriu BLOSUM (Matriu de substitució en blocs), que permet puntuar l'alineament de seqüències més llunyanes evolutivament.^[3]

Terminologia de les matrius BLOSUM

BLOSUM es correspon a Matriu de Substitució de Blocs (BLOks SUbstitution Matrix en anglès). És una matriu de substitució que s'utilitza per puntuar l'alineament de seqüències de proteïnes.

Els valors de la matriu BLOSUM s'obtenen a partir d'una puntuació mètrica. La puntuació sorgeix de l'aplicació d'un logaritme d'oportunitats relatives a una matriu de puntuacions o una taula de valors que descriu la probabilitat que un parell de residus d'aminoàcids es produeixin en una alineació. Les puntuacions per cada posició, són freqüències obtingudes de substitucions en blocs d'alineaments locals de les seqüències de proteïnes.^[6]

Tipus de matrius BLOSUM

Existeixen bastants conjunts de matrius BLOSUM que utilitzen diferents bases de dades d'alineaments, i que s'anomenen amb nombres diferents.

Les BLOSUM seguides d'un número elevat, estan dissenyades per comparar seqüències molt relacionades.
Les BLOSUM amb número baix estan dissenyades per comparar seqüències relacionades de forma distant.

Per exemple, BLOSUM 80 es fa servir per alineaments menys divergents, en canvi, BLOSUM 45 es fa servir per alineaments més divergents.

La terminologia de les matrius acostuma a ser BLOSUM R. La "R" fa referència al nombre que acompanya les matrius BLOSUM. Aquest nombre fa referència al percentatge llindar a partir del qual s'agrupen les seqüències en blocs. És a dir, és el mínim percentatge d'identitat de la seqüències de proteïnes alineades per tal de ser agrupades.^[1]

Per exemple, BLOSUM 45 correspondria a agrupamens amb un mínim d'un 45% d'identitat.

BLOSUM 62

La BLOSUM 62 és una matriu construïda utilitzant seqüències amb una semblança menor al 62%. Va ser la primera matriu creada (1992). Aquesta matru per defecte, és la matriu per fer l'alineament de seqüències mitjançant BLAST. S'ha vist de forma experimental que la matriu BLOSUM 62 és de les millors detectant la majoria similituds proteiques més febles.^[7]

Construcció de matrius BLOSUM

1. Alineament de les seqüències

Es va descriure un sistema automàtic, el PROTOMAT, per tal d'obtenir un conjunt de blocs a partir d'un grup de proteïnes relacionades. Aquest sistema es va aplicar a un centenar de grups de proteïnes, obtenint més de 2000 blocs. Cada bloc representa una regió conservada d'una família de proteïnes.

Per tal que les seqüències estiguin ben alineades s'apliquen unes puntuacions pels aparellaments i malaparellaments que afavoreixen un alineament correcte amb cada un dels altres segments en relació amb una alineació incorrecta.^[1]

Els blocs s'obtenen de la base de dades BLOCKS, que permet trobar homologia entre següències.^[8]

2. Eliminació de les seqüències idèntiques i agrupament d'aquelles amb un R% d'identitat

S'eliminen les seqüències que són idèntiques per tal d'evitar redundància i biaixos als resultats. Es poden eliminar les seqüències de la matriu o bé es poden substituir per altres seqüències que compleixin el requisit d'identitat.

Per tal d'evitar que les seqüències més relacionades entre sí facin multiples contribucions a les freqüències de parells d'aminoàcids, les seqüències s'agrupen en blocs. Cada grup conta com una sola seqüència a l'hora de contar parells.

Aquest agrupament es fa especificant un nivell d'identitat, i aquelles seqüències que siguin idèntiques en un percentatge superior a l'indicat, son agrupades.^[1] En funció del grau d'identitat de la matriu BLOSUM, s'aplicarà un percentatge o un altre.

Per exemple, a la BLOSUM 45 s'agrupen aquelles seqüències que són més d'un 45% idèntiques.

Aquestes passes permeten parametritzar la divergència evolutiva i contabilitzar el biaix.^[9]

3. Càlcul dels aparellaments de cada columna de la matriu

Cada columna representa una posició de la seqüència de proteïnes. Es comença per la primera columna i es comparen totes les combinacions possibles d'aminoàcids.^[9]

Com que es desconeix quina seqüència precedeix en l'evolució, cada combinació de seqüències es conta dues vegades.

Per tant, segons l'exemple de la dreta, la serina ha estat substituïda a cisteïna 4 cops i s'ha mantingut dintre la seqüència un cop.

4. Obtenció d'una taula de freqüències

Un cop hem contat la freqüència de substitució de totes les combinacions de seqüències per a totes les columnes, obtenim una taula de freqüències. Finalment, es sumen els resultats obtinguts a cada fila i s'obté un valor total per a cada combinació d'aminoàcids.^[9]

A l'exemple de la dreta hi ha moltes substitucions que han donat un valor de 0. A la pràctica això no passa, ja que es comparen centenars de seqüències i es donen totes les combinacions d'aminoàcids possibles.

5. Obtenció d'una matriu de freqüències

La taula de freqüències es representa en una matriu de freqüències on es compara la freqüència de substitució de cada combinació de parells d'aminoàcids possible.

6. Aplicació del logaritme de l'oportunitat relativa (OR)

El logaritme de l'oportunitat relativa (logaritme d'OR) dona el ratio de l'ocurrència observada d'una combinació d'aminoàcids en funció del valor esperat d'aquell parell d'aminoàcids.

Càlcul de la freqüència observada

Per tant, primer es calcula la freqüència observada de cada parell d'aminoàcids (i,j):

Per tal de poder calcular-la, primer es necessita saber el total de possibles combinacions (T), que es pot calcular fàcilment aplicant la següent fórmula:

$T=1/2[CF(F-1)]$

On:

C: columnes de la taula
F: files de la taula
T: total de possibles combinacions

Un cop es coneix la T, la freqüència observada (Fo) és igual a la freqüència obtinguda a la taula dividida entre el total de possibles combinacions (T).

$Fo={\tfrac {FreqObtinguda}{T}}$

Seguint l'exemple explicat fins ara, la T = 30 i per tant cada freqüència s'ha dividit ente 30.

Càlcul de la freqüència esperada

Per un altre costat, es calcula també la freqüència esperada de cada valor de la taula.

Per fer-ho, primer hem de calcular la probabilitat esperada (Pe) de cada aminoàcid, que és la probabilitat de trobar cada aminoàcid en aquell conjunt de seqüències. La probabilitat de cada aminoàcid es calcula amb la següent fórmula:

$Pe(i)=Fii+\sum _{j\neq i}F(ij)/2$

On, la probabilitat esperada d'un aminoàcid (i) és igual a la freqüència a la que trobem emparellat aquest aminoàcid amb ell mateix (ii) més el sumatori de les freqüències de trobar-lo emparellat amb un altre aminoàcid, dividit entre dos.

Seguint l'exemple de les taules, la probabilitat esperada de la Serina és 0.0333 (que és la probabilitat de trobar SS), més el sumatori de 0.133 (la probabilitat de SC) i 0.667 (la probabilitat de trobar SA) dividit entre dos.

Un cop s'ha obtingut el valor de p, el càlcul final de la freqüència esperada és diferent en funció de si s'estan comparant aparellaments o malaparellaments.

En el cas d'un aparellament (és a dir, i = j), s'aplica:

$Fe(ij)=P(i)P(j)=P(i)^{2}$

Per exemple, si es multiplica la probabilitat de la serina per ella mateixa, la freqüència esperada serà 0.0177.

En el cas d'un malaparellament, és a dir (i $\neq$ j), s'aplica:

$Fe(ij)=2P(i)P(j)$

És a dir, si es multiplica la probabilitat de la serina per la probabilitat de la cisteïna, s'obté 0.0266.

Càlcul del logaritme d'oportunitats relatives

Un cop s'han calculat el tant la freqüència observada com l'esperada, es pot calcular el logaritme d'oportunitats relatives (logOR).

$LogOR=2Log_{2}\left({\frac {Fo}{Fe}}\right)$

S'aplica el logaritme per a totes les combinacions d'emparellaments de la matriu, s'arrodoneix el valor a la unitat i s'obté la matriu BLOSUM.

En l'exemple de la dreta hi ha valors incomplets perquè el nombre de seqüències era molt baix, però en condicions normals tota la matriu està completa.

Interpretació d'una matriu BLOSUM

La matriu BLOSUM mostra la puntuació de la substitució d'un aminoàcid per un altre.

Una puntuació positiva indicarà que aquella substitució és probable que es porti a terme. Normalment les puntuacions més positives són aquelles que ocupen la diagonal de la matriu, ja que es tracten de les puntuacions de la substitució d'un aminoàcid, per ell mateix.^[2] Així doncs, la substitució d'un triptofan per un altre triptofan, és a dir, la conservació d'aquest aminoàcid té una puntuació d'11, pel que la majoria de residus de triptofan es conserven.

Una puntuació negativa indicarà que aquella substitució és poc probable que es porti a terme. La majoria de susbtitucions entre aminoàcids tenen puntuacions negatives, ja que el canvi d'un simple aminoàcid pot canviar la funció de la proteïna.^[2] Per exemple, la substitució d'una glutamina per una cisteïna té una puntuació de -4, pel que és poc probable que es porti a terme.

La matriu BLOSUM és bireccional. És a dir, indica la puntuació de canviar un aminoàcid per un altre independentment de quin sigui l'ordre de substitució, ja que normalment es desconeix quina seqüència és més llunyana evolutivament.^[1] Per exemple, el canvi de serina per alanina o alanina per serina té la mateixa puntuació.

Comparació entre PAM i BLOSUM

Diferències entre PAM i BLOSUM

Tot i que BLOSUM es va crear per millorar PAM, encara s'utilitzen els dos mètodes per aquest tipus d'anàlisis. PAM encara s'utilitza per a seqüències curtes, ja que no hi ha una versió de BLOSUM apropiada.

Una gran diferència entre aquests dos mètodes, és que BLOSUM deriva de dades representant segments de seqüències altament conservades de proteïnes divergents, en lloc d'estar basat en seqüències similars com fa el mètode PAM.^[10]

Diferències entre PAM i BLOSUM ^[9]^[10]
	PAM	BLOSUM
Model evolutiu	Model evolucionari explícit	Cap
Dades	Distància completa d'alineament de seqüències múltiples de seqüències estretament relacionades	Blocs conservats en proteïnes
Correcció de biaix	Arbres	Clusterització
Distància evolutiva	Des del model Markov d'evolució de seqüències	Des de la clusterització de la seqüència
Matrius	Matrius de puntuació de transicio i logaritmes d'oportunitats relatives	Només matrius de logaritme d'oportunitats relatives
Paràmetre n	La distància augmenta amb n	La distància disminueix amb n
Propietats biofísiques	Derivades indirectament de les dades	Derivades indirectament de les dades

Nomenclatura PAM i BLOSUM

En referència amb PAM, com major és el seu nombre (exemple: PAM 250), menor percentatge d'identitat hi trobem. En canvi, en el cas de BLOSUM, com major és el seu nombre (exemple: BLOSUM 80), major és el percentatge d'identitat.

Nomenclatura
% Identitat	PAM	BLOSUM
20	250	45
30	160	62
40	120	80

Bibliografia

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 Henikoff, S., & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences, 89(22), 10915-10919.
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 ^2,6 Mount, D. W. (2008). Using BLOSUM in sequence alignments. Cold Spring Harbor Protocols, 2008(6), pdb-top39.
↑ ^3,0 ^3,1 ^3,2 Trivedi, R., & Nagarajaram, H. A. (2020). Substitution scoring matrices for proteins‐An overview. Protein Science, 29(11), 2150-2163.
↑ Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "From Gene to Protein". Biology: Australian Version (8th ed.). Pearson Education Australia. pp. 327–350
↑ Pal JK, Ghaskadbi SS (2009). "DNA Damage, Repair and Recombination". Fundamentals of Molecular Biology (1st ed.). Oxford University Press. pp. 187–203
↑ Pertsemlidis, Alexander; Fondon, John W «Having a BLAST with bioinformatics (and avoiding BLASTphemy)». Genome Biology, 2, 10, 2001, pàg. reviews2002.1–reviews2002.10. ISSN: 1465-6906. PMID: 11597340.
↑ Song, D., Chen, J., Chen, G., Li, N., Li, J., Fan, J., ... & Li, S. C. (2014). Parameterized BLOSUM matrices for protein alignment. IEEE/ACM transactions on computational biology and bioinformatics, 12(3), 686-694.
↑ Henikoff, J. G., & Henikoff, S. (1996). [6] Blocks database and its applications. Methods in enzymology, 266, 88-105.
↑ ^9,0 ^9,1 ^9,2 ^9,3 Durand, D. Amino Acid Substitution Matrices.
↑ ^10,0 ^10,1 Mount, D. W. (2008). Comparison of the PAM and BLOSUM amino acid substitution matrices. Cold Spring Harbor Protocols, 2008(6), pdb-ip59.

Enllaços externs

[:0-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 Henikoff, S., & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences, 89(22), 10915-10919.

[:1-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 ^2,6 Mount, D. W. (2008). Using BLOSUM in sequence alignments. Cold Spring Harbor Protocols, 2008(6), pdb-top39.

[:2-3] 3,0 ^3,1 ^3,2 Trivedi, R., & Nagarajaram, H. A. (2020). Substitution scoring matrices for proteins‐An overview. Protein Science, 29(11), 2150-2163.

[4] Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "From Gene to Protein". Biology: Australian Version (8th ed.). Pearson Education Australia. pp. 327–350

[5] Pal JK, Ghaskadbi SS (2009). "DNA Damage, Repair and Recombination". Fundamentals of Molecular Biology (1st ed.). Oxford University Press. pp. 187–203

[6] Pertsemlidis, Alexander; Fondon, John W «Having a BLAST with bioinformatics (and avoiding BLASTphemy)». Genome Biology, 2, 10, 2001, pàg. reviews2002.1–reviews2002.10. ISSN: 1465-6906. PMID: 11597340.

[7] Song, D., Chen, J., Chen, G., Li, N., Li, J., Fan, J., ... & Li, S. C. (2014). Parameterized BLOSUM matrices for protein alignment. IEEE/ACM transactions on computational biology and bioinformatics, 12(3), 686-694.

[8] Henikoff, J. G., & Henikoff, S. (1996). [6] Blocks database and its applications. Methods in enzymology, 266, 88-105.

[:3-9] 9,0 ^9,1 ^9,2 ^9,3 Durand, D. Amino Acid Substitution Matrices.

[:4-10] 10,0 ^10,1 Mount, D. W. (2008). Comparison of the PAM and BLOSUM amino acid substitution matrices. Cold Spring Harbor Protocols, 2008(6), pdb-ip59.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]