Família de proteïnes

Una família de proteïnes és un grup de proteïnes relacionades evolutivament. En molts casos, una família de proteïnes té una família de gens corresponent, en la qual cada gen codifica una proteïna corresponent amb una relació 1:1. El terme "família de proteïnes" no s'ha de confondre amb família, ja que s'utilitza en taxonomia.
Les proteïnes d'una família descendeixen d'un avantpassat comú i solen tenir estructures tridimensionals similars, funcions i una similitud significativa de seqüències.[1][2] La similitud de seqüències (generalment seqüència d'aminoàcids) és un dels indicadors més comuns d'homologia, o ascendència evolutiva comuna.[3][4] Alguns marcs per avaluar la importància de la similitud entre seqüències utilitzen mètodes d'alineació de seqüències. És poc probable que les proteïnes que no comparteixen un avantpassat comú mostrin una similitud de seqüències estadísticament significativa, fent que l'alineació de seqüències sigui una eina poderosa per identificar els membres de les famílies de proteïnes.[3][4] De vegades, les famílies s'agrupen en clades més grans anomenats superfamílies basades en la similitud estructural, fins i tot si no hi ha una homologia de seqüència identificable.
Actualment, s'han definit més de 60.000 famílies de proteïnes,[5] encara que l'ambigüitat en la definició de "família de proteïnes" porta a diferents investigadors a un nombre molt variable.
Terminologia i ús
[modifica]El terme família de proteïnes té un ús ampli i es pot aplicar a grans grups de proteïnes amb una similitud de seqüències amb prou feines detectable, així com a grups reduïts de proteïnes amb una seqüència, funció i estructura gairebé idèntiques. Per distingir entre aquests casos, s'utilitza una terminologia jeràrquica. Al nivell més alt de classificació es troben les superfamílies de proteïnes, que agrupen proteïnes distants relacionades, sovint en funció de la seva similitud estructural.[6][7][8][9] A continuació es troben les famílies de proteïnes, que fan referència a proteïnes amb un origen evolutiu compartit que presenta una similitud de seqüències significativa.[10][11] Les subfamílies es poden definir dins de famílies per denotar proteïnes estretament relacionades que tenen funcions similars o idèntiques.[12] Per exemple, una superfamília com el clan de proteases PA té menys conservació de seqüències que la família C04 dins d'ella.
Dominis i motius proteics
[modifica]Les famílies de proteïnes es van reconèixer per primera vegada quan la majoria de les proteïnes que es van comprendre estructuralment eren proteïnes petites i d'un sol domini com la mioglobina, l'hemoglobina i el citocrom c. Des de llavors, s'han trobat moltes proteïnes amb múltiples unitats estructurals i funcionals independents anomenades dominis. A causa de la barreja evolutiva, diferents dominis d'una proteïna han evolucionat de manera independent. Això ha portat a centrar-se en les famílies de dominis proteics. Diversos recursos en línia es dediquen a identificar i catalogar aquests dominis.[13][14]
Les diferents regions d'una proteïna tenen limitacions funcionals diferents. Per exemple, el lloc actiu d'un enzim requereix que determinats residus d'aminoàcids estiguin orientats amb precisió. Una interfície d'unió proteïna-proteïna pot consistir en una gran superfície amb limitacions sobre la hidrofobicitat o la polaritat dels residus d'aminoàcids. Les regions de proteïnes restringides funcionalment evolucionen més lentament que les regions no restringides, com ara els bucles de superfície, donant lloc a blocs de seqüència conservada quan es comparen les seqüències d'una família de proteïnes (vegeu l'alineació de seqüències múltiples). Aquests blocs s'anomenen més sovint com a motius, encara que s'utilitzen molts altres termes (blocs, signatures, empremtes dactilars, etc.). Diversos recursos en línia es dediquen a identificar i catalogar motius proteics.[15]
Evolució de les famílies de proteïnes
[modifica]Segons el consens actual, les famílies de proteïnes sorgeixen de dues maneres. En primer lloc, la separació d'una espècie progenitora en dues espècies descendents aïllades genèticament permet que un gen/proteïna acumuli de manera independent variacions (mutacions) en aquests dos llinatges. Això dóna lloc a una família de proteïnes ortòlogues, normalment amb motius de seqüència conservats. En segon lloc, la duplicació d'un gen pot crear una segona còpia d'un gen (anomenat paràleg). Com que el gen original encara és capaç de realitzar la seva funció, el gen duplicat és lliure de divergir i pot adquirir noves funcions (per mutació aleatòria).
Algunes famílies de gens/proteïnes, especialment en eucariotes, experimenten expansions i contraccions extremes en el curs de l'evolució, de vegades en concert amb duplicacions del genoma sencer. Les expansions són menys probables, i les pèrdues més probables, per a proteïnes intrínsecament desordenades i per a dominis proteics els aminoàcids hidrofòbics dels quals estan més lluny del grau òptim de dispersió al llarg de la seqüència primària.[16] Aquesta expansió i contracció de les famílies de proteïnes és una de les característiques més destacades de l'evolució del genoma, però la seva importància i ramificacions no estan clares actualment.

Ús i importància de les famílies de proteïnes
[modifica]A mesura que augmenta el nombre total de proteïnes seqüenciades i s'expandeix l'interès en l'anàlisi del proteoma, s'està realitzant un esforç per organitzar les proteïnes en famílies i per descriure els seus dominis i motius components. La identificació fiable de les famílies de proteïnes és fonamental per a l'anàlisi filogenètica, l'anotació funcional i l'exploració de la diversitat de la funció de proteïnes en una branca filogenètica determinada. La Enzyme Function Initiative utilitza famílies i superfamílies de proteïnes com a base per al desenvolupament d'una estratègia basada en seqüències/estructura per a l'assignació funcional a gran escala d'enzims de funció desconeguda.[17] Els mitjans algorísmics per establir famílies de proteïnes a gran escala es basen en una noció de similitud.
Recursos de família de proteïnes
[modifica]Moltes bases de dades biològiques catalogen famílies de proteïnes i permeten als usuaris relacionar seqüències de consulta amb famílies conegudes. Aquests inclouen:
- Pfam - Base de dades de famílies de proteïnes d'alineacions i HMM
- PROSITE - Base de dades de dominis proteics, famílies i llocs funcionals
- PIRSF - Sistema de classificació de la superfamília
- PASS2 - Alineació de proteïnes com a superfamílies estructurals v2 - PASS2@NCBS[18]
- SUPERFAMILIA - Biblioteca d'HMM que representen superfamílies i base de dades d'anotacions (superfamília i família) per a tots els organismes completament seqüenciats
- SCOP i CATH - Classificacions de les estructures proteiques en superfamílies, famílies i dominis
De la mateixa manera, existeixen molts algorismes de cerca de bases de dades, per exemple:
- BLAST - cerca de similitud de seqüències d'ADN
- BLASTp - Cerca de similitud de seqüències de proteïnes
- OrthoFinder - Mètode per agrupar proteïnes en famílies (ortogrups)[19][20]
Referències
[modifica]- ↑ «What are protein families? Protein classification» (en anglès). EMBL-EBI. [Consulta: 14 novembre 2023].
- ↑ Orengo, Christine. «Introduction». A: Orengo. Protein Families: Relating Protein Sequence, Structure, and Function (en anglès). Hoboken, New Jersey: John Wiley & Sons, Inc., 2013, p. vii-xi. DOI 10.1002/9781118743089.fmatter. ISBN 9781118743089.
- ↑ 3,0 3,1 Pearson, William R. Current Protocols in Bioinformatics, 3, 2013, pàg. 3.1.1–3.1.8. DOI: 10.1002/0471250953.bi0301s42. ISSN: 1934-3396. PMC: 3820096. PMID: 23749753.
- ↑ 4,0 4,1 Chen, Junjie; Guo, Mingyue; Wang, Xiaolong; Liu, Bin Briefings in Bioinformatics, 19, 2, 01-03-2018, pàg. 231–244. DOI: 10.1093/bib/bbw108. ISSN: 1477-4054. PMID: 27881430.
- ↑ Kunin, Victor; Cases, Ildefonso; Enright, Anton J.; de Lorenzo, Victor; Ouzounis, Christos A. Genome Biology, 4, 2, 2003, pàg. 401. DOI: 10.1186/gb-2003-4-2-401. ISSN: 1474-760X. PMC: 151299. PMID: 12620116 [Consulta: free].
- ↑ Dayhoff, MO Federation Proceedings, 33, 12, 12-1974, pàg. 2314–6. PMID: 4435228.
- ↑ Dayhoff, MO; McLaughlin, PJ; Barker, WC; Hunt, LT Die Naturwissenschaften, 62, 4, 1975, pàg. 154–161. Bibcode: 1975NW.....62..154D. DOI: 10.1007/BF00608697.
- ↑ Dayhoff, MO Federation Proceedings, 35, 10, 8-1976, pàg. 2132–8. PMID: 181273.
- ↑ Orengo, Christine A.; Thornton, Janet M. (en anglès) Annual Review of Biochemistry, 74, 1, 01-06-2005, pàg. 867–900. DOI: 10.1146/annurev.biochem.74.082803.133029. ISSN: 0066-4154. PMID: 15954844.
- ↑ Orengo, Christine. «Introduction». A: Orengo. Protein Families: Relating Protein Sequence, Structure, and Function (en anglès). Hoboken, New Jersey: John Wiley & Sons, Inc., 2013, p. vii-xi. DOI 10.1002/9781118743089.fmatter. ISBN 9781118743089.
- ↑ Veeramachaneni, Vamsi; Makałowski, Wojciech Genome Research, 14, 6, 2004, pàg. 1160–1169. DOI: 10.1101/gr.2079204. ISSN: 1088-9051. PMC: 419794. PMID: 15140831 [Consulta: free].
- ↑ Holm, Liisa. «Automated Sequence-Based Approaches for Identifying Domain Families». A: Orengo. Protein Families: Relating Protein Sequence, Structure, and Function (en anglès). Hoboken, New Jersey: John Wiley & Sons, Inc., 2013, p. 1–24. DOI 10.1002/9781118743089.ch1. ISBN 9781118743089.
- ↑ Wang, Yan; Zhang, Hang; Zhong, Haolin; Xue, Zhidong Computational and Structural Biotechnology Journal, 19, 01-01-2021, pàg. 1145–1153. DOI: 10.1016/j.csbj.2021.01.041. ISSN: 2001-0370. PMC: 7895673. PMID: 33680357 [Consulta: free].
- ↑ Bateman, Alex. «Sequence Classification of Protein Families: Pfam and other Resources». A: Orengo. Protein Families: Relating Protein Sequence, Structure, and Function (en anglès). Hoboken, New Jersey: John Wiley & Sons, Inc., 2013, p. 25–36. DOI 10.1002/9781118743089.ch2. ISBN 9781118743089.
- ↑ Mulder, Nicola J.; Apweiler, Rolf Genome Biology, 3, 1, 19-12-2001, pàg. reviews2001.1. DOI: 10.1186/gb-2001-3-1-reviews2001. ISSN: 1474-760X. PMC: 150457. PMID: 11806833 [Consulta: free].
- ↑ James, Jennifer E; Nelson, Paul G; Masel, Joanna Molecular Biology and Evolution, 40, 4, 04-04-2023, pàg. msad073. DOI: 10.1093/molbev/msad073. PMC: 10089649. PMID: 36947137.
- ↑ Gerlt, John A.; Allen, Karen N.; Almo, Steven C.; Armstrong, Richard N.; Babbitt, Patricia C. (en anglès) Biochemistry, 50, 46, 22-11-2011, pàg. 9950–9962. DOI: 10.1021/bi201312u. ISSN: 0006-2960. PMC: 3238057. PMID: 21999478.
- ↑ Gandhimathi, A.; Nair, Anu G.; Sowdhamini, R. Nucleic Acids Research, 40, D1, 2012, pàg. D531–D534. DOI: 10.1093/nar/gkr1096. ISSN: 1362-4962. PMC: 3245109. PMID: 22123743.
- ↑ Emms, David M.; Kelly, Steven Genome Biology, 16, 1, 06-08-2015, pàg. 157. DOI: 10.1186/s13059-015-0721-2. ISSN: 1474-760X. PMC: 4531804. PMID: 26243257 [Consulta: free].
- ↑ Emms, David M.; Kelly, Steven Genome Biology, 20, 1, 14-11-2019, pàg. 238. DOI: 10.1186/s13059-019-1832-y. ISSN: 1474-760X. PMC: 6857279. PMID: 31727128 [Consulta: free].