Imputació (genètica)

La imputació en genètica fa referència a la inferència estadística de genotips no observats, és a dir, a la deducció de genotips desconeguts (variants gèniques concretes, sovint SNP) a partir de dades externes (haplotips coneguts de l'espècie i població estudiada, però no pertanyents a l'individu pel qual s'estan imputant dades).^[1] Aquesta tècnica d'imputació permet fer estudis d'associació (GWAS) entre determinats trets fenotípics (alçada, pes, predisposició a malalties, etc) i determinades variants genètiques que, tot i no haver estat observades directament, han estat deduïdes mitjançant la imputació.^[2]

Per això, la tècnica d'imputació genètica permet molta més precisió a l'hora de situar possibles variants causals en un genoma, ja que n'augmenta la densitat de marcadors i, per tant, redueix la distància entre marcadors adjacents. Aquesta tècnica, per tant, resulta essencial en els estudis GWAS de màxima resolució.

Necessitat d'imputació en GWAS[modifica]

En el camp de la genètica quantitativa (branca de la genètica que estudia caràcters fenotípics determinats per múltiples gens: caràcters oligènics i poligènics), resulta essencial identificar les regions genòmiques en les quals la variació genètica entre individus és responsable de variació fenotípica en certs trets d'interès, com podrien ser la predisposició o resistència a malalties. Els estudis que ho permeten requereixen accedir al màxim possible d'informació genètica dels individus que formen part de l'estudi, però la seqüenciació dels seus genomes complets és sovint massa cara i s'opta per alternatives més econòmiques, consistents en l'estudi de punts concrets del genoma.

A l'hora de decidir quina part del genoma s'estudiarà, el més freqüent és elegir regions que presenten variabilitat coneguda en l'espècie d'estudi, principalment SNP. A partir d'aquests SNP es construeixen arrays que permeten estudiar tots els individus del set d'estudi simultàniament per les mateixes regions genòmiques. Decidir quina part del genoma s'estudia, però, no és trivial i pot tenir conseqüències que afectin la confiança en els resultats obtinguts:

En primer lloc, estudiar marcadors dels quals prèviament es coneix que són variables en l'espècie o població de referència no aporta informació sobre noves formes de variabilitat que podrien trobar-se només en el set d'individus que formen part de l'estudi. Per això, centrar l'estudi en la variació prèviament disponible portarà a conclusions incompletes.
En segon lloc, centrar exclusivament les anàlisis en marcadors SNP ignora la resta de variants gèniques (CNV, anomalies cromosòmiques numèriques o estructurals, etc), algunes de les quals també podrien estar associades al tret fenotípic estudiat.

Els arrays usats en els estudis GWAS es basen en el marcatge de només certs SNP,^[3] evitant així l'estudi de la variació genòmica compresa en tot el genoma (cosa que s'aconseguiria marcant tots els SNP trobats). Realitzar imputacions sobre els genotips d'estudi, usant com a referència un panell que inclou un major nombre de variants que les previstes en l'array, permet augmentar la cobertura de variació genòmica respecte els genotips originals, és a dir, permet deduir els SNP que no es inclouïen en l'array inicial.^[4] En conseqüència, després de la imputació es podran estudiar els efectes de molts més SNP que els descrits en l'array original.

Una altra conseqüència positiva que ha tingut la imputació genètica és facilitar les meta-anàlisis de datasets que havien estat genotipades amb diferents arrays (és a dir, estudiant diferents SNP), gràcies al creixent solapament entre les variants analitzades dels diversos arrays.

Eines bioinformàtiques per a la imputació[modifica]

Actualment es disposa de diversos paquets de software que permeten la imputació de genotips a partir d'un array de referència, com ara els de 1000 Genomes Project.^[5] Les eines que s'hi inclouen són MaCH/Minimac,^[6] IMPUTE2,^[7] SHAPEIT2^[8] o Beagle,^[9] cadascuna amb els seus punts forts i dèbils, sobretot en referència a la rapidesa i exactitud dels resultats.

Abans que 1000 Genomes Project publiqués els seus resultats,^[10] s'havien usat els haplotips de HapMap com a panells de referència, els quals comptaven amb menys marcadors, de menys individus i originaris de menys poblacions.

Referències[modifica]

↑ Scheet, Paul; Stephens, Matthew «A Fast and Flexible Statistical Model for Large-Scale Population Genotype Data: Applications to Inferring Missing Genotypes and Haplotypic Phase». The American Journal of Human Genetics, 78, 4, 2006-04, pàg. 629–644. DOI: 10.1086/502802. ISSN: 0002-9297. PMC: PMC1424677. PMID: 16532393.
↑ Marchini, Jonathan; Howie, Bryan «Genotype imputation for genome-wide association studies» (en anglès). Nature Reviews Genetics, 11, 7, 2010-07, pàg. 499–511. DOI: 10.1038/nrg2796. ISSN: 1471-0056.
↑ Li, Yun; Willer, Cristen; Sanna, Serena; Abecasis, Gonçalo «Genotype Imputation». Annual Review of Genomics and Human Genetics, 10, 1, 28-08-2009, pàg. 387–406. DOI: 10.1146/annurev.genom.9.081307.164242. ISSN: 1527-8204. PMC: PMC2925172. PMID: 19715440.
↑ Iperen, E. P. A. van; Hovingh, G. K.; Asselbergs, F. W.; Zwinderman, A. H. «Extending the use of GWAS data by combining data from different genetic platforms» (en anglès). PLOS ONE, 12, 2, 28-02-2017, pàg. e0172082. DOI: 10.1371/journal.pone.0172082. ISSN: 1932-6203. PMC: PMC5330464. PMID: 28245255.
↑ The 1000 Genomes Project Consortium «A map of human genome variation from population-scale sequencing» (en anglès). Nature, 467, 7319, 28-10-2010, pàg. 1061–1073. DOI: 10.1038/nature09534. ISSN: 0028-0836. PMC: PMC3042601. PMID: 20981092.
↑ Li, Yun; Willer, Cristen J.; Ding, Jun; Scheet, Paul; Abecasis, Gonçalo R. «MaCH: using sequence and genotype data to estimate haplotypes and unobserved genotypes» (en anglès). Genetic Epidemiology, 34, 8, 2010, pàg. 816–834. DOI: 10.1002/gepi.20533. ISSN: 1098-2272. PMC: PMC3175618. PMID: 21058334.
↑ Howie, Bryan; Fuchsberger, Christian; Stephens, Matthew; Marchini, Jonathan; Abecasis, Gonçalo R «Fast and accurate genotype imputation in genome-wide association studies through pre-phasing» (en anglès). Nature Genetics, 44, 8, 2012-08, pàg. 955–959. DOI: 10.1038/ng.2354. ISSN: 1061-4036. PMC: PMC3696580. PMID: 22820512.
↑ Delaneau, Olivier; Marchini, Jonathan; Zagury, Jean-François «A linear complexity phasing method for thousands of genomes» (en anglès). Nature Methods, 9, 2, 2012-02, pàg. 179–181. DOI: 10.1038/nmeth.1785. ISSN: 1548-7091.
↑ Browning, Brian L.; Browning, Sharon R. «A Unified Approach to Genotype Imputation and Haplotype-Phase Inference for Large Data Sets of Trios and Unrelated Individuals». The American Journal of Human Genetics, 84, 2, 2009-02, pàg. 210–223. DOI: 10.1016/j.ajhg.2009.01.005. ISSN: 0002-9297. PMC: PMC2668004. PMID: 19200528.
↑ «1000 Genomes | A deep catalog of human genetic variation» (en anglès). [Consulta: 22 juny 2021].

[1] Scheet, Paul; Stephens, Matthew «A Fast and Flexible Statistical Model for Large-Scale Population Genotype Data: Applications to Inferring Missing Genotypes and Haplotypic Phase». The American Journal of Human Genetics, 78, 4, 2006-04, pàg. 629–644. DOI: 10.1086/502802. ISSN: 0002-9297. PMC: PMC1424677. PMID: 16532393.

[2] Marchini, Jonathan; Howie, Bryan «Genotype imputation for genome-wide association studies» (en anglès). Nature Reviews Genetics, 11, 7, 2010-07, pàg. 499–511. DOI: 10.1038/nrg2796. ISSN: 1471-0056.

[3] Li, Yun; Willer, Cristen; Sanna, Serena; Abecasis, Gonçalo «Genotype Imputation». Annual Review of Genomics and Human Genetics, 10, 1, 28-08-2009, pàg. 387–406. DOI: 10.1146/annurev.genom.9.081307.164242. ISSN: 1527-8204. PMC: PMC2925172. PMID: 19715440.

[4] Iperen, E. P. A. van; Hovingh, G. K.; Asselbergs, F. W.; Zwinderman, A. H. «Extending the use of GWAS data by combining data from different genetic platforms» (en anglès). PLOS ONE, 12, 2, 28-02-2017, pàg. e0172082. DOI: 10.1371/journal.pone.0172082. ISSN: 1932-6203. PMC: PMC5330464. PMID: 28245255.

[5] The 1000 Genomes Project Consortium «A map of human genome variation from population-scale sequencing» (en anglès). Nature, 467, 7319, 28-10-2010, pàg. 1061–1073. DOI: 10.1038/nature09534. ISSN: 0028-0836. PMC: PMC3042601. PMID: 20981092.

[6] Li, Yun; Willer, Cristen J.; Ding, Jun; Scheet, Paul; Abecasis, Gonçalo R. «MaCH: using sequence and genotype data to estimate haplotypes and unobserved genotypes» (en anglès). Genetic Epidemiology, 34, 8, 2010, pàg. 816–834. DOI: 10.1002/gepi.20533. ISSN: 1098-2272. PMC: PMC3175618. PMID: 21058334.

[7] Howie, Bryan; Fuchsberger, Christian; Stephens, Matthew; Marchini, Jonathan; Abecasis, Gonçalo R «Fast and accurate genotype imputation in genome-wide association studies through pre-phasing» (en anglès). Nature Genetics, 44, 8, 2012-08, pàg. 955–959. DOI: 10.1038/ng.2354. ISSN: 1061-4036. PMC: PMC3696580. PMID: 22820512.

[8] Delaneau, Olivier; Marchini, Jonathan; Zagury, Jean-François «A linear complexity phasing method for thousands of genomes» (en anglès). Nature Methods, 9, 2, 2012-02, pàg. 179–181. DOI: 10.1038/nmeth.1785. ISSN: 1548-7091.

[9] Browning, Brian L.; Browning, Sharon R. «A Unified Approach to Genotype Imputation and Haplotype-Phase Inference for Large Data Sets of Trios and Unrelated Individuals». The American Journal of Human Genetics, 84, 2, 2009-02, pàg. 210–223. DOI: 10.1016/j.ajhg.2009.01.005. ISSN: 0002-9297. PMC: PMC2668004. PMID: 19200528.

[10] «1000 Genomes | A deep catalog of human genetic variation» (en anglès). [Consulta: 22 juny 2021].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]