Peak calling: diferència entre les revisions

De la Viquipèdia, l'enciclopèdia lliure
Contingut suprimit Contingut afegit
seguretat 05/12 3
seguretat 05/12 4
Línia 26: Línia 26:
'''Càlcul de la significança dels pics'''
'''Càlcul de la significança dels pics'''


Es poden aplicar diferents models de fons per a cada pic candidat. L'opció més habitual és la [[distribució de Poisson]]<ref>{{Ref-publicació|article=Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing|cognom=Robertson|nom5=Yongjun|cognom4=Bilenky|nom4=Misha|cognom3=Bainbridge|nom3=Matthew|cognom2=Hirst|nom2=Martin|nom=Gordon|url=http://www.nature.com/articles/nmeth1068|llengua=en|doi=10.1038/nmeth1068|exemplar=8|volum=4|pàgines=651–657|issn=1548-7091|data=2007-08|publicació=Nature Methods|cognom5=Zhao}}</ref>, assumint un efecte uniforme del control negatiu sobre el genoma. La distribució binomial és un model alternatiu per a efectes no-uniformes, però cal primer normalitzar la taxa de la mostra entre el ChIP i el control negatiu en una regió on no s'uneixi res.<sup>[4]</sup>
Es poden aplicar diferents models de fons per a cada pic candidat. L'opció més habitual és la [[distribució de Poisson]]<ref>{{Ref-publicació|article=Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing|cognom=Robertson|nom5=Yongjun|cognom4=Bilenky|nom4=Misha|cognom3=Bainbridge|nom3=Matthew|cognom2=Hirst|nom2=Martin|nom=Gordon|url=http://www.nature.com/articles/nmeth1068|llengua=en|doi=10.1038/nmeth1068|exemplar=8|volum=4|pàgines=651–657|issn=1548-7091|data=2007-08|publicació=Nature Methods|cognom5=Zhao}}</ref>, assumint un efecte uniforme del control negatiu sobre el genoma. La distribució binomial és un model alternatiu per a efectes no-uniformes, però cal primer normalitzar la taxa de la mostra entre el ChIP i el control negatiu en una regió on no s'uneixi res.<ref>{{Ref-publicació|article=A signal–noise model for significance analysis of ChIP-seq with negative control|cognom=Xu|nom5=Jianpeng|cognom4=Ye|nom4=Chaopeng|cognom3=Wei|nom3=Xueliang|cognom2=Handoko|nom2=Lusy|nom=Han|url=https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btq128|llengua=en|doi=10.1093/bioinformatics/btq128|exemplar=9|volum=26|pàgines=1199–1204|issn=1460-2059|data=2010-05-01|publicació=Bioinformatics|cognom5=Sheng}}</ref>


'''Determinació de llindar'''
'''Determinació de llindar'''


Donades les puntuacions dels pics, cal seleccionar un valor llindar. Quan els [[Valor p|valors ''p'']] estan disponibles, es poden emprar per a calcular la taxa de descobriment falsa (o FDR, de l'anglès ''False Discovery Rate'').<sup>[5]</sup> En cas de no tenir valos ''p'', es pot calcular empíricament l'FDR mostrejant les etiquetes del control i de les dades ChIP. En aquest cas, l'FDR es defineix com una taxa dle nombre de pics en el control amb el del ChIP.
Donades les puntuacions dels pics, cal seleccionar un valor llindar. Quan els [[Valor p|valors ''p'']] estan disponibles, es poden emprar per a calcular la taxa de descobriment falsa (o FDR, de l'anglès ''False Discovery Rate'').<ref>{{Ref-publicació|article=A clustering approach for identification of enriched domains from histone modification ChIP-Seq data|nom=Chongzhi|nom5=Keji|cognom4=Cui|nom4=Kairong|cognom3=Zeng|nom3=Chen|cognom2=Schones|nom2=Dustin E.|cognom=Zang|llengua=en|url=https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btp340|doi=10.1093/bioinformatics/btp340|exemplar=15|volum=25|pàgines=1952–1958|pmid=19505939|pmc=PMC2732366|issn=1460-2059|data=2009-08-01|publicació=Bioinformatics|cognom5=Zhao}}</ref> En cas de no tenir valos ''p'', es pot calcular empíricament l'FDR mostrejant les etiquetes del control i de les dades ChIP. En aquest cas, l'FDR es defineix com una taxa dle nombre de pics en el control amb el del ChIP.


La passa de després del processament considera els efectes canvis d'etiqueta i prediu la mida del fragment a partir d'una biblioteca. En el cas de l'Spp, es fa una autocorrecció entre el comptatge d'etiquetes de les cadenes positiva i negativa.<sup>[6]</sup>
La passa de després del processament considera els efectes canvis d'etiqueta i prediu la mida del fragment a partir d'una biblioteca. En el cas de l'Spp, es fa una autocorrecció entre el comptatge d'etiquetes de les cadenes positiva i negativa.<ref>{{Ref-publicació|article=A short survey of computational analysis methods in analysing ChIP-seq data|nom=Hyunmin|nom5=Tiejun|cognom4=Gao|nom4=Dexiang|cognom3=Selby|nom3=Heather|cognom2=Kim|nom2=Jihye|cognom=Kim|llengua=en|url=http://humgenomics.biomedcentral.com/articles/10.1186/1479-7364-5-2-117|doi=10.1186/1479-7364-5-2-117|exemplar=2|volum=5|pàgines=117|pmid=21296745|pmc=PMC3525234|issn=1479-7364|data=2011|publicació=Human Genomics|cognom5=Tong}}</ref>


== Mètodes de seqüenciació de DNA ==
== Mètodes de seqüenciació de DNA ==

Revisió del 14:53, 5 des 2020

El peak calling (en català: crida de pics) és un mètode computacional que permet identificar els llocs d'unió de proteïnes putatives.[1] En concret, aquest mètode permet identificar àrees del genoma enriquides amb lectures alineades per haver fet una seqüènciació per immunoprecipitació de cromatina (ChIP-seq, de Chromatin Immunoprecipitation sequencing) o de DNA metilat (MeDIP-seq, de Methylated DNA Immunoprecipitation sequencing).

Antecedents

A partir de l'any 2000 es van començar a desenvolupar els mètodes de seqüenciació de nova o de segona generació (NGS, de l'anglès New Generation Sequencing). Aquest nou mètode, en combinació amb el ChIP i el MeDIP, han revolucionat l'habilitat d'analitzar les interaccions dins del genoma de proteïnes i DNA.[2]

La identificació dels llocs d'unió de les proteïnes genòmiques a travès de la ChIP o de les metilacions a través de la MeDIP han necessitat de noves eines computacionals, diferents a les emprades anteriorment per als experiments ChIP-Chip, la qual combinava la ChIP i els xips de DNA (en anglès, DNA chip). Actualment hi ha més d'una quarantena de programes analítics, molts dels quals es basen en algoritmes per a cridar pics.[2]

Procediment per a trobar pics

Per a dur a terme un peak calling cal primer saber quin tipus d'experiment volem dur a terme. En el ChIP, es poden emprar una o dues mostres, depenent de si només tenim la mostra problema o si tenim també un control, respectivament. Tot i això, el més recomanat és emprar controls per assegurar que es troben pics significatius i rellevants.

Les passes a seguir un cop sabem el tipus d'experiment que volem dur a terme són:

  1. Creació d'un perfil de senyal
  2. Selecció de llocs candidats
  3. Càlcul de la significança
  4. Determinar el llindar

Creació d'un perfil de senyal

El perfil ChIP s'obtè suavitzant el comptatge de les etiquetes amb o sense correcció del canvi d'etiquetes o tag-shifting (com podria ser la diferència en la distància genòmica entre les etiquetes observsades i la posició real del lloc d'unió). Això ajuda en la intrapolació dels comptatges no observats degut a la baixa mapabilitat o cobertura, millorant la resolució i l'exclusió dels artegactres. Per a dur a terme aquesta passa, hi ha multitud de programes que es poden emprar amb característiques diferents.

Calling peaks

Un cop es té el perfil, cada unitat ha de tenir una senyal absoluta de ChIP o un enriquiment relatiu en comparació al fons (o background en anglès) per a poder ser considerat un pic candidat. Aquesta selecció té dos principals utilitats. La primera és que els pics candidats seleccionats en aquesta passa s'empren per a estimar la mida del fragment i la distància del canvi d'etiquetes. La segona és que les regions que no se solapen amb els pics s'empren per a estimar els paràmetres del control negatiu.

Càlcul de la significança dels pics

Es poden aplicar diferents models de fons per a cada pic candidat. L'opció més habitual és la distribució de Poisson[3], assumint un efecte uniforme del control negatiu sobre el genoma. La distribució binomial és un model alternatiu per a efectes no-uniformes, però cal primer normalitzar la taxa de la mostra entre el ChIP i el control negatiu en una regió on no s'uneixi res.[4]

Determinació de llindar

Donades les puntuacions dels pics, cal seleccionar un valor llindar. Quan els valors p estan disponibles, es poden emprar per a calcular la taxa de descobriment falsa (o FDR, de l'anglès False Discovery Rate).[5] En cas de no tenir valos p, es pot calcular empíricament l'FDR mostrejant les etiquetes del control i de les dades ChIP. En aquest cas, l'FDR es defineix com una taxa dle nombre de pics en el control amb el del ChIP.

La passa de després del processament considera els efectes canvis d'etiqueta i prediu la mida del fragment a partir d'una biblioteca. En el cas de l'Spp, es fa una autocorrecció entre el comptatge d'etiquetes de les cadenes positiva i negativa.[6]

Mètodes de seqüenciació de DNA

ChIP-seq

Pel que respecta la ChIP-seq, l'enriquiment es fa a aquells fragments de cromatina que tenen una interacció proteïna-DNA, les quals es basen en reticulacions mediades per formaldehid. Quan aquesta proteïna és un factor de transcripció (TF), l'àrea enriquida és un lloc d'unió del factor de transcripció (o TFBS, de l'anglès TF Binding Site).[2] La combinació paral·lela de la ChIP i la seqüenciació total de genoma (el ChIP-seq en si) permeten analitzar el patró d'interacció de qualsevol proteïna amb el DNA o el patró de qualsevol modificació epigenètica de la cromatina, sobretot TFs.[7][8] Tant el ChIP-chip com el ChIP-seq han facilitat enormement la definició del cistroma dels TF i altres proteïnes associades a la cromatina.[9]

Els tipus de pics que es poden obtenir amb la ChIP-seq es poden classificar en tres grups segons la quantitat de parells de bases:

  • Puntuals: ~100
  • Localitzats però amples: ~1 kb
  • Amples: ~100 kb

El poder predictiu de les eines existents depenen del tipus de dades a processar.[10]

MeDIP-seq

Pel que fa a la MeDIP-seq, l'enriquiment es fa a seqüències de DNA metilades. Aquestes seqüències poden canviar l'activitat del segment de DNA sense canviar la seqüència. Normalment, les metilacions reprimeixen la transcripció dels gens sobre els quals actua.[11]

Així doncs, la diferència entre la ChIP-seq i la MeDIP-seq rau en el fet que la primera analitza si hi ha interacció o no (pot ser activant o reprimint la transcripció) i la segona analitza si hi ha metilació (repressió) o no (activació).

Programari: peak callers

Els programes emprats per a desenvolupar els peak callings s'anomenen peak callers. Una de les característiques comunes per a tots els peak callers és que l'entrada són lectures mapades i la comparen amb genomes linears de referència.[8] Els programes més emprats són:

  • MACS
  • SPP
  • Gràfic de peak calling (Graph Peak Callers)
  • HiChIP

MACS (Dades d'Anàlisis de ChIP-seq Basat en Models)

El MACS (de l'anglès Model-based Analysis of ChIP-Seq data) és un algoritme que permet optimitzar els resultats en comparació al ChIP-chip de diferents formes:

  • Millora en la resolució espacial dels llocs predits.
  • Utilitza el paràmetre λlocal (paràmetre de la distribució de Poisson) per a capturar biaixos locals en el genoma i millora la robustesa i l'especificitat de la predicció.
  • No calen controls quan és aplicada a ChIP-seq, així com millora els resultats quan hi ha control.
  • Proporciona informació detallada per a cada pic (com les coordenades del genoma o el p-value).

Posteriorment es va desenvolupar el MACS2, el qual conté subcomandes i la possibilitat de combinar-les entre elles per a controlar cada passa i analitzar les dades de forma més personalitzada.[12]

Spp (Canalització de Processament ChIP-Seq)

L'Spp (de l'anglès ChIP-Seq Processing Pipeline) es va desenvolupar específicament per a detectar acuradament posicions de llocs d'unió a proteïnes introduint mètodes per a millorar l'alineació d'etiquetes i corregint les senyals de fons. L'Spp introdueix tres mètodes de peak calling:

  1. Window tag density (WTD): estén les etiquetes (tag) de les cadenes positiva i negativa segons la llargada esperada del fragment de DNA seleccionat. Els llocs d'unió es trobarant a les parts amb major solapament del fragment.
  2. Matching Strand Peaks (MSP): determina quins són els pics locals segons les densitats específiques de les etiquetes fetes en el pas anterior, i identifica les posicions envoltades per pics de les cadenes positiva i negativa.
  3. Mirror tag correlation (MTC): escaneja el genoma per a identificar les posicions que tenen paterns pronunciats en mirall a les cadenes positiva i negativa. És a dir, que tenen un pic en ambdues cadenes.

Aquests tres mètodes han d'emprar un control de densitats d'etiquetes pe a corregir la distribució desigual de fons. [13]

Gràfic de peak calling

El Gràfic de Peak Calling (Graph Peak Caller o GPC) és nou mètode, presentat per Grytten, et al. el 2019,[8] que converteix les lectures mapades per una ChIP-seq en un genoma de referència basat en gràfics. És una generalització gràfica del MACS2.

La informació de sortida (output) del GPC consisteix en una gràfics d'intervals. Aquests gràfics es poden convertir en posicions aproximades en un genoma linear de referència, cosa que permet l'anàlisi de pics en base a biblioteques de pics ja trobats.[8]

Fitxer:Graph peak callers.png
Funcionament del GPC. Blau: lectures d'entrada. Roig: lectures control. Gris: nodes.

En comparar els resultats del GPC amb el MACS2, es comprova que el primer troba seqüències enriquides que no troba el segon. El GPC també arriba a analitzar més del doble de parells de bases en comparació al MACS2. Això permet cobrir més variacions del genoma linear de referència.[8]

El funcionament del GPC es basa en:

a) Lectura sense processar (raw read). Lles lectures d'entrada (blau) i les control (roig) es mapen en el genoma de referència basat en gràfics i es filtra en base a la qualitat de mapatge.

b) Muntatge dels fragments estenent els alineaments de l'entrada forward i reverse al llarg de tots els camins possibles segons la direcció corresponent.

c) Creació d'una pista de fons (background track) projectant els resultats de l'alineament de les lectures control sobre el camí linear. Després es calcula la mitjana de les lectures locals i el resultat, que és linear, es projecta de nou en la gràfica. El muntatge de fragments es crea com a quantitat (counts) i la pista de fons es tracta com una taxa (rate) en una distribució de Poisson. El valor p es calcula per a cada posició en les quantitats observades, segons la taxa corresponent.

d) S'ajusten els valors q.

e) Es produeix una sèrie d'àrees amb pics candidates amb buits entre ells.

f) Els buits petits s'omplen, donant una sèrie de subgràfics de pic (subgràfics connectats).

g) El GPC troba només un únic camí màxim ("maximum path"), que s'aconsegueix seleccionant el camí que té el nombre més gran de lectures d'entrada mapat en ell.

HiChIP-peak

El HiChIP és una tècnica recentment desenvolupada per a analitzar la conformació de la cromatina i que se centra en la conformació de les proteïnes de la cromatina. Això permet millorar per 10 la lectura de la informació conformacional i reduir per 100 els requeriments d'entrada en comparació al ChIA-PET.[14] Consisteix en una preparació in situ d'una llibreria Hi-C[15] seguida d'una ChIP, normalment per a modificacions en la histona H3K27ac o en la cohesina.[16] Aquesta és la innovació principal de la tècnica, la combinació dels biaixos d'aquestes dues tècniques (Hi-C i ChIP), permetent que només es calguin sets de dades HiChIP.

Fitxer:Tècnica HiChIP.jpg
Esquema del mètode HiChIP

El mètode HiChIP (figura de la dreta) consisteix en una reticulació de les cèl·lules i posades en contacte in situ. El nucli es sonica i es duu a terme la ChIP, moment en què s'enriqueixen els contactes associats amb proteïnes d'interès. Els contactes biotinilats són identificats i es generen llibreries de seqüències utilitzant la transposasa Tn5.[14]

Els beneficis respecte d'altres mètodes és l'abaratiment de despeses, la major sensibilitat, la necessitat de menors quantitats d'entrades i requeriments per a la seqüenciació reduïdes.[14] Tot i això, hi ha massa poques eines específiques per a analitzar dades HiChIP, ja que la majoria encara utilitzen en dades Hi-C.

Teòricament, és possible extreure dos tipus diferents d'informació de les dades HiChIP: la posició de regions enriquides (o pics) per a la ChIP i les interaccions de llarg abast que involucren aquestes regions.[16]


https://www.biorxiv.org/content/10.1101/073619v1.full


Design and analysis of ChIP-seq experiments for DNA-binding proteins - https://www.nature.com/articles/nbt.1508

Peak calling by Sparse Enrichment Analysis for CUT&RUN chromatin profiling - https://pubmed.ncbi.nlm.nih.gov/31300027/



hichip: https://academic.oup.com/bioinformatics/article/36/12/3625/5811234

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3375645/

http://bioinformatics.sph.harvard.edu/ngs-workshops/courses/introduction-to-chip-seq/

Vegeu també

Referències

  1. Wilbanks, Elizabeth G.; Facciotti, Marc T. «Evaluation of Algorithm Performance in ChIP-Seq Peak Detection» (en anglès). PLOS ONE, 5, 7, 07-08-2010, pàg. e11471. DOI: 10.1371/journal.pone.0011471. ISSN: 1932-6203. PMC: PMC2900203. PMID: 20628599.
  2. 2,0 2,1 2,2 Stanton, Kelly P.; Jin, Jiaqi; Lederman, Roy R.; Weissman, Sherman M.; Kluger, Yuval «Ritornello: high fidelity control-free chromatin immunoprecipitation peak calling». Nucleic Acids Research, 45, 21, 01-12-2017, pàg. e173. DOI: 10.1093/nar/gkx799. ISSN: 1362-4962. PMC: 5716106. PMID: 28981893.
  3. Robertson, Gordon; Hirst, Martin; Bainbridge, Matthew; Bilenky, Misha; Zhao, Yongjun «Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing» (en anglès). Nature Methods, 4, 8, 2007-08, pàg. 651–657. DOI: 10.1038/nmeth1068. ISSN: 1548-7091.
  4. Xu, Han; Handoko, Lusy; Wei, Xueliang; Ye, Chaopeng; Sheng, Jianpeng «A signal–noise model for significance analysis of ChIP-seq with negative control» (en anglès). Bioinformatics, 26, 9, 01-05-2010, pàg. 1199–1204. DOI: 10.1093/bioinformatics/btq128. ISSN: 1460-2059.
  5. Zang, Chongzhi; Schones, Dustin E.; Zeng, Chen; Cui, Kairong; Zhao, Keji «A clustering approach for identification of enriched domains from histone modification ChIP-Seq data» (en anglès). Bioinformatics, 25, 15, 01-08-2009, pàg. 1952–1958. DOI: 10.1093/bioinformatics/btp340. ISSN: 1460-2059. PMC: PMC2732366. PMID: 19505939.
  6. Kim, Hyunmin; Kim, Jihye; Selby, Heather; Gao, Dexiang; Tong, Tiejun «A short survey of computational analysis methods in analysing ChIP-seq data» (en anglès). Human Genomics, 5, 2, 2011, pàg. 117. DOI: 10.1186/1479-7364-5-2-117. ISSN: 1479-7364. PMC: PMC3525234. PMID: 21296745.
  7. Johnson, David S.; Mortazavi, Ali; Myers, Richard M.; Wold, Barbara «Genome-Wide Mapping of in Vivo Protein-DNA Interactions» (en anglès). Science, 316, 5830, 08-06-2007, pàg. 1497–1502. DOI: 10.1126/science.1141319. ISSN: 0036-8075. PMID: 17540862.
  8. 8,0 8,1 8,2 8,3 8,4 Grytten, Ivar; Rand, Knut D.; Nederbragt, Alexander J.; Storvik, Geir O.; Glad, Ingrid K. «Graph Peak Caller: Calling ChIP-seq peaks on graph-based reference genomes» (en anglès). PLOS Computational Biology, 15, 2, 19-02-2019, pàg. e1006731. DOI: 10.1371/journal.pcbi.1006731. ISSN: 1553-7358. PMC: PMC6396939. PMID: 30779737.
  9. «TFmapper: A Tool for Searching Putative Factors Regulating Gene Expression Using ChIP-seq Data». DOI: 10.7150/ijbs.28850. [Consulta: 2 desembre 2020].
  10. Pepke, Shirley; Wold, Barbara; Mortazavi, Ali «Computation for ChIP-seq and RNA-seq studies». Nature methods, 6, 11 0, 2009-11, pàg. S22–S32. DOI: 10.1038/nmeth.1371. ISSN: 1548-7091. PMC: 4121056. PMID: 19844228.
  11. Li, Heng; Ruan, Jue; Durbin, Richard «Mapping short DNA sequencing reads and calling variants using mapping quality scores» (en anglès). Genome Research, 18, 11, 01-11-2008, pàg. 1851–1858. DOI: 10.1101/gr.078212.108. ISSN: 1088-9051. PMC: PMC2577856. PMID: 18714091.
  12. «Advanced: Call peaks using MACS2 subcommands» (en anglès). Liu, T., 22-03-2017. [Consulta: 2 desembre 2020].
  13. Kharchenko, Peter V.; Tolstorukov, Michael Y.; Park, Peter J. «Design and analysis of ChIP-seq experiments for DNA-binding proteins». Nature biotechnology, 26, 12, 2008-12, pàg. 1351–1359. DOI: 10.1038/nbt.1508. ISSN: 1087-0156. PMC: 2597701. PMID: 19029915.
  14. 14,0 14,1 14,2 Mumbach, Maxwell R.; Rubin, Adam J.; Flynn, Ryan A.; Dai, Chao; Khavari, Paul A. «HiChIP: Efficient and sensitive analysis of protein-directed genome architecture» (en anglès). bioRxiv, 08-09-2016, pàg. 073619. DOI: 10.1101/073619.
  15. Lieberman-Aiden, Erez; Berkum, Nynke L. van; Williams, Louise; Imakaev, Maxim; Ragoczy, Tobias «Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome» (en anglès). Science, 326, 5950, 09-10-2009, pàg. 289–293. DOI: 10.1126/science.1181369. ISSN: 0036-8075. PMC: PMC2858594. PMID: 19815776.
  16. 16,0 16,1 Shi, Chenfu; Rattray, Magnus; Orozco, Gisela. «HiChIP-Peaks: A HiChIP peak calling algorithm», 27-06-2019. [Consulta: 3 desembre 2020].