Google Ngram Viewer
El Google Ngram Viewer o Google Books Ngram Viewer és un motor de cerca en línia que representa les freqüències de qualsevol conjunt de cadenes de cerca utilitzant un recompte anual de n -grams que es troben en fonts impreses publicades entre 1500 i 2019 als corpus de text de Google en anglès, xinès (simplificat), alemany, hebreu, italià, rus o espanyol. També hi ha alguns corpus especialitzats en anglès, com l'anglès americà, l'anglès britànic i la ficció anglesa.[1]
El programa pot cercar una paraula o una frase, incloses les faltes d'ortografia o un galimaties. Els n -grams coincideixen amb el text dins del corpus seleccionat, opcionalment utilitzant l'ortografia sensible a majúscules (que compara l'ús exacte de les lletres majúscules), i, si es troben en 40 llibres o més, es mostren com a gràfic. . El Google Ngram Viewer admet cerques de parts de parla i comodins .[1] S'utilitza habitualment en recerca.[2][3]
Història
[modifica]El programa va ser desenvolupat per Jon Orwant i Will Brockman i va ser llançat a mitjans de desembre de 2010. Es va inspirar en un prototip anomenat Bookworm creat per Jean-Baptiste Michel i Erez Aiden de l'Observatori Cultural de Harvard, Yuan Shen del MIT i Steven Pinker.[4]
L'Ngram Viewer es va basar inicialment en l'edició de 2009 del Google Books Ngram Corpus. A Juliol 2020[update] , el programa admet corpus de 2009, 2012 i 2019.
Funcionament i restriccions
[modifica]Les comes delimiten els termes de cerca introduïts per l'usuari, indicant cada paraula o frase separada a trobar. L'Ngram Viewer retorna un gràfic de línies gràfics.
Com a ajustament per haver publicat més llibres durant alguns anys, les dades es normalitzen, a nivell relatiu, pel nombre de llibres publicats en cada any.
A causa de les limitacions de la mida de la base de dades Ngram, només les coincidències que es troben en almenys 40 llibres s'indexen a la base de dades.
Corpora
[modifica]Els corpora utilitzats pel cercador estan compostos per total_counts, 1-grams, 2-grams, 3-grams, 4-grams, i 5-grams arxius per a cada idioma. El format de cada fitxer té el format tab-separated data. Cada línia té el següent format [5]
- total_counts file
- year TAB match_count TAB page_count TAB volume_count NEWLINE
- Versió 1 ngram file (generated in July 2009)
- ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
- Versió 2 ngram file (generated in July 2012)
- ngram TAB year TAB match_count TAB volume_count NEWLINE
El Google Ngram Viewer utilitza match_count per produir el gràfic.
Per exemple, la paraula "Wikipedia" del fitxer versió 2 de N-gram en anglès està arxivada com: [6]
ngram | any | match_count | volume_count |
---|---|---|---|
Wikipedia | 1904 | 1 | 1 |
Wikipedia | 1912 | 11 | 1 |
Wikipedia | 1924 | 1 | 1 |
Wikipedia | 1925 | 11 | 1 |
Wikipedia | 1929 | 11 | 1 |
Wikipedia | 1943 | 11 | 1 |
Wikipedia | 1946 | 11 | 1 |
Wikipedia | 1947 | 11 | 1 |
Wikipedia | 1949 | 11 | 1 |
Wikipedia | 1951 | 11 | 1 |
Wikipedia | 1953 | 22 | 2 |
Wikipedia | 1955 | 11 | 1 |
Wikipedia | 1958 | 1 | 1 |
Wikipedia | 1961 | 22 | 2 |
Wikipedia | 1964 | 22 | 2 |
Wikipedia | 1965 | 11 | 1 |
Wikipedia | 1966 | 15 | 2 |
Wikipedia | 1969 | 33 | 3 |
Wikipedia | 1970 | 129 | 4 |
Wikipedia | 1971 | 44 | 4 |
Wikipedia | 1972 | 22 | 2 |
Wikipedia | 1973 | 1 | 1 |
Wikipedia | 1974 | 2 | 1 |
Wikipedia | 1975 | 33 | 3 |
Wikipedia | 1976 | 11 | 1 |
Wikipedia | 1977 | 13 | 3 |
Wikipedia | 1978 | 11 | 1 |
Wikipedia | 1979 | 112 | 12 |
Wikipedia | 1980 | 13 | 4 |
Wikipedia | 1982 | 11 | 1 |
Wikipedia | 1983 | 3 | 2 |
Wikipedia | 1984 | 48 | 3 |
Wikipedia | 1985 | 37 | 3 |
Wikipedia | 1986 | 6 | 4 |
Wikipedia | 1987 | 13 | 2 |
Wikipedia | 1988 | 14 | 3 |
Wikipedia | 1990 | 12 | 2 |
Wikipedia | 1991 | 8 | 5 |
Wikipedia | 1992 | 1 | 1 |
Wikipedia | 1993 | 1 | 1 |
Wikipedia | 1994 | 23 | 3 |
Wikipedia | 1995 | 4 | 1 |
Wikipedia | 1996 | 23 | 3 |
Wikipedia | 1997 | 6 | 1 |
Wikipedia | 1998 | 32 | 10 |
Wikipedia | 1999 | 39 | 11 |
Wikipedia | 2000 | 43 | 12 |
Wikipedia | 2001 | 59 | 14 |
Wikipedia | 2002 | 105 | 19 |
Wikipedia | 2003 | 149 | 53 |
Wikipedia | 2004 | 803 | 285 |
Wikipedia | 2005 | 2964 | 911 |
Wikipedia | 2006 | 9818 | 2655 |
Wikipedia | 2007 | 20017 | 5400 |
Wikipedia | 2008 | 33722 | 6825 |
El gràfic de Google Ngram Viewer basat en les dades presentades a dalt es troba aquí .
Limitacions
[modifica]El conjunt de dades ha estat criticat per la seva confiança en l'OCR inexacte, una sobreabundància de literatura científica i per incloure un gran nombre de textos amb data i categorització incorrecta.[7][8] A causa d'aquests errors, i perquè no es controla el biaix [9] (com ara la creixent quantitat de literatura científica, que fa que altres termes apareguin disminuir en popularitat), és arriscat utilitzar aquest corpus per estudiar el llenguatge o provar teories. . Com que el conjunt de dades no inclou metadades, pot ser que no reflecteixi un canvi lingüístic o cultural general [10] i només pot indicar aquest efecte.
S'han proposat directrius per fer recerca amb dades de Google Ngram que aborden molts dels problemes comentats anteriorment.[11]
Problemes d'OCR
[modifica]El reconeixement òptic de caràcters, o OCR, no sempre és fiable i és possible que alguns caràcters no s'escanegin correctament. En particular, errors sistèmics com la confusió de s i f en textos anteriors al segle XIX (a causa de l'ús de la s llarga, que era semblant en aparença a f ) poden causar biaix sistèmic. Tot i que Google Ngram Viewer afirma que els resultats són fiables a partir de 1800, un OCR deficient i les dades insuficients fan que les freqüències donades per a idiomes com el xinès només siguin precises a partir de 1970, i les parts anteriors del corpus no mostren cap resultat per a termes comuns., i dades d'alguns anys que contenen més del 50% de soroll.[12][13]
Referències
[modifica]- ↑ 1,0 1,1 «Google Books Ngram Viewer info page».
- ↑ Greenfield, Patricia M. (en anglès) Psychological Science, 24, 9, setembre 2013, pàg. 1722–1731. DOI: 10.1177/0956797613479387. ISSN: 0956-7976. PMID: 23925305.
- ↑ Younes, Nadja; Reips, Ulf-Dietrich (en anglès) International Journal of Psychology, 53, octubre 2018, pàg. 53–62. DOI: 10.1002/ijop.12428. PMID: 28474338.
- ↑ The RSA. «Steven Pinker – The Stuff of Thought: Language as a window into human nature», 04-02-2010.
- ↑ «Google Books Ngram Viewer». Google.
- ↑ googlebooks-eng-all-1gram-20120701-w.gz at http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- ↑ Google Ngrams: OCR and Metadata Arxivat 2016-04-27 a Wayback Machine.. ResourceShelf, 19 December 2010
- ↑ Nunberg, Geoff. «Humanities research with the Google Books corpus», 16-12-2010. Arxivat de l'original el 10 març 2016.
- ↑ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain PLOS ONE, 10, 10, 07-10-2015, pàg. e0137041. arXiv: 1501.00960. Bibcode: 2015PLoSO..1037041P. DOI: 10.1371/journal.pone.0137041. PMC: 4596490. PMID: 26445406 [Consulta: free].
- ↑ Koplenig, Alexander 2017-04-01, 32, 1, 02-09-2015, pàg. 169–188. DOI: 10.1093/llc/fqv037. ISSN: 2055-7671.
- ↑ Younes, Nadja; Reips, Ulf-Dietrich (en anglès) PLOS ONE, 14, 3, 22-03-2019, pàg. e0213554. Bibcode: 2019PLoSO..1413554Y. DOI: 10.1371/journal.pone.0213554. ISSN: 1932-6203. PMC: 6430395. PMID: 30901329 [Consulta: free].
- ↑ Google n-grams and pre-modern Chinese. digitalsinology.org.
- ↑ When n-grams go bad. digitalsinology.org.
Bibliografia
[modifica]- Lin, Yuri; Michel, Jean-Baptiste; Aiden, Erez Lieberman; Orwant, Jon; Brockman, Will; 1 (PDF) Proceedings of the 50th Annual Meeting [Jeju, Republic of Korea], 2, juliol 2012, pàg. 169–174. 2390499. «Whitepaper presenting the 2012 edition of the Google Books Ngram Corpus»