Seq2seq

De la Viquipèdia, l'enciclopèdia lliure

Seq2seq és una família d'enfocaments d'aprenentatge automàtic utilitzats per al processament del llenguatge natural. Les aplicacions inclouen traducció d'idiomes, subtítols d'imatges, models de conversa i resum de text.[1]

Història[modifica]

L'algorisme va ser desenvolupat per Google per utilitzar-lo en traducció automàtica.[2]

Un treball anterior similar inclou la tesi doctoral de 2012 de Tomáš Mikolov.[3] [ es necessita una font no primària ]

El 2019, Facebook va anunciar el seu ús en integració simbòlica i resolució d'equacions diferencials. L'empresa va afirmar que podria resoldre equacions complexes més ràpidament i amb més precisió que solucions comercials com Mathematica, MATLAB i Maple. En primer lloc, l'equació s'analitza en una estructura d'arbre per evitar idiosincràsies de notació. Aleshores, una xarxa neuronal LSTM aplica les seves instal·lacions estàndard de reconeixement de patrons per processar l'arbre.[4]

El 2020, Google va llançar Meena, un chatbot basat en seq2seq de 2.600 milions de paràmetres entrenat en un conjunt de dades de 341 GB. Google va afirmar que el chatbot té una capacitat de model 1,7 vegades més gran que el GPT-2 d'OpenAI,[5] el successor del maig de 2020, el paràmetre GPT-3 de 175.000 milions, es va entrenar en un "conjunt de dades de 45 TB de paraules de text sense format (45.000 GB) que era ... filtrat fins a 570 GB".[6]

El 2022, Amazon va presentar AlexaTM 20B, un model de llenguatge seq2seq de mida moderada (20.000 milions de paràmetres). Utilitza un codificador-descodificador per aconseguir un aprenentatge de pocs tirs. El codificador emet una representació de l'entrada que el descodificador utilitza com a entrada per realitzar una tasca específica, com ara traduir l'entrada a un altre idioma. El model supera el GPT-3 molt més gran en traducció i resum d'idiomes. L'entrenament combina la reducció de soroll (inserir adequadament el text que falta a les cadenes) i el modelatge de llenguatge causal (ampliar de manera significativa un text d'entrada). Permet afegir funcions en diferents idiomes sense fluxos de treball d'entrenament massius. L'AlexaTM 20B va aconseguir un rendiment d'última generació en tasques d'aprenentatge de pocs cops en tots els parells d'idiomes Flores-101, superant el GPT-3 en diverses tasques.[7]

Tècnica[modifica]

Seq2seq converteix una seqüència en una altra seqüència (transformació de seqüències). Ho fa mitjançant l'ús d'una xarxa neuronal recurrent (RNN) o més sovint LSTM o GRU per evitar el problema del gradient de desaparició. El context de cada element és la sortida del pas anterior. Els components principals són un codificador i una xarxa descodificadora. El codificador converteix cada element en un vector ocult corresponent que conté l'element i el seu context. El descodificador inverteix el procés, convertint el vector en un element de sortida, utilitzant la sortida anterior com a context d'entrada.[8]

Les optimitzacions inclouen: [9]

  • Atenció : l'entrada al descodificador és un únic vector que emmagatzema tot el context. L'atenció permet al descodificador mirar la seqüència d'entrada de manera selectiva.
  • Beam Search: en lloc de triar la sortida única (paraula) com a sortida, es conserven múltiples opcions altament probables, estructurades com un arbre (utilitzant un Softmax al conjunt de puntuacions d'atenció [10]). Mitjana dels estats del codificador ponderats per la distribució de l'atenció.[10]
  • Bucketing: les seqüències de longitud variable són possibles a causa del farciment amb 0, que es pot fer tant a l'entrada com a la sortida. Tanmateix, si la longitud de la seqüència és de 100 i l'entrada només té 3 elements, es malgasta un espai car. Els cubs poden ser de diferents mides i especificar longituds tant d'entrada com de sortida.

Referències[modifica]

  1. Wadhwa, Mani. «seq2seq model in Machine Learning» (en anglès). GeeksforGeeks. https://www.geeksforgeeks.org,+05-12-2018.+[Consulta: 17 desembre 2019].
  2. Wadhwa, Mani. «seq2seq model in Machine Learning» (en anglès). GeeksforGeeks. https://www.geeksforgeeks.org,+05-12-2018.+[Consulta: 17 desembre 2019].
  3. p. 94 of https://www.fit.vut.cz/study/phd-thesis-file/283/283.pdf, https://www.fit.vut.cz/study/phd-thesis-file/283/283_o2.pdf
  4. «Facebook has a neural network that can do advanced math» (en anglès). MIT Technology Review. https://www.technologyreview.com,+17 decembre 2019. [Consulta: 17 desembre 2019].
  5. Mehta, Ivan. «Google claims its new chatbot Meena is the best in the world» (en anglès). The Next Web. https://thenextweb.com,+29-01-2020.+[Consulta: 3 febrer 2020].
  6. Gage, Justin. «What's GPT-3?» (en anglès). https://technically.substack.com.+[Consulta: 1r agost 2020].
  7. Rodriguez, Jesus. «🤘Edge#224: AlexaTM 20B is Amazon's New Language Super Model Also Capable of Few-Shot Learning» (en anglès). thesequence.substack.com. https://thesequence.substack.com.+[Consulta: 8 setembre 2022].
  8. Wadhwa, Mani. «seq2seq model in Machine Learning» (en anglès). GeeksforGeeks. https://www.geeksforgeeks.org,+05-12-2018.+[Consulta: 17 desembre 2019].
  9. Wadhwa, Mani. «seq2seq model in Machine Learning» (en anglès). GeeksforGeeks. https://www.geeksforgeeks.org,+05-12-2018.+[Consulta: 17 desembre 2019].
  10. 10,0 10,1 Hewitt, John. «Sequence 2 sequence Models» (en anglès). Stanford University. https://nlp.stanford.edu,+2018.+[Consulta: 28 maig 2023].