Model de llenguatge extens

De la Viquipèdia, l'enciclopèdia lliure
Model de llenguatge gran

TipusAPI
Característiques tècniques
PlataformaMultiplataforma
Equip
Desenvolupador(s)OpenAI, Google, Microsoft, Amazon...
En una sèrie de punts de referència del llenguatge natural que impliquen tasques com la resposta a preguntes, els models no funcionen millor que l'atzar fins que arriben a una certa escala (en aquest cas, mesurada per càlcul d'entrenament), moment en què el seu rendiment augmenta bruscament. Aquests són exemples d'habilitats emergents.

Un model de llenguatge extens (amb acrònim, MLE, i també coneguts per les sigles angleses LLM)[1] és un model de llenguatge que consisteix en una xarxa neuronal amb molts paràmetres (normalment milers de milions de pesos o més), entrenats en grans quantitats de text sense etiqueta i mitjançant aprenentatge no supervisat. Els MLE van sorgir al voltant del 2018 i funcionen bé en una gran varietat de tasques. Això ha desplaçat el focus de la investigació sobre el processament del llenguatge natural del paradigma anterior de formació de models supervisats especialitzats per a tasques específiques.[2][3]

Tot i que el terme model de llenguatge extens no té una definició formal, generalment es refereix a models d'aprenentatge profund que tenen un recompte de paràmetres de l'ordre de milers de milions o més. Els LLM són models de propòsit general que destaquen en una àmplia gamma de tasques, en lloc de ser entrenats per a una tasca específica (com ara l'anàlisi de sentiments, el reconeixement d'entitats anomenades o el raonament matemàtic). Tot i que s'ha entrenat en tasques senzilles en la línia de predir la següent paraula en una frase, es troben models de llenguatge neuronal amb un entrenament i un recompte de paràmetres suficients per capturar gran part de la sintaxi i la semàntica del llenguatge humà. A més, els grans models lingüístics demostren un coneixement general considerable sobre el món i són capaços de "memoritzar" una gran quantitat de fets durant l'entrenament.[4]

Arquitectura[modifica]

Els models de llenguatge extensos han utilitzat més habitualment l'arquitectura del transformador, que, des del 2018, s'ha convertit en la tècnica estàndard d'aprenentatge profund per a dades seqüencials (abans, les arquitectures recurrents com la LSTM eren les més habituals). Els LLM es formen de manera no supervisada en text sense anotació. S'entrena un transformador d'esquerra a dreta per maximitzar la probabilitat assignada a la paraula següent de les dades d'entrenament, donat el context anterior. Alternativament, un LLM pot utilitzar un transformador bidireccional (com en l'exemple de BERT), que assigna una distribució de probabilitat sobre paraules que tenen accés tant al context anterior com al següent. A més de la tasca de predir la paraula següent o "omplir els espais en blanc", els LLM poden ser entrenats en tasques auxiliars que posen a prova la seva comprensió de la distribució de dades, com ara la predicció de la següent frase (NSP), en què es presenten parells d'oracions i el model ha de predir si apareixen una al costat de l'altra al corpus de formació.[5]

Llista de grans models de llenguatge[modifica]

Nom Data sortida Autor Nombre de paràmetres Tamany Llicència
BERT 2018 Google 340 milions 3.3 mil milion de paraules Apache 2.0
GPT-2 2019 OpenAI 1.5 mil milions 40GB[6] (~10 mil milions de tokens)[7] MIT
GPT-3 2020 OpenAI 175 mil milions 499 mil milions de tokens[7] API amb Web pública
GPT-Neo Març 2021 EleutherAI 2.7 mil milions[8] 825 GiB MIT
GPT-J Juny 2021 EleutherAI 6 mil milions[9] 825 GiB[10] Apache 2.0
Megatron-Turing NLG Octubre 2021[11] Microsoft i Nvidia 530 mil milions 338.6 mil milion de tokens Accés restringit
Ernie 3.0 Titan Desembre 2021 Baidu 260 mil milions[12][13] 4 Tb Propietari
Claude[14] December 2021 Anthropic 52 mil milions[15] 400 mil milions de tokens[15] Versió beta tancada
GLaM (Generalist Language Model) Desembre 2021 Google 1.2 bilions 1.6 bilions de tokens Propietari
Gopher Desembre 2021 DeepMind 280 mil milions[16] 300 mil milions de tokens[17] Propietari
LaMDA (Language Models for Dialog Applications) Gener 2022 Google 137 mil milions 1.56T paraules, 168 billion tokens[17] Propietari
GPT-NeoX Febrer 2022 EleutherAI 20 mil milions[18] 825 GiB[10] Apache 2.0
Chinchilla Març 2022 DeepMind 70 mil milions 1.4 bilions de tokens[17] Propietari
PaLM (Pathways Language Model) Abril 2022 Google 540 mil milions 768 mil milions de tokens Propietari
OPT (Open Pretrained Transformer) Maig 2022 Meta 175 mil milions[19] 180 mil milions de tokens GPT-3
YaLM 100B Juny 2022 Yandex 100.000 milions[20] 1.7TB[20] Apache 2.0
Minerva Juny 2022 Google 540 mil milions[21] 38.5B tokens [21] Propietari
BLOOM Juliol 2022 Large collaboration led per Hugging Face 175 mil milions 350 mil milions de tokens (1.6TB)[22] ?
AlexaTM (Teacher Models) Novembre 2022 Amazon 20 mil milions[23] 1.3 mil milions API amb Web pública
LLaMA (Large Language Model Meta AI) Febrer 2023 Meta 65 mil milions 1.4 mil milions Recerca no comercial
GPT-4 Març 2023 OpenAI 100 bilions [24] Desconegut API amb Web pública


Referències[modifica]

  1. «Model de llenguatge extens». Cercaterm. TERMCAT, Centre de Terminologia.
  2. «Human Language Understanding & Reasoning» (en anglès). https://www.amacad.org,+13-04-2022.+[Consulta: 15 març 2023].
  3. «How Large Language Models Will Transform Science, Society, and AI» (en anglès). https://hai.stanford.edu.+[Consulta: 15 març 2023].
  4. «Large Language Models: Complete Guide in 2023» (en anglès). https://research.aimultiple.com.+[Consulta: 15 març 2023].
  5. «Large Language Models: A New Moore's Law?» (en anglès). https://huggingface.co.+[Consulta: 15 març 2023].
  6. «Better language models and their implications» (en anglès). openai.com.
  7. 7,0 7,1 «OpenAI's GPT-3 Language Model: A Technical Overview» (en anglès). lambdalabs.com.
  8. «GPT Neo» (en anglès), 15-03-2023.
  9. «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» (en anglès). www.forefront.ai. Arxivat de l'original el 2023-03-09. [Consulta: 28 febrer 2023].
  10. 10,0 10,1 . 
  11. Alvi, Ali. «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model». Microsoft Research, 11-10-2021.
  12. Nast, Condé. «China's ChatGPT Black Market Is Thriving».
  13. Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation", 23-12-2021. arXiv: 2112.12731.
  14. «Product» (en anglès). Anthropic. [Consulta: 14 març 2023].
  15. 15,0 15,1 . 
  16. «Language modelling at scale: Gopher, ethical considerations, and retrieval» (en anglès). www.deepmind.com. [Consulta: 20 març 2023].
  17. 17,0 17,1 17,2 . 
  18. (2022-05-01) "[1]" a Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models.  
  19. «Democratizing access to large-scale language models with OPT-175B» (en anglès). ai.facebook.com.
  20. 20,0 20,1 [Consulta: 18 març 2023]. 
  21. 21,0 21,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk arXiv:2206.14858 [cs], 30-06-2022 [Consulta: 20 març 2023].
  22. «bigscience/bloom · Hugging Face» (en anglès). huggingface.co.
  23. «20B-parameter Alexa model sets new marks in few-shot learning» (en anglès). Amazon Science, 02-08-2022.
  24. Stern, Jacob. «GPT-4 Might Just Be a Bloated, Pointless Mess» (en anglès). https://www.theatlantic.com,+06-03-2023.+[Consulta: 5 abril 2023].