Model de llenguatge extens

Model de llenguatge gran
Tipus	API
Característiques tècniques
Plataforma	Multiplataforma
Equip
Desenvolupador(s)	OpenAI, Google, Microsoft, Amazon...

Un model de llenguatge extens (amb acrònim, MLE, i també coneguts per les sigles angleses LLM)^[1] és un model de llenguatge que consisteix en una xarxa neuronal amb molts paràmetres (normalment milers de milions de pesos o més), entrenats en grans quantitats de text sense etiqueta i mitjançant aprenentatge no supervisat. Els MLE van sorgir al voltant del 2018 i funcionen bé en una gran varietat de tasques. Això ha desplaçat el focus de la investigació sobre el processament del llenguatge natural del paradigma anterior de formació de models supervisats especialitzats per a tasques específiques.^[2]^[3]

Tot i que el terme model de llenguatge extens no té una definició formal, generalment es refereix a models d'aprenentatge profund que tenen un recompte de paràmetres de l'ordre de milers de milions o més. Els LLM són models de propòsit general que destaquen en una àmplia gamma de tasques, en lloc de ser entrenats per a una tasca específica (com ara l'anàlisi de sentiments, el reconeixement d'entitats anomenades o el raonament matemàtic). Tot i que s'ha entrenat en tasques senzilles en la línia de predir la següent paraula en una frase, es troben models de llenguatge neuronal amb un entrenament i un recompte de paràmetres suficients per capturar gran part de la sintaxi i la semàntica del llenguatge humà. A més, els grans models lingüístics demostren un coneixement general considerable sobre el món i són capaços de "memoritzar" una gran quantitat de fets durant l'entrenament.^[4]

Arquitectura[modifica]

Els models de llenguatge extensos han utilitzat més habitualment l'arquitectura del transformador, que, des del 2018, s'ha convertit en la tècnica estàndard d'aprenentatge profund per a dades seqüencials (abans, les arquitectures recurrents com la LSTM eren les més habituals). Els LLM es formen de manera no supervisada en text sense anotació. S'entrena un transformador d'esquerra a dreta per maximitzar la probabilitat assignada a la paraula següent de les dades d'entrenament, donat el context anterior. Alternativament, un LLM pot utilitzar un transformador bidireccional (com en l'exemple de BERT), que assigna una distribució de probabilitat sobre paraules que tenen accés tant al context anterior com al següent. A més de la tasca de predir la paraula següent o "omplir els espais en blanc", els LLM poden ser entrenats en tasques auxiliars que posen a prova la seva comprensió de la distribució de dades, com ara la predicció de la següent frase (NSP), en què es presenten parells d'oracions i el model ha de predir si apareixen una al costat de l'altra al corpus de formació.^[5]

Llista de grans models de llenguatge[modifica]

Nom	Data sortida	Autor	Nombre de paràmetres	Tamany	Llicència
BERT	2018	Google	340 milions	3.3 mil milion de paraules	Apache 2.0
GPT-2	2019	OpenAI	1.5 mil milions	40GB^[6] (~10 mil milions de tokens)^[7]	MIT
GPT-3	2020	OpenAI	175 mil milions	499 mil milions de tokens^[7]	API amb Web pública
GPT-Neo	Març 2021	EleutherAI	2.7 mil milions^[8]	825 GiB	MIT
GPT-J	Juny 2021	EleutherAI	6 mil milions^[9]	825 GiB^[10]	Apache 2.0
Megatron-Turing NLG	Octubre 2021^[11]	Microsoft i Nvidia	530 mil milions	338.6 mil milion de tokens	Accés restringit
Ernie 3.0 Titan	Desembre 2021	Baidu	260 mil milions^[12]^[13]	4 Tb	Propietari
Claude^[14]	December 2021	Anthropic	52 mil milions^[15]	400 mil milions de tokens^[15]	Versió beta tancada
GLaM (Generalist Language Model)	Desembre 2021	Google	1.2 bilions	1.6 bilions de tokens	Propietari
Gopher	Desembre 2021	DeepMind	280 mil milions^[16]	300 mil milions de tokens^[17]	Propietari
LaMDA (Language Models for Dialog Applications)	Gener 2022	Google	137 mil milions	1.56T paraules, 168 billion tokens^[17]	Propietari
GPT-NeoX	Febrer 2022	EleutherAI	20 mil milions^[18]	825 GiB^[10]	Apache 2.0
Chinchilla	Març 2022	DeepMind	70 mil milions	1.4 bilions de tokens^[17]	Propietari
PaLM (Pathways Language Model)	Abril 2022	Google	540 mil milions	768 mil milions de tokens	Propietari
OPT (Open Pretrained Transformer)	Maig 2022	Meta	175 mil milions^[19]	180 mil milions de tokens	GPT-3
YaLM 100B	Juny 2022	Yandex	100.000 milions^[20]	1.7TB^[20]	Apache 2.0
Minerva	Juny 2022	Google	540 mil milions^[21]	38.5B tokens ^[21]	Propietari
BLOOM	Juliol 2022	Large collaboration led per Hugging Face	175 mil milions	350 mil milions de tokens (1.6TB)^[22]	?
AlexaTM (Teacher Models)	Novembre 2022	Amazon	20 mil milions^[23]	1.3 mil milions	API amb Web pública
LLaMA (Large Language Model Meta AI)	Febrer 2023	Meta	65 mil milions	1.4 mil milions	Recerca no comercial
GPT-4	Març 2023	OpenAI	100 bilions ^[24]	Desconegut	API amb Web pública

Referències[modifica]

↑ «Model de llenguatge extens». Cercaterm. TERMCAT, Centre de Terminologia.
↑ «Human Language Understanding & Reasoning» (en anglès). https://www.amacad.org,+13-04-2022.+[Consulta: 15 març 2023].
↑ «How Large Language Models Will Transform Science, Society, and AI» (en anglès). https://hai.stanford.edu.+[Consulta: 15 març 2023].
↑ «Large Language Models: Complete Guide in 2023» (en anglès). https://research.aimultiple.com.+[Consulta: 15 març 2023].
↑ «Large Language Models: A New Moore's Law?» (en anglès). https://huggingface.co.+[Consulta: 15 març 2023].
↑ «Better language models and their implications» (en anglès). openai.com.
↑ ^7,0 ^7,1 «OpenAI's GPT-3 Language Model: A Technical Overview» (en anglès). lambdalabs.com.
↑ «GPT Neo» (en anglès), 15-03-2023.
↑ «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» (en anglès). www.forefront.ai. Arxivat de l'original el 2023-03-09. [Consulta: 28 febrer 2023].
↑ ^10,0 ^10,1 .
↑ Alvi, Ali. «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model». Microsoft Research, 11-10-2021.
↑ Nast, Condé. «China's ChatGPT Black Market Is Thriving».
↑ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation", 23-12-2021. arXiv: 2112.12731.
↑ «Product» (en anglès). Anthropic. [Consulta: 14 març 2023].
↑ ^15,0 ^15,1 .
↑ «Language modelling at scale: Gopher, ethical considerations, and retrieval» (en anglès). www.deepmind.com. [Consulta: 20 març 2023].
↑ ^17,0 ^17,1 ^17,2 .
↑ (2022-05-01) "[1]" a Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models.
↑ «Democratizing access to large-scale language models with OPT-175B» (en anglès). ai.facebook.com.
↑ ^20,0 ^20,1 [Consulta: 18 març 2023].
↑ ^21,0 ^21,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk arXiv:2206.14858 [cs], 30-06-2022 [Consulta: 20 març 2023].
↑ «bigscience/bloom · Hugging Face» (en anglès). huggingface.co.
↑ «20B-parameter Alexa model sets new marks in few-shot learning» (en anglès). Amazon Science, 02-08-2022.
↑ Stern, Jacob. «GPT-4 Might Just Be a Bloated, Pointless Mess» (en anglès). https://www.theatlantic.com,+06-03-2023.+[Consulta: 5 abril 2023].

[1] «Model de llenguatge extens». Cercaterm. TERMCAT, Centre de Terminologia.

[2] «Human Language Understanding & Reasoning» (en anglès). https://www.amacad.org,+13-04-2022.+[Consulta: 15 març 2023].

[3] «How Large Language Models Will Transform Science, Society, and AI» (en anglès). https://hai.stanford.edu.+[Consulta: 15 març 2023].

[4] «Large Language Models: Complete Guide in 2023» (en anglès). https://research.aimultiple.com.+[Consulta: 15 març 2023].

[5] «Large Language Models: A New Moore's Law?» (en anglès). https://huggingface.co.+[Consulta: 15 març 2023].

[6] «Better language models and their implications» (en anglès). openai.com.

[LambdaLabs-7] 7,0 ^7,1 «OpenAI's GPT-3 Language Model: A Technical Overview» (en anglès). lambdalabs.com.

[gpt-neo-8] «GPT Neo» (en anglès), 15-03-2023.

[9] «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» (en anglès). www.forefront.ai. Arxivat de l'original el 2023-03-09. [Consulta: 28 febrer 2023].

[Pile-10] 10,0 ^10,1 .

[11] Alvi, Ali. «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model». Microsoft Research, 11-10-2021.

[12] Nast, Condé. «China's ChatGPT Black Market Is Thriving».

[13] Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation", 23-12-2021. arXiv: 2112.12731.

[14] «Product» (en anglès). Anthropic. [Consulta: 14 març 2023].

[AnthroArch-15] 15,0 ^15,1 .

[16] «Language modelling at scale: Gopher, ethical considerations, and retrieval» (en anglès). www.deepmind.com. [Consulta: 20 març 2023].

[hoffman-17] 17,0 ^17,1 ^17,2 .

[“gpt-neox-20b”-18] (2022-05-01) "[1]" a Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models.

[19] «Democratizing access to large-scale language models with OPT-175B» (en anglès). ai.facebook.com.

[yalm-repo-20] 20,0 ^20,1 [Consulta: 18 març 2023].

[minerva-paper-21] 21,0 ^21,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk arXiv:2206.14858 [cs], 30-06-2022 [Consulta: 20 març 2023].

[22] «bigscience/bloom · Hugging Face» (en anglès). huggingface.co.

[23] «20B-parameter Alexa model sets new marks in few-shot learning» (en anglès). Amazon Science, 02-08-2022.

[24] Stern, Jacob. «GPT-4 Might Just Be a Bloated, Pointless Mess» (en anglès). https://www.theatlantic.com,+06-03-2023.+[Consulta: 5 abril 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]