Vés al contingut

Incitació de la cadena de pensament

De la Viquipèdia, l'enciclopèdia lliure

L'incitació de la cadena de pensament (amb acrònim anglès CoT) és una tècnica per millorar la capacitat de raonament dels grans models de llenguatge, demanant-los que generin una sèrie de passos intermedis que condueixen a la resposta final d'un problema de diversos passos.[1] Va ser proposat per primera vegada pels investigadors de Google l'any 2022.[2][3]

S'ha demostrat que els grans models de llenguatge (LLM) que s'entrenen en grans quantitats de text mitjançant mètodes d'aprenentatge profund són capaços de generar resultats semblants a les persones.[4] Tot i que els LLM han demostrat un rendiment impressionant en diverses tasques de llenguatge natural, encara s'enfronten a dificultats amb algunes tasques de raonament que requereixen un pensament lògic i múltiples passos per resoldre, com ara preguntes de raonament aritmètic o de sentit comú.[5][6][7] Per fer front a aquest repte, la CoT demana que el model produeixi passos de raonament intermedis abans de donar la resposta final a un problema de diversos passos.[8][9]

Per exemple, davant la pregunta “P: La cafeteria tenia 23 pomes. Si n'han fet servir 20 per fer el dinar i n'han comprat 6 més, quantes pomes tenen?", una indicació de CoT podria produir passos de raonament que imiten un pensament com "A: La cafeteria tenia 23 pomes originalment. Van utilitzar 20 per fer el dinar. Així que tenien 23 - 20 = 3. Van comprar 6 pomes més, així que en tenen 3 + 6 = 9. La resposta és 9".[10] Això contrasta amb la sortida de la resposta directament.

S'ha demostrat que les indicacions de la cadena de pensament milloren el rendiment dels LLM de mitjana tant en tasques aritmètiques com en tasques de sentit comú en comparació amb els mètodes estàndards d'indicacions.[11][12][13] Quan s'aplica a PaLM, un model de llenguatge de 540 mil milions de paràmetres, l'impuls de CoT va ajudar significativament al model, cosa que li va permetre funcionar de manera comparable amb els models afinats i específics de la tasca, fins i tot establint un nou estat de l'art en aquell moment al banc de proves GSM8K.[14]

La sol·licitud de CoT és una propietat emergent de l'escala del model, el que significa que funciona millor amb models de llenguatge més grans i potents.[15][16] També és possible afinar models en conjunts de dades de raonament CoT per millorar encara més aquesta capacitat i estimular una millor interpretabilitat.[17][18]

Referències[modifica]

  1. McAuliffe, Zachary. «Google's Latest AI Model Can Be Taught How to Solve Problems» (en anglès). CNET. [Consulta: 10 març 2023].
  2. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian (en anglès) "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", 31-10-2022.
  3. Wei, Jason. «Language Models Perform Reasoning via Chain of Thought» (en anglès). ai.googleblog.com. [Consulta: 10 març 2023].
  4. Tom, Brown; Benjamin, Mann; Nick, Ryder; Melanie, Subbiah; D, Kaplan, Jared (en anglès) Advances in Neural Information Processing Systems, 33, 2020.
  5. Dang, Ekta. «Harnessing the power of GPT-3 in scientific research» (en anglès). VentureBeat, 08-02-2023. [Consulta: 10 març 2023].
  6. Montti, Roger. «Google's Chain of Thought Prompting Can Boost Today's Best Algorithms» (en anglès). Search Engine Journal, 13-05-2022. [Consulta: 10 març 2023].
  7. Ray, Tiernan. «Amazon's Alexa scientists demonstrate bigger AI isn't always better» (en anglès). ZDNET. [Consulta: 10 març 2023].
  8. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian (en anglès) "Pathways Language Model (PaLM) is a new advanced AI model that uses a technique called chain of thought prompting to do complex tasks like solve math word problems — and even explain its reasoning process step-by-step. #GoogleIO", 31-10-2022.
  9. @Google. «Pathways Language Model (PaLM) is a new advanced AI model that uses a technique called chain of thought prompting to do complex tasks like solve math word problems — and even explain its reasoning process step-by-step. #GoogleIO».
  10. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian (en anglès) "Google & Stanford Team Applies Chain-of-Thought Prompting to Surpass Human Performance on Challenging BIG-Bench Tasks | Synced", 31-10-2022.
  11. Stokel-Walker, Chris. «AIs become smarter if you tell them to think step by step» (en anglès). newscientist.com. [Consulta: 10 març 2023].
  12. «Google & Stanford Team Applies Chain-of-Thought Prompting to Surpass Human Performance on Challenging BIG-Bench Tasks | Synced» (en anglès). syncedreview.com, 24-10-2022. [Consulta: 10 març 2023].
  13. «Google I/O 2022: Advancing knowledge and computing» (en anglès). Google, 11-05-2022. [Consulta: 10 març 2023].
  14. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian (en anglès) "Better Language Models Without Massive Compute", 31-10-2022.
  15. Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret (en anglès) Transactions on Machine Learning Research, 31-08-2022. ISSN: 2835-8856.
  16. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian (en anglès) "LLMs have not learned our language — we're trying to learn theirs", 31-10-2022.
  17. Chung, Hyung Won; Hou, Le; Longpre, Shayne; Zoph, Barret; Tay, Yi "On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning"., 2022. DOI: 10.48550/arXiv.2210.11416.
  18. Wei, Jason. «Better Language Models Without Massive Compute» (en anglès). ai.googleblog.com. [Consulta: 10 març 2023].