Indice de Contenidos

Introducción
Enfoque
1. Modelo y arquitecturas
2. Datasets de entrenamiento
3. Proceso de entrenamiento
4. Evaluación
Resultados
1. Modelado de lenguaje, Cloze y finalización de tareas
2. Preguntas y respuestas a libro cerrado
3. Traducción
4. Tareas de Winograd-style
5. Razonamiento de sentido común
6. Comprensión lectora
7. SuperGLUE
8. NLI
9. Tareas sintéticas y tareas cualitativas
Midiendo y preveniniendo la memorización de benchmarks
Limitaciones
Gran impacto
1. Uso indebido de modelos de lenguaje
2. Justicia, parcialidad (sesgo) y representación
3. Uso de energía
Trabajo relacionado
Conclusión

Resumen

Trabajos recientes han demostrado grandes avances en tareas de procesamiento de lenguaje natural (PLN ó NLP en inglés) y en muchas comparativas (benchmarks) y mediante el pre-entrenamiento sobre un gran corpus de texto, seguido de fine-tuning sobre una tarea específica.

Si bien la arquitectura es agnostica o independiente de la tarea, este método aún requiere fine-tuning sobre datasets de miles o decenas de miles de ejemplos. En contraste, los humanos pueden realizar una tarea nueva de lenguaje a partir de solo algunos ejemplos o instrucciones simples, -- algo que los sistemas de PNL actuales todavía tienen muchas dificultades para hacer --. Aquí mostramos que al escalar el tamaño del modelo se obtiene una gran mejora en el rendimiento en la modalidad de pocos intentos (few shots), a veces alcanzando incluso niveles de competitividad con enfoques anteriores de vanguardia. Específicamente, entrenamos GPT-3, un modelo de lenguaje autoregresivo (transformer) con 175 mil millones de parámetros, 10 veces más que cualquier modelo anterior no disperso (non-sparse), y probamos su rendimiento en la configuración few shots.

Para todas las tareas, se aplica GPT-3 sin ajuste del gradiente o fine tunning demostrando la interacción del texto con el modelo. GPT-3 alcanza un alto rendimiento en diferentes datasets de NLP, incluyendo tareas de traducción, responder preguntas, así como varias tareas que requieren razonamiento sobre la marcha o adaptación de dominio, tales como descifrar palabras, usar una palabra nueva en una oración, o realizar aritmética de 3 dígitos.

Al mismo tiempo, también identificamos algunos datasets donde el aprendizaje de few shots de GPT-3 todavía tiene dificultades, así como algunos datasets donde GPT-3 enfrenta problemas metodológicos relacionados con el entrenamiento basado en corpora de la web GPT3 envenena GPT3.

Finalmente, encontramos que GPT-3 puede generar muestras de artículos de noticias dificiles de distinguir por evaluadores humanos. Discutimos ademas los impactos sociales más amplios de este hallazgo y de GPT-3 en general.

@article{brown2020language, title={Language Models are Few-Shot Learners}, author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei}, year={2020}, eprint={2005.14165}, archivePrefix={arXiv}, primaryClass={cs.CL} }

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
01-Introduccion.md		01-Introduccion.md
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
Codigo-conducta.md		Codigo-conducta.md
README.md		README.md
contenidos.md		contenidos.md
plain-text-without-revision.md		plain-text-without-revision.md
resumen.md		resumen.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Indice de Contenidos

Resumen

Trabajos recientes han demostrado grandes avances en tareas de procesamiento de lenguaje natural (PLN ó NLP en inglés) y en muchas comparativas (benchmarks) y mediante el pre-entrenamiento sobre un gran corpus de texto, seguido de fine-tuning sobre una tarea específica.

About

Releases

Packages

mistersoftware/GPT3-en-espannol

Folders and files

Latest commit

History

Repository files navigation

Indice de Contenidos

Resumen

Trabajos recientes han demostrado grandes avances en tareas de procesamiento de lenguaje natural (PLN ó NLP en inglés) y en muchas comparativas (benchmarks) y mediante el pre-entrenamiento sobre un gran corpus de texto, seguido de fine-tuning sobre una tarea específica.

About

Topics

Resources

Code of conduct

Stars

Watchers

Forks

Releases

Packages 0

Packages