Kevin Hernández Rostrán

Parte 11. ¿Que son few shot learners? ¿One shot learners?En problemas de categorización en los modelos de aprendizaje, los “one-shot learners” tienen como objetivo aprender información sobre categorías de objetos de una, o solo unas pocas, muestras/imágenes durante el entrenamiento. En el paper usan el término “meta-learning” para demostrar la estructura del bucle interno / bucle externo del método general, y el término “in context-learning” para referirse al bucle interno del “meta-learning”. Por lo que los autores describen a “zero-shot”, “one-shot”, o “few-shot” dependiendo de cuántas demostraciones se brinden en el momento de la inferencia.2. Comente el modelo GPT-3 que utilizan, ¿Cómo es?El modelo de Pre-entrenamiento Generativo (GPT-3) utiliza modelado de lenguaje de probabilidad condicional con una arquitectura de red neuronal transformadora que se basa en mecanismos de auto atención (inspirados en mecanismos de atención de tareas de procesamiento de imágenes) en lugar de recurrencia o convolución. Según los autores este es un modelo de lenguaje autorregresivo de 175 mil millones de parámetros. 3. Comente alguna de las aplicaciones para la que lo utilizaronUtilizaron el modelo GPT-3 para evaluarlo en más de dos docenas de conjuntos de datos NLP, así como en varias tareas diseñadas para probar la adaptación rápida a tareas que probablemente no estén contenidas directamente en el conjunto de entrenamiento.Compararon el modelo GPT-3 con configuraciones de “one-shot” y “few-shot” con resultados de F1 en conjuntos de datos: CoQA DROP QuACSQuADv2 RACE-h RACE-m, LAMBADA y otros con datos limpios y sucios.Probaron el modelo en varias medidas GPT-3 Small (con 125M de parámetros), GPT-3 Medium (con 350M de parámetros), GPT-3 Large (con 760M de parámetros), así hasta llegar al “GPT-3” (con 175.0B de parámetros).Parte 2 La Siguiente Gran Revolución: NLPEl aprendizaje profundo o “Deep learning” es un conjunto de algoritmos de aprendizaje automático que intenta modelar abstracciones de alto nivel en datos usando arquitecturas computacionales que admiten transformaciones no lineales múltiples e iterativas de datos expresados en forma matricial o tensorial. A lo largo de 10 años se ha visto un crecimiento sustancial en el campo de la Inteligencia Artificial, aunque desde muy temprano se acuñaban los términos de red neuronal artificial. Todo esto ha desarrollado un revolución tecnológica que el día de hoy nos ha cambiado la vida. En el Deep learning viéndolo desde una perspectiva general y en función de las tareas que queramos resolver y los tipos de datos que analicemos nos moveremos en diferentes campos como la robótica, visión artificial “computer visión” o el procesamiento del lenguaje natural “Natural Language Processing”. En setiembre de 2012, AlexNet compitió en el Desafío de reconocimiento visual a gran escala ImageNet. La red logró un error de top 5 del 15.3%, más de 10.8 puntos porcentuales menos que el del segundo lugar. Lo que hizo que se valorará el uso de redes neuronales para las tareas basadas en imágenes. En 2014, los modelos generativos obtuvieron un gran impacto para la evolución generativa artificial.GPT-3 tiene 175 mil millones de parámetros. Un parámetro es un cálculo en una red neuronal que aplica una ponderación mayor o menor a algún aspecto de los datos, para darle mayor o menor importancia a ese aspecto en el cálculo general de los datos. Son estos pesos los que dan forma a los datos y le dan a la red neuronal una perspectiva aprendida sobre los datos, es decir este modelo se usa para predecir la siguiente palabra a partir de palabras anteriores. Lo sorprendente de GPT-3 es que es capaz de generar texto muy realista sobre poesía, diálogo, juegos de palabras, parodias literarias y narración de cuentos.Es impresionante cómo se publican cada vez más artículos y experimentos sobre IA, como el ChatBot Blender de Facebook, un chatbot que aprende a combinar varias habilidades de conversación, incluidas: la capacidad de asumir una personalidad, discutir casi cualquier tema y mostrar empatía. Como diría el locutor: ¡Es brutal!.Es impresionante lo que se puede lograr con el procesamiento del lenguaje natural, desde consolas con programación inteligente hasta traductores de código. En Junio de 2020, Facebook AI Research anunció el lanzamiento de TransCoder, un sistema que utiliza el aprendizaje profundo sin supervisión para convertir el código de un lenguaje de programación a otro. TransCoder recibió un entrenamiento en más de 2.8 millones de proyectos de código abierto y supera los sistemas de traducción de código existentes que utilizan métodos basados en reglas. Lo que es un poco preocupante son las noticias como las de Microsoft que despidió a sus colaboradores para reemplazarlos por máquinas entrenadas. Lo que parece curioso también es cómo hacen los seres humanos para aprender y saber que con tener un panorama visual poco detallado y algunos inputs puedan concluir con resultados coherentes. Por esto es importante profundizar en estos temas, e aprender más sobre la teoría. Parte 4Para las siguientes secciones es importante saber la máquina sobre la que se corrieron los problemas: