Argilla open-source tool

PLN en español con Rubrix
elpolox

Procesamiento del Lenguaje Natural (PLN) en español con Rubrix

November 17, 2021

Daniel Vila Suero

Con modelos del lenguaje cada vez más potentes y accesibles, es más fácil que nunca construir tus propias soluciones de PLN. Plataformas y herramientas, como el Hub de Hugging Face o Weights & Biases, permiten entrenar y experimentar con los últimos modelos del estado del arte. Sin embargo, hay una cuestión fundamental que sigue abierta: ¿cómo construir, evaluar y mantener los datos para entrenar y mejorar estos modelos para tu propio dominio? La realidad es que para evolucionar una solución PLN más tarde o más temprano necesitas ajustar tus modelos al problema concreto que quieres resolver (y no dejar de hacerlo a lo largo del tiempo). Además, esta cuestión se hace todavía más relevante para PLN en idiomas distintos del Inglés, debido a la escasez de conjuntos de datos y modelos pre-entrenados.

En este artículo te contamos qué es Rubrix y cómo puede ayudarte para PLN en español, con un enfoque práctico y centrado en los datos. Este artículo está basado en la charla "PLN centrado en tus datos con Rubrix" organizada por NLP Spain.

Datos

Rubrix, una herramienta gratuita y código abierto

Una herramienta de código abierto y gratuita para explorar, etiquetar y monitorizar datos para PLN Rubrix está desarrollada en Python por Recognai, es el resultado de casi 5 años desarrollando soluciones de PLN para empresas, contribuyendo a librerías de código abierto como spaCy o AllenNLP y publicando modelos pre-entrenados en Hugging Face como el reciente Selectra.

El objetivo de la herramienta es crear, gestionar y cuidar tus datos de entrenamiento de una manera eficaz, involucrando distintos perfiles en el desarrollo de modelos PLN: científicos de datos, lingüistas, expertos de dominio e ingenieros.

Clasification

Rubrix lo hace diferente en 4 puntos

Abierto

Rubrix es gratuíto, de código abierto y 100% compatible con las principales librerías de PLN (Hugging Face transformers, spaCy, Stanford Stanza, Flair, etc.). De hecho, se puede utilizar y combinar sus librerías preferidas sin implementar ninguna interfaz específica.

Cubre el proceso de principio a fin

La mayoría de las herramientas de anotación tratan la recogida y etiquetado de datos como una actividad al inicio y en momentos puntuales de los proyectos. En los proyectos del mundo real, la recopilación de datos es una actividad clave del proceso iterativo de desarrollo de modelos de machine learning. Una vez que un modelo entra en producción, se desea supervisar y analizar sus predicciones, y recoger más datos para mejorar el modelo con el tiempo. Rubrix está diseñado para cerrar esta brecha, permitiéndole iterar tanto como necesite.

Diferenciacion

Una experiencia pensada para distintos usuarios

La clave de las soluciones PLN sostenibles es facilitar la contribución de todos a los proyectos. Los expertos de dominio deben sentirse cómodos interpretando y anotando datos. Los científicos de datos deben sentirse libres para experimentar e iterar con datos y modelos. Los ingenieros de datos y machine learning deben controlar el ciclo de vida de modelos y datos. Rubrix optimiza la experiencia para estos usuarios principales haciendo los equipos de desarrollo más eficientes.

Más allá del etiquetado manual

Los flujos de trabajo clásicos de etiquetado manual son costosos e ineficientes, pero contar continuamente con la validación humana es esencial. Combine fácilmente el etiquetado manual con el aprendizaje activo, el etiquetado masivo, los modelos zero-shot y de weak supervision en nuevos flujos de trabajo de anotación de datos.

Y si ahora te queda la duda ¿para qué lo necesitas? En el video de la charla encontrarás ejemplos prácticos, con modelos y datos en Español. Si además te interesa probar tu mismo, hemos publicado el código utilizado durante la charla en este repositorio de GitHub.