Orientación y buenas prácticas

Manu da Silva Updated by Manu da Silva

Para tener la Inteligencia construida de la mejor manera posible, es decir, con un conjunto de datos preciso en sus predicciones, debemos seguir algunas buenas prácticas al crear las frases de entrenamiento.

En este artículo, aprenderemos sobre algunos métodos y buenas prácticas de entrenamiento en Weni.

Principales orientaciones

Dentro de las buenas prácticas, hay algunas orientaciones principales que debemos seguir, que son:

  • Cantidad de frases
  • Equilibrio de cantidad de frases
  • Especificidad del vocabulario
  • Variación de las estructuras de frases

Cada uno de estos temas se explica a continuación.

Cantidad de frases

La mayoría de los modelos de algoritmos de NLP se basan en la cantidad de ejemplos de entrenamiento para aumentar la tasa de predicción por intención. Entonces, para tener una alta precisión, necesitamos equilibrar la relación entre la cantidad de frases y el número de intenciones en su conjunto de datos.

A continuación, algunas clasificaciones de la calidad del conjunto de datos según la cantidad de frases entrenadas por intención, para un ejemplo con 5 intenciones o menos.

  • Mínimo: 10 frases por intención;
  • Bueno: 25 frases por intención;
  • Excelente: 40 frases por intención.

Algunos factores pueden influir en estos números, como la cantidad total de intenciones de la inteligencia (que puede influir en el número de falsos positivos). Cuantas más intenciones, más frases por intención se necesitan.

El algoritmo elegido también afecta este número. El algoritmo que utiliza BERT, por ejemplo, al hacer uso de un modelo preentrenado, tiende a necesitar muchas menos frases para obtener un buen resultado.

Equilibrio

Usar un número equilibrado de frases en todas las intenciones de su Inteligencia disminuye las posibilidades de que haya un sesgo hacia una intención específica.

Por ejemplo, si la inteligencia tiene una intención X con 50 frases y una intención Y con 200 frases, la probabilidad de que el algoritmo clasifique las entradas como de la intención Y puede ser mayor porque tiene más ejemplos. (considerando que la entrada fue una nueva frase nunca vista por el entrenamiento).

Entonces, una buena práctica es tener todas las intenciones de su conjunto de datos con un número aproximado de frases, si es posible.

Especificidad del vocabulario

Para disminuir la cantidad de falsos positivos en el conjunto de datos y aumentar la precisión, recomendamos que las frases generadas en el entrenamiento respeten la regla de especificidad por tema.

Esta regla establece que todas las palabras específicas de una intención deben agregarse solo en las frases de esa intención, y las palabras que no deben interpretarse como ninguna intención deben distribuirse entre todas las intenciones para que el algoritmo no asocie esas palabras con ningún tema específico.

Por ejemplo, si tengo una inteligencia que identifica pedidos en una cafetería, con las intenciones "comidas" y "bebidas" necesito asociar palabras relacionadas con cada una de las intenciones, como "sándwich" para la primera y "jugo" para la segunda.

Así generaríamos las frases de entrenamiento con los términos "me gustaría comprar un sándwich" para la intención "comidas" y "quiero comprar un jugo" para la intención "bebidas".

Observa que las palabras específicas como "sándwich" y "jugo" están asociadas cada una a una intención, mientras que las palabras "me gustaría", "quiero", "comprar", "un" y "de" están distribuidas entre las dos intenciones de modo que si escribo solo "me gustaría comprar", la inteligencia no asociará ninguna de las dos intenciones, ya que tendría una confianza muy baja.

Variación de las estructuras de frases

La estructura de las frases también es un factor importante para la interpretación de una entrada del usuario. Por ejemplo, si la frase "me gustaría comer una pizza" está entrenada en la intención "comida", el algoritmo clasificaría la frase "me encantaría comer una pizza" como la misma intención dado que la estructura de la frase es similar (dada una cantidad adecuada de frases entrenadas en esa estructura).

Esto significa que cuanto más variadas sean las frases de ejemplo, tanto en estructuras como en palabras, mayor será la probabilidad de que la inteligencia prediga más palabras relacionadas con esa intención.

How did we do?

Glosario

Contact