Probando tu inteligencia
Updated by Nádia Dias
Probando tu inteligencia
Después de añadir varias frases para cada intención en tu inteligencia creada, es posible que desees saber si tu inteligencia está funcionando correctamente, ¿cierto?
Para comprobar si tu base de entrenamiento se comporta como esperas, puedes utilizar la sección Testar. Esta funcionalidad evalúa tu gama de información al ejecutar la base de pruebas de entrenamiento y compararla.
Los usuarios pueden agregar frases de prueba, simulando entradas del usuario final, para evaluar la calidad de los datos de entrenamiento o del algoritmo seleccionado. Como las frases de prueba son diferentes de las frases de entrenamiento utilizadas para alimentar la inteligencia, podemos analizar, a través de gráficos y métricas, cómo podemos mejorar el entrenamiento de la inteligencia.
En este artículo, aprenderás cómo realizar una prueba en Weni y cómo analizar sus resultados.
Creando una prueba.
Para crear una prueba, accede a Pruebas -> Manuales en la inteligencia que deseas evaluar y agrega frases de prueba para cada intención.
Una vez que hayas añadido las frases a la prueba, selecciona el idioma que desees y haz clic en el botón Ejecutar prueba:
A continuación, serás redirigido a la pantalla de resultados, donde estarán todos los datos relevantes de la prueba.
Resultados
En Pruebas -> Resultados se encuentran todos los resultados de las pruebas ya realizadas en esa inteligencia.
Al seleccionar uno de los resultados listados, se mostrarán algunos gráficos y métricas relacionados con la prueba seleccionada:
- Prueba manual
- Informe de exactitud y revocación
- Matriz de confusión de intenciones
- Distribución de la confianza de las intenciones
Prueba manual
Es una lista de todas las frases probadas por el algoritmo y si fueron o no predichas correctamente. Haz clic en una de ellas para ver los detalles sobre la prueba, como la confianza e intención predichas para cada frase.
Informe de exactitud y revocación
Una puntuación de Precisión de 1.0 para una intención X significa que, entre las frases clasificadas como X, todas realmente pertenecen a la intención X (pero no dice nada sobre el resto de frases de la intención X que no fueron clasificadas correctamente).
Una Revocación de 1.0 significa que, entre las frases de la intención X, todas fueron clasificadas correctamente como X (pero no dice nada sobre cuántas frases de otras intenciones fueron incorrectamente clasificadas como X).
- Precisión responde a la siguiente pregunta: "En el conjunto de todas las frases clasificadas como intención X (correctas e incorrectas), ¿cuál fue la proporción correcta?"
- Una intención que no presenta falsos positivos tiene una Precisión de 1.0.
- Revocación responde a la siguiente pregunta: "En el conjunto de todas las frases que pertenecen a una intención X, ¿cuál fue la proporción clasificada correctamente?"
- Una intención que no presenta falsos negativos tiene una Cobertura de 1.0.
- Falso positivo y falso negativo, en el contexto de clasificación de intenciones, como se explicó anteriormente, son:
Matriz de confusión de intenciones
La matriz de confusión muestra qué intenciones fueron confundidas con otras. En el eje vertical, se enumeran las intenciones que la inteligencia debería haber predicho, y en el eje horizontal se encuentran las intenciones que la inteligencia predijo, de hecho. En la matriz de confusión, la distribución ideal de los datos debe ser diagonal, ya que de esta forma todas las frases habrían sido predichas correctamente.
La matriz anterior muestra que una de las frases de prueba falló. La frase tiene la intención outside, y fue predicha por el algoritmo como la intención inside.
Distribución de la confianza de las intenciones
El histograma permite visualizar la distribución de la confianza para todas las predicciones realizadas, mostrando la cantidad de predicciones correctas e incorrectas en barras verdes y rojas, respectivamente.
Mejorar la calidad del entrenamiento hará que las barras verdes del gráfico se desplacen hacia la derecha y las barras rojas hacia la izquierda, ya que lo ideal es que las frases clasificadas incorrectamente tengan una baja confianza de clasificación.
En el gráfico anterior, podemos notar que la mayoría de las frases de prueba que se predijeron correctamente tuvieron un 95% de confianza, pero algunas fueron clasificadas con un 100% de confianza y estaban equivocadas, lo cual no es una buena señal.
Buenas prácticas
Para tener una mejor idea de si tu bot es realmente inteligente, intenta agregar frases de prueba reales que el modelo nunca haya visto antes (frases diferentes a las entrenadas). Esto te permitirá probar si tu inteligencia realmente puede abstraer y comprender el sentido de las intenciones para clasificar correctamente una frase de prueba que nunca ha visto antes.