Un reciente estudio encontró que ChatGPT carece del 20% del vocabulario español y comete errores en el 80% restante.
OpenAI, la empresa detrás de esta herramienta de inteligencia artificial, reporta que semanalmente 100 millones de personas emplean este chatbot para diversas labores relacionadas con el lenguaje.
Aunque ChatGPT está diseñado para conversar y producir texto, se ha observado que en ocasiones ofrece respuestas que, aunque parecen lógicas, son completamente incorrectas.
Un grupo de investigadores españoles desarrolló una aplicación llamada ChatWord para evaluar el conocimiento léxico de ChatGPT en varios idiomas.
Utilizando como referencia el diccionario de la Real Academia de la Lengua y El Quijote de Miguel de Cervantes, han descubierto que de las más de 90,000 palabras en el diccionario, el modelo ChatGPT3.5 turbo desconoce aproximadamente el 20%, lo que equivale a unas 18,000 palabras.
Además, dentro del 80% restante del diccionario y el 90% de las palabras de El Quijote, ChatGPT cometió errores en cerca del 5% de los términos. Este estudio resalta la necesidad de entender el desempeño real de ChatGPT y su nivel de conocimiento.
Los expertos señalan que, en promedio, un hablante de español reconoce alrededor de 30,000 palabras, casi un tercio del léxico. Esto pone en perspectiva la cantidad de palabras que ChatGPT no maneja, aunque advierten que la calidad de su comprensión sobre esas palabras también es cuestionable.
A pesar de ser modelos de lenguaje de gran tamaño diseñados para comprender el lenguaje natural, como ChatGPT, estos sistemas no emplean palabras que no conocen.
Sin embargo, para los investigadores, esto plantea la posibilidad de que el contenido generado se vea limitado por la falta de variedad léxica, lo que resulta preocupante.
ChatWords, la aplicación desarrollada, es un recurso de acceso público diseñado para su fácil utilización y expansión.
Los investigadores planean evaluar otros idiomas y modelos de lenguaje para comprender mejor el conocimiento léxico de las IA y cómo este evoluciona con las nuevas versiones y herramientas disponibles.