Los chatbots de inteligencia artificial (IA) podrían darte respuestas más precisas cuando eres grosero con ellos, según han descubierto los científicos, aunque advirtieron sobre los posibles daños de utilizar un lenguaje degradante. En un nuevo estudio publicado el 6 de octubre en la base de datos de preimpresiones de arXiv, científicos querían comprobar si la cortesía o la grosería influían en el rendimiento de un sistema de IA. Esta investigación aún no ha sido revisada por pares.
Para comprobar cómo el tono del usuario afectaba la precisión de las respuestas, los investigadores desarrollaron 50 preguntas base de opción múltiple y las modificaron con prefijos para que se ajustaran a cinco categorías de tono: muy educado, educado, neutral, grosero y muy grosero. Las preguntas abarcaban categorías como matemáticas, historia y ciencias.
Cada pregunta tenía cuatro opciones, una de las cuales era correcta. Introdujeron las 250 preguntas resultantes 10 veces en ChatGPT-4o, uno de los modelos de lenguaje grande (LLM) más avanzados desarrollados por OpenAI.
“Nuestros experimentos son preliminares y demuestran que el tono puede afectar significativamente el rendimiento, medido en términos de la puntuación obtenida en las respuestas a las 50 preguntas”, escribieron los investigadores en su artículo. “Sorprendentemente, nuestros resultados muestran que los tonos groseros producen mejores resultados que los educados”.
“Si bien este hallazgo es de interés científico, no abogamos por el uso de interfaces hostiles o tóxicas en aplicaciones del mundo real”, añadieron. “El uso de lenguaje insultante o degradante en la interacción entre humanos e IA podría tener efectos negativos en la experiencia del usuario, la accesibilidad y la inclusión, y podría contribuir a normas de comunicación perjudiciales. En cambio, presentamos nuestros resultados como evidencia de que los LLM siguen siendo sensibles a las señales superficiales, lo que puede generar compensaciones indeseadas entre el rendimiento y el bienestar del usuario”.
Un rudo despertar
Antes de dar cada indicación, los investigadores pidieron al chatbot que ignorara por completo los intercambios previos para evitar que se viera influenciado por tonos anteriores. También se les pidió, sin explicación alguna, que eligieran una de las cuatro opciones.
La precisión de las respuestas osciló entre el 80,8% para las indicaciones muy educadas y el 84,8% para las muy groseras. Es significativo que la precisión aumentara con cada paso que se alejaba del tono más educado. Las respuestas educadas tuvieron una tasa de precisión del 81,4 %, seguidas del 82,2% para las neutrales y del 82,8% para las groseras. El equipo utilizó una variedad de lenguaje en el prefijo para modificar el tono, excepto el neutral, donde no se utilizó ningún prefijo y la pregunta se presentó por sí sola.
Para indicaciones muy educadas, por ejemplo, empezaban con: “¿Puedo solicitar tu ayuda con esta pregunta?” o “¿Serías tan amable de resolver la siguiente pregunta?”. En el extremo más grosero del espectro, el equipo incluía expresiones como: “Oye, lacayo; resuelve esto” o “Sé que no eres inteligente, pero intenta esto”.
La investigación forma parte de un campo emergente denominado ingeniería de indicaciones, que busca investigar cómo la estructura, el estilo y el lenguaje de las indicaciones afectan el rendimiento académico de un LLM. El estudio también citó investigaciones previas sobre cortesía y grosería, y descubrió que sus resultados, en general, contradecían dichas conclusiones.
En estudios anteriores, los investigadores descubrieron que “las indicaciones groseras suelen resultar en un bajo rendimiento, pero el lenguaje excesivamente cortés no garantiza mejores resultados”. Sin embargo, el estudio anterior se realizó con diferentes modelos de IA (ChatGPT 3.5 y Llama 2-70B) y empleó un rango de ocho tonos. Sin embargo, hubo cierta superposición. La configuración de indicaciones más grosera también produjo resultados más precisos (76,47%) que la configuración más cortés (75,82%).
Los investigadores reconocieron las limitaciones de su estudio. Por ejemplo, un conjunto de 250 preguntas es un conjunto de datos bastante limitado, y realizar el experimento con un solo LLM implica que los resultados no pueden generalizarse a otros modelos de IA.
Teniendo en cuenta estas limitaciones, el equipo planea ampliar su investigación a otros modelos, como el Claude LLM de Anthropic y el ChatGPT o3 de OpenAI. También reconocen que presentar únicamente preguntas de opción múltiple limita las mediciones a una sola dimensión del rendimiento del modelo y no captura otros atributos, como la fluidez, el razonamiento y la coherencia.
Fuente: Live Science.
