Investigadores UdeC comparan modelos de mundo a través de modelos de lenguaje basados en inteligencia artificial

Se trata de la Dra. Gabriela Kotz, de la Facultad de Humanidades y Arte, y los Dres. Pedro Salcedo Lagos y Karina Fuentes Riffo de la Facultad de Educación, quienes analizan el impacto de la inteligencia artificial en la lingüística a través de los Grandes Modelos de Lenguaje (LLM).
Recientemente fue publicado en la revista de Lengua y Sociedad del Instituto de Lingüística Aplicada CILA de la Universidad Nacional Mayor de San Marcos el artículo “Análisis léxico de textos generados por modelos de lenguaje: reflejo de sus modelos de mundo”, escrito por los docentes de la Universidad de Concepción, la Dra. Gabriela Kotz del Departamento de Idiomas Extranjeros de la Facultad de Humanidades y Arte, y los Dres. Pedro Salcedo Lagos y Karina Fuentes Riffo del Departamento de Metodología de la Investigación e Informática Educativa de la Facultad de Educación.
El artículo que tiene como antecedente un proyecto de investigación sobre detección temprana de ciberbullying a través de la lingüística sobre ejes emocionales, sentó las bases tecnológicas para desarrollar una nueva investigación en el contexto de inteligencia artificial generativa y su impacto en la lingüística, específicamente a través de los Grandes Modelos de Lenguaje (LLM, por sus siglas en inglés).
Los modelos de Inteligencia Artificial representan la realidad a través de Grandes Modelos de Mundo (LWM) y así logran generar y comprender textos. “A medida que avanza la IA, los modelos de mundo se expanden, pues no solo se obtienen datos de textos escritos, sino también de audios, videos, fotografías. Es decir, desde un modelo de lenguaje se pasa a un modelo de mundo que abarca más bases de datos y aspectos de la realidad desde donde la IA recupera más información, por lo que genera textos más eficientes y cercanos a la imitación del texto hecho por un humano, lo que, a su vez, genera cambios en el modelo de mundo de este humano”, señala la Dra. Gabriela Kotz de la Facultad de Humanidades y Arte.
Mediante la selección de seis modelos de lenguaje de IA (ChatGPT-4o, Copilot, Gemma 2B, Llama 3 7B, Phi 3 3B, y Gemini 1.0 Pro), se realizó la misma pregunta (Prompt) para luego comparar los distintos modelos desde una perspectiva léxico-estadística mediante tres índices: disponibilidad, diversidad y densidad léxica. “La diversidad léxica nos permite identificar cuántas palabras distintas hay en un texto, en cambio la densidad nos permite identificar aquellas palabras que tienen contenido semántico versus otras palabras gramaticales que no tienen contenido semántico. Es ahí, en el texto con más densidad, donde hay una mayor carga informativa”, explica la Dra. Karina Fuentes Riffo de la Facultad de Educación.
De acuerdo con el artículo, el modelo de mundo se va formando en el ser humano por su interacción con el lenguaje. “En ese “lenguajear”, como dice Humberto Maturana, se va formando este modelo que nos permite interpretar la realidad. Pero este modelo de mundo no sólo está formado por el lenguaje, si no por interacciones con la realidad, las que se forman a través de las emociones y el inconsciente, y eso no lo puede detectar la IA”, comenta el Dr. Pedro Salcedo Lagos de la Facultad de Educación.
Fue así que los resultados en cada modelo de lenguaje mostraron amplias diferencias entre ellas, dando cuenta que entienden el mundo de forma distinta de acuerdo con la aplicación directa que le da el ser humano, cual hace uso de estas herramientas en la actualidad para comunicarse o resolver problemas.
Los avances y discusiones sobre el uso de la Inteligencia Artificial en la academia, específicamente en el área de la lingüística, se orientan al procesamiento de lenguaje natural desde el ser humano. De esta manera, en la Universidad de Concepción se está impulsando el desarrollo de nuevas investigaciones en torno a estas temáticas en el área de pregrado y postgrado. “La IA se debe explicar y conocer, entender cómo llega a resolver un problema. Por lo tanto, los futuros profesores y profesoras, traductores y traductoras necesitan entender el fenómeno de la producción automática de textos, y de esta forma, producir nuevas tecnologías”, comenta el Dr. Salcedo.
El artículo de investigación fue publicado en la Revista Lengua y Sociedad, que se encuentra indexada en la base de datos Scopus, SciELO, Catálogo Latindex 2.0, Dialnet, REDIB, DOAJ, ROAD, LatinREV y en los índices bibliográficos MIAR, Erih-Plus, LivRe, Sherpa Romeo, BASE y Crossref.