Otras noticias

El centro HiTZ, premiado en Bangkok

La Association for Computational Linguistics es la asociación científica líder en tecnología del lenguaje. Su congreso es el principal y más prestigioso sitio de publicaciones científicas de investigadores que trabajan en el tema. En la edición de este año fue premiado el artículo sobre el modelo de lengua latxa construido por el Centro Tecnológico del Lenguaje HiTZ de la Universidad del País Vasco (UPV/EHU). En una presentación realizada en el mismo congreso se mencionó la importancia del euskera en la investigación, ya que más de 1.200 artículos mencionan experimentos relacionados con el euskera.

La conferencia organizada por la Association for Computational Linguistics en Bangkok recibió más de 4.400 artículos, y el comité de más de 5.000 revisores aceptó sólo 940. Al ser el sitio de publicaciones más prestigioso, sólo se suelen publicar los artículos de mejor calidad. Entre los autores se encuentran investigadores de destacadas universidades, centros de investigación y empresas como Microsoft, Meta y Apple, entre otras. De los trabajos de investigación aceptados, se han elegido 14 artículos para los premios, entre ellos el que trata sobre el modelo de lengua latxa. La entrega del premio tuvo lugar ante 4.000 investigadores que acudieron al congreso.

Un modelo de lenguaje grande, o LLM en inglés, es un modelo de inteligencia artificial que utiliza técnicas de aprendizaje automático para comprender y generar el lenguaje humano a partir del conocimiento generado a partir de conjuntos de datos masivos. Desarrollado por el centro HiTZ de la UPV/EHU, Latxa es una familia de modelos lingüísticos para el euskera y se distribuye con el mayor corpus de textos de licencia libre y con varios bancos de pruebas sobre capacidad lingüística, lectura, cultura general y exámenes profesionales. Latxa supera a la versión ChatGPT original lanzada hace dos años (ahora conocida como GPT 3.5), y por primera vez para un modelo abierto de un lenguaje con escasos recursos digitales, supera a GPT-4 en capacidad lingüística. El artículo científico que describe a Latxa describe cómo se recopilaron los corpus, cómo se entrenó el modelo y la construcción de conjuntos de datos para su evaluación.

Julen Etxaniz es uno de los autores principales, junto a Naiara Pérez y Oscar Sainz, y estuvo en Bangkok para presentar la obra y recibir el premio. Julen Etxaniz mencionó lo siguiente: “En la entrega del premio se destacó que Latxa va más allá de los modelos, ya que propone una metodología y un entorno experimental extensible a otros lenguajes con escasos recursos, siguiendo la línea de la ciencia abierta. ". Óscar Sainz destacó que: "Entre los premiados se encontraban las universidades y centros de investigación más reconocidos, y el hecho de que nuestra universidad sea mencionada allí produce una emoción especial".