Beste Berriak

HiTZ zentroa, Bangkok-en saritua

Association for Computational Linguistics hizkuntzaren teknologiari buruzko elkarte zientifiko nagusia da. Bere kongresua gai horretan ari diren ikertzaileen publikazio zientifikoen gune nagusia eta prestigiosoena da. Aurtengo edizioan Euskal Herriko Unibertsitateko (UPV/EHU) HiTZ Hizkuntza Teknologiako Zentroak eraiki duen Latxa hizkuntza-ereduari buruzko artikulua saritu du. Kongresu berean egindako aurkezpen batean euskarak ikerkuntzan duen pisua aipatu zen, 1.200 artikulu baino gehiagotan aipatzen baitira euskararen inguruko esperimentuak.

Association for Computational Linguistics delakoak Bangkok-en antolatu zuen kongresuak 4.400 artikulutik gora jaso zituen, eta 5.000 errebisoretik gorako batzordeak 940 besterik ez zituen onartu. Publikazio-gune prestigiosoena izanda kalitate hobereneko artikuluak besterik ez ohi dira publikatu. Autoreen artean unibertsitate, ikerketa-zentro eta enpresa nagusietako ikerlariak izaten dira, hala nola Microsoft, Meta eta Apple, besteak beste. Onartutako ikerkuntza-lanetatik 14 artikulu aukeratu dituzte sarietarako, tartean Latxa hizkuntza-ereduari buruzkoa. Sari-banaketa kongresura hurbildu ziren 4.000 ikerlarien aurrean egin zen.

Hizkuntza eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta. UPV/EHUko HiTZ zentroak garatutako Latxa euskararentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienarekin eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da. Latxak duela bi urte abiarazitako jatorrizko ChatGPT bertsioa (orain GPT 3.5 gisa ezaguna) gainditzen du, eta baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, GPT-4 gainditzen du hizkuntza gaitasunean. Latxa deskribatzen duen artikulu zientifikoan corpusak nola bildu diren, eredua nola entrenatu den eta ebaluaziorako datu-multzoen eraikuntza deskribatzen dira.

Julen Etxaniz egile nagusietako bat da, Naiara Pérezekin eta Oscar Sainzekin batera, eta Bangkok-en izan zen lana aurkezten eta saria jasotzen. Julen Etxanizek ondokoa aipatu zuen: “Saria ematean azpimarratu izan da Latxa ereduetatik haratago doala, baliabide urriko beste hizkuntzatara hedatu daitekeen metodologia eta ingurune esperimentala planteatzen baititu, zientzia irekiaren ildoa jarraituz”. Oscar Sainzek zera azpimarratu zuen: “Sarituen artean unibertsitate eta ikerkuntza-zentro entsutetzuenak zeuden, eta bertan gure unibertsitatea aipatu izanak zirrara berezia ematen du”.