Orai: “Euskara sostengatzen duten chatbote aurreratuak izateak lehen mailako eragin kultural eta soziala du”
Enpresa eta erakundeen eguneroko lanetan lagungarri izango den euskarazko txatbot bat garatu du Oraik: Kimu. Euskeraz funtzionatzeko sortu den eredu hau erronka handia izan da, baliabide gutxiko hizkuntza baita teknologiaren honen esparruan, hala ere gaitasun eleanitzak ere baditu. Xabier Saralegik, Oraiko NLP Teknologietako arduradunak adierazi duenenz, “bere ezaugarri nagusia ereduaren arintasuna da, zerbitzarietan eta ordenagailu propioetan instalatzea ahalbidetzen baitu, eta horrek datuen pribatutasuna, eraginkortasuna eta erabateko kontrola bermatzen du.
Zein izan zen erronka tekniko eta linguistiko nagusia euskarazko testua hizkuntza handietan bezain natural ulertu eta sortuko zuen hizkuntza-eredu bat sortzean?
Erronka nagusia post-training faserako euskarazko entrenamendu daturik ez izatea izan zen, non ereduei jarraibideak betetzen eta behar bezala erantzuten irakasten zaien. Ingelesez datu irekien bilduma handiak daude, baina euskaraz ia ez dago adibiderik idatzita, eta horrek zaildu egiten du prozesuak errepikatzea.
Muga hori gainditzeko, hasieran datuak ingelesez itzultzen saiatu ziren, baina emaitzak ez ziren nahikoak izan. Soluzioa Llama eta Gemma bezalako eredu libreak aprobetxatzea izan zen, dagoeneko milioika kalitatezko datuekin trebatuak. Fundazio-ereduaren parametroen arteko aldea erabili zen (jarraibideak jarraitzeko trebetasunak dituena), aurretik euskarazko 500 milioi hitzeko corpusarekin trebatutako fundazio-eredu batean txertatzeko. Horrela, ereduak euskararen egitura ikasi zuen eta hizkuntza horretan adibiderik ikusi gabe instrukzioak exekutatzeko gaitasuna mantendu zuen.
Laburbilduz, ingelesez eskuratutako gaitasunak “hackeatzen” ditugu eta euskarazko corpus masibo batekin konbinatzen ditugu, argibideak euskaraz ulertzeko eta erantzuteko gai den eredu bat lortuz, hizkuntza horretako jarraibideen datu espezifikorik behar izan gabe.
Oraik Kimu zerbitzari propioetan instalatzearen aldeko apustua egin du. Nola aldatzen du horrek IAren teknologiaren eta erakundeen barruko datuen pribatutasunaren arteko harremana?
Gaur egun, LLM (Large Language Models, datu-kopuru handiekin entrenatzen diren sistemak) gehienak sareko zerbitzuen bidez erabiltzen dira, eta horrek arrisku handiak dakartza datu sentikorren pribatutasunerako. Arrisku hori areagotu egiten da enpresek eredu horiek hirugarrenei zerbitzuak eskaintzeko erabiltzen dituztenean. Modelo txikienei esker (SLM), orain ordenagailu propioetan eta merkeagoetan exekutatu daitezke, eta, horri esker, enpresek hobeto kontrola ditzakete beren datuak. Horri esker, AAko sistema seguruagoak, ikuskatzeko errazagoak eta datuak babesteko arauak betetzen dituztenak sortuko dira.
Abantaila teknikoez gain, zer eragin kultural edo sozial du euskara hutsean funtzionatuko duen txatbot aurreratua izateak?
Esparru digitala da hizkuntzek aspaldidanik etorkizuna jokoan duten taula nagusietako bat. Edo hizkuntza nagusien baldintza berberetan gaude, edo hizkuntzak erabilgarritasuna galduko du. Esparru horretan, hizkuntza-ereduak edo txatbotak teknologia erabat eraldatzaileak dira, eta, pixkanaka-pixkanaka, ia ezinbestekoa izango da horiek erabiltzea. Gaitasun berri horiek eskuratzea ahalbidetzen ez duen hizkuntza bat gero eta segmentu murritzagoetara baztertuta geratuko da.
Horregatik, euskara jasango duten txatbot aurreratuak izateak lehen mailako eragin kultural eta soziala du. Eredu handietan oinarritutako chatbotak nahiz Kimu bezalako eredu txikietan oinarritutako txatbotak beharko dira, erabilera-eremu guztiak modu integralean betetzeko.
Nazioarteko eredu handiak nagusi diren testuinguru honetan, zure ustez, zer eginkizun bete dezakete Kimu bezalako eredu txikiago eta espezializatuagoek hizkuntza-adimen artifizialaren etorkizunean?
Kimu bere tamaina txikiagatik eta euskaraz ondo aritzeagatik nabarmentzen da, eta horrek aukera onena bihurtzen du “on premise” instalazioa (software bat instalatzea enpresaren beraren gailuetan, sarean gorde beharrean) eta euskararen tratamendua lehenesten diren inguruneetarako. Eredu txikiak aproposak dira konplexutasun txikiko edo ertaineko lan-zereginetarako (itzulpenak, laburpenak, informazioa ateratzea, testuak egokitzea), eta erraz egokitu daitezke premia espezifikoetara.
Hala ere, arrazoibide aurreratua edo testuinguru luzeak eskatzen dituzten zeregin konplexuetan, eredu txikiak ez dira oraindik benetako alternatiba, nahiz eta aurrerapauso handiak ematen ari diren. Enpresetan eredu txikien erabilera oraindik gutxiengoa bada ere, 2027rako eredu horiek LLM generalistena hirukoiztea aurreikusten da, eta Kimuk joera hori gidatu nahi du.
Nola irudikatzen duzue Kimuren bilakaera epe ertain eta luzera? Euskal Herriko eta nazioarteko ekosistema teknologikorako tresna irekia edo kolaboratiboa izan liteke?
Maila teknikoan, arrazoitzeko gaitasun hobeak dituen eredu bat irudikatzen dugu, lan egiten duen munduaren ezagutzaren hedapen nabarmenarekin. Hau da, adimentsuagoa eta jakintsuagoa izatea aldi berean, ereduaren tamainak ezartzen dituen mugen barruan. Ardatz orokor horiez gain, Kimuk hartuko duen bilakaera gure ingurunean hautematen ditugun bete gabeko behar zehatzen araberakoa izango da. Bilakaera horretan, Euskadiko eta nazioarteko ekosistema teknologikoko beste eragile batzuek egin ditzaketen ekarpenak ere baditugu. Oraingoz, Beta webgune bat sortu dugu, erabiltzaileek eredua probatzeko aukera izan dezaten. Sarrera gonbidapen bidez lor daiteke.
SPRI Taldeak enpresei laguntzen die 2024ko Adimen Artifizial Aplikatua eta Datuaren Estrategia laguntza-programaren bidez. Programa horrek Euskal Autonomia Erkidegoko konpainietan AAren erabileran oinarritutako proiektuak babesten ditu, frogapen-efektua dutenak eta Euskadin teknologia horren eskaintza eta eskaria aktibatzea ahalbidetzen dutenak, enpresei lehiakortasuna handitzeko tresnak emateko helburuarekin.
SPRI Taldeak aukera ematen die euskal enpresei haien jardueraren berri emateko bere informazio-kanaletan. Zure proiektua gure gaiekin lotuta badago (I+G+b, digitalizazioa, internazionalizazioa, ekintzailetza, berrikuntza…), Zutaz mintzo gara ekimenean parte har dezakezu.