Lorya: Uključivanje nedovoljno zastupljenih jezika u AI revoluciju

Graphic illustration of people using devices and screens on an orange background.

Lorya: Uključivanje nedovoljno zastupljenih jezika u AI revoluciju

Današnja tehnologija veštačke inteligencije najefikasnije funkcioniše na engleskom i još nekolicini svetski rasprostranjenih jezika, dok za većinu drugih jezika nema dovoljno čistog, digitalno čitljivog teksta za obuku AI sistema. Zbog toga ogromne količine kulturnog i istorijskog materijala ostaju nedostupne – ‘zarobljene’ u slikama i skeniranim dokumentima. Klasični alati za optičko prepoznavanje znakova (OCR) često ne daju zadovoljavajuće rezultate pri obradi složenih pisama, starih tipografskih stilova ili kombinovanih pravopisa, što mnogim zajednicama u velikoj meri onemogućava da digitalizuju svoje nasleđe.

Prepoznajući potrebu za rešenjem koje bi moglo da se koristi širom sveta, UNDP je započeo razvoj platforme koja predstavlja dalji razvoj rešenja prvobitno osmišljenog za srpski jezik. Ovu inicijativu sa 95 000 dolara podržava Ministarstvo za Evropu i spoljne poslove Vlade Francuske.

Šta je Lorya?

To je digitalni alat koji pretvara pisano kulturno nasleđe iz štampanog oblika u čist, digitalno čitljiv tekst, koji se može koristiti za obuku AI jezičkih modela na lokalnim jezicima.
Pomaže govornicima srpskog i drugih nedovoljno zastupljenih jezika [1] da iskoriste postojeće kulturne i istorijske resurse i aktivno učestvuju u globalnoj AI revoluciji.
Omogućava da informacije iz izvora od kulturnog i istorijskog značaja, poput starih knjiga, časopisa, novina i rukopisa, budu dostupnije istraživačima, istoričarima, studentima i široj javnosti, za potrebe učenja, istraživanja i razvoja novih proizvoda i usluga.

Naša zamisao

Težimo tome da što više jezika postane deo AI revolucije, kroz razvoj digitalne platforme koju lokalni timovi širom sveta mogu lako i bez velikih troškova da prilagode, kako bi i njihovo pisano kulturno nasleđe bilo uključeno i dostupno svima.

[1] Nedovoljno zastupljeni jezici u ovom kontekstu su jezici koji imaju slab digitalni trag - to jest, nedostaje im dovoljno onlajn sadržaja, anotiranih skupova podataka i jezičkih resursa, što otežava obuku i kvalitetno funkcionisanje AI sistema na tim jezicima.