ЖИ саласындағы тілге қатысты кедергілер: Ешкімді артта қалдырмаудың жолы қандай

2023 ж. 6 October
Фото: Жасанды интеллектпен салынған/Midjourney

Күн сайын жасанды интеллект (ЖИ) саласында жаңа әзірлемелер пайда болып жатыр. ЖИ еңбекті оңтайландыру, білім беру жүйесі мен ауруларды диагностикалауды жетілдіру, қала инфрақұрылымын жақсарту, экономикалық болжамдар жасау үшін орасан зор мүмкіндік береді. Мұндай мүмкіндіктер тізімі шексіз. Бірақ оларды пайдалана алатындардың тізімі айтарлықтай шектеулі.

Айтпақшы, адам жазған (қазір кез келген мәтінге қажет дисклеймер) осы мақала, үш тілде – ағылшын, орыс және қазақ тілдерінде жарияланады. Соңғысы «аз ресурстық» тілге жатқызылады. Бұл оның ЖИ және машина көмегімен оқыту саласында жеткілікті таныстырылмағанын немесе зерттелмегенін білдіреді. Себебі қазақ тілінің интернет желідегі лингвистикалық ресурстарының саны шектеулі.

Сондықтан ағылшын, орыс немесе әлемдік желіде танымал өзге тілдерде сөйлейтін адамдар үшін қолжетімді ЖИ құралдарының басым көпшілігі қазақ тілінде ғана сөйлейтін адамдар үшін қолжетімді болмай тұр.

Statista мәліметтері сенсек, 2023 жылдың қаңтар айындағы жағдай бойынша веб-контент үшін ең жиі қолданылатын тілдер рейтингі (веб-сайттардың үлесі бойынша) мынадай: 1. Ағылшын (58,8%); 2. Орыс (5,3%) 3. Испан (4,3%); 4. Француз (3,7%); 5. Неміс (3,7%); 6. Жапон (3%); 7. Түрік 2,8%; 8. Парсы (2,3%); 9. Қытай (1,7%); 10. Итальян (1,6%). Қазақ тілі тіпті алғашқы жиырмалыққа да кірмейді.

Қазақстандағы соңғы халық санағының (2021) қорытындысы бойынша елдегі 13.768.000 астам тұрғын (80%-дан астамы) мемлекеттік тілді меңгергенін мәлімдеген. Қазақстан шекарасынан тыс қазақ тілінде сөйлейтіндердің саны туралы нақты дерек жоқ.

Мен аудармашы ретінде білім алдым, ал мамандығым бойынша коммуникация маманымын. Тіл – менің жұмыс құралым, ал ЖИ – мен қызығатын, ғылыми тұрғыдан ізденетін сала. Мен зерттеген және пайдаланған барлық ЖИ құралы: тіл модельдері, сурет генераторлары, виртуалды көмекшілер, сөз бен мәтінді автоматты тану жүйелері, машина көмегімен аудару механизмдері, деректерді зерттеуге арналған сараптамалық құралдар, контент жасауға арналған құралдар ішінде тек кейбірі қазақ тілінде жұмыс істеді. Сөйте тұра сапасы ешқашан көңіл көншіткен емес.

ЖИ дәуіріндегі қазақ тілі: репрезентация үшін күрес

Заманауи ЖИ құралдары "оқыту деректерінің" үлкен санына, яғни жасанды интеллект инженерлері модельдерді құру үшін пайдаланатын контенттің сандық базаларына негізделген ықтимал жауапты болжау тәртібіне сай жұмыс істейді. «Аз ресурстық» тілдердегідей деректер тапшы болса, ЖИ құралдары мүлдем жұмыс істемейді немесе нашар жұмыс істейді.

«Қазақстандықтардың көпшілігі қазақ тілін біледі және оны күнделікті өмірде қолданады. Алайда, өкінішке қарай, қазақ тілінің цифрлық кеңістіктегі жағдайы оның шынайы әлемдегі мәртебесіне сай келмейді. Бұл белгілі бір кедергілер тудырып, оны цифрлық салада қолдану мүмкіндіктерін шектейді», –
деп қазақстандық бағдарламашы және генеративті ЖИ маманы Данияр Мұқанов ой бөлісті.

Данияр 7 жылдан бері қазақ тілінде IT туралы блог жүргізеді. Бастапқы мақсаты технология туралы диалог алаңымен қамтамасыз ету болды. Енді бұл миссияға тағы бір міндет қосылды: ЖИ оқытуға қажетті сан түрлі тақырыптарды қолдауға арналған қазақ тілінде контент құру. Данияр қолынан келетіндердің барлығын әртүрлі салаларда қазақ тілінде жоғары сапалы цифрлық контент жасауға және сол арқылы ЖИ оқытуға үлес қосуға шақырады.

Жаһандық тіл теңгерімсіздігі: ЖИ саласына қолжетімділіктен айырылған кімдер?

Дүниежүзіндегі миллиардтаған адам Данияр сияқты тілге байланысты ЖИ мүмкіндіктерін толыққанды пайдалана алмай жүр.

Әлемдегі ең ірі Ethnologue тіл анықтамалығына сәйкес жер бетінде 7.168 тіл бар. Олардың тек 20 шақтысында табиғи тілді өңдеу (NLP) жүйелерін құру үшін желіде қажетті оқытатын деректер бар.

Оның үстіне виртуалды әлемде тілдің өз орны болуы шынайы өмірде сол тілде сөйлеушілердің санына байланысты бола бермейді. Жаһандану және әлеуметтік-экономикалық өзгерістер цифрлық кеңістікте белгілі бір тілдердің үстемдігіне себепші болып, көбінесе басқа, тіпті сөйлеушілері әлдеқайда көп тілдерге нұқсан келтіреді.

Мысалы, 500 миллионнан астам адам сөйлейтін хинди тілі де «аз ресурстық» тіл. Ал Батыс Еуропа тілдері, мысалы, 20 есе аз сөйлейтін голланд тілі техникалық жағынан ресурсы жоғарырақ тіл болып есептеледі. Әлемдегі мұндай «жоғары ресурстық» тілдер жалпы тілдер санының 1%-ына да жетпейді. Басқа тілді сөйлемейтін қалған 99% тіл иесі іс жүзінде жаһандық технологиялық прогресстен қол үзіп отырған жайы бар.

Озық технологияларға қол жеткізе алмау қоғамның әлеуметтік-экономикалық даму деңгейіне тікелей әсер етіп, ақпаратқа, білімге және даму мүмкіндіктеріне қол жеткізуге кедергі келтіреді. Бұл дамыған және дамушы елдер арасындағы цифрлық алшақтықты одан әрі кеңейтіп, жаһандық деңгейде әлеуметтік теңсіздікті ушықтыруы мүмкін.

Фото: Жасанды интеллектпен салынған/Midjourney

ЖИ саласындағы тілге қатысты кедергілерді жеңудің ұжымдық тәсілі

Бұл мақала дайын нұсқаулық емес, жай ғана іс-әрекетке үндеу. Көз алдымызда кеңейіп бара жатқан тіл кесірінен туындаған технологиялық алшақтық – зерттеушілердің, үкіметтердің, білім беру мекемелерінің және жекеменшік компаниялардың ұжымдық, өзара келісілген іс-қимылдарын талап ететін сын-қатер.

Мәселені шешудің әдісі баршаға ортақ болуы керек. Бұл жерде оқшауланған бытыраңқы шаралар жеткіліксіз. Үлкен модельдер үшін деректерді қолмен өңдеу еңбекті көп қажет етіп қана қомай, сонымен қатар ұзақ уақытты да талап етеді. Ал біздің оған уақытымыз жетпеуі мүмкін. ЖИ адам сенгісіз жылдамдықпен дамып келеді. Соңғы 7 жылда ЖИ 2016 жылы го ойынында адамды жеңуден 2023 жылы сурет пен сөзді адамдарға қарағанда жақсырақ тани білуге, сонымен қатар ең қиын деген емтихандарды тапсыруға дейінгі жолды жүріп өтті.

ЖИ саласындағы тілге қатысты алшақтықты жоюдың ортақ тәсілі технологиялар мен білім беру бағдарламаларын бірлесіп әзірлеуді, пилоттық жобаларды жүзеге асыруды және оларды сынақтан өткізуді, сондай-ақ жарияланымдар мен ағарту жұмыстары арқылы баршаның назарын нәтижелерге аудартуды қарастыруы керек.

Үкіметтер үшін осы саладағы зерттеушілер мен әзірлеушілерді ынталандыру,оның ашықтығын және тиісті түрде қаржыландырылуын қамтамасыз ету маңызды.

«Аз ресурстық» тілдерге арналған ЖИ технологияларын дамыту үшін жағдай жасау жекелеген ұлттар мен елдерге ғана емес, бүкіл әлемге пайда әкеледі. Себебі, ғаламдық тілдердің алуан түрлілігін сақтау шын өмірде қаншалықты маңызды болса, желіде де соншалықты маңызды. Ол бізге мәдениеттердің алуан түрлілігін, демек, біздің таңғажайып әлемді түсіну әдіс-тәсілдерін сақтап қалуға мүмкіндік береді.

Мақала бастапқыда innovation.eurasia.undp.org сайтында жарияланған.