Молодая исследовательница рассказала, что её работа состояла из создания параллельного корпуса: набора идентичных текстов на русском и бурятском языке, которые и послужат базой для обучения искусственного интеллекта. За основу она взяла тексты новостей, которые, благодаря гранту Республики Бурятия, три специалиста переводили с осени прошлого года. Всего было переведено более 4 тысяч текстов, и это ещё не предел: идёт поиск новых переводчиков, сбор и обработка новых данных, дообучение нейросети.
«В интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно», ‒ пояснила Дари Батурова, в чем состояла основная проблема работы.
Что до актуальности и необходимости работы, то они не нуждаются в пояснениях: бурятский язык уже внесен в «Атлас языков мира, находящихся под угрозой исчезновения», созданный ЮНЕСКО. Если в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году таких было уже только 63%.
Молодая исследовательница из Новосибирска убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод ‒ это один из способов цифровизации. В дальнейшем девушка надеется преобразовать собранные данные в более доступный и удобный формат для пользователей ‒ сайт с русско-бурятским онлайн-переводчиком.
Фото с сайта Новосибирского госуниверситета