Добавить новость
Все города России от А до Я

Russian.Cityместные городские новости из регионов России 24/7 на русском +

Корпус мансийского языка часть 1. Модель нейронного машинного перевода

Habr.com
69

Паща о̄лэн, Хабр! (Привет, Хабр!)

На связи Югорский НИИ информационных технологий (ЮНИИИТ). Мы запускаем цикл статей о нашем большом проекте - «Корпус мансийского языка».

Мансийский язык - один из коренных языков народов Севера, находящийся под угрозой исчезновения. По данным последней переписи, народ манси насчитывает менее 12.308 человек, а говорящих на данном языке еще меньше. Наш проект направлен на сохранение и цифровизацию этого языка с использованием современных технологий машинного обучения.

Работы ведутся над множеством моделей машинного обучения: нейронный переводчик (NMT), система распознавания (STT) и синтеза речи (TTS), модель распознавания мансийских символов (OCR), ну и конечно же большая языковая модель способная общаться на мансийском языке (LLM).

Мы планируем рассказать о каждой разработанной модели в отдельной статье, и, как вы уже поняли из названия, эта публикация посвящена нейронному переводчику с русского на мансийский язык и обратно.

Что расскажем:

●       Как собирали и размечали обучающие данные;

●       Какие модели и подходы тестировали;

●       Каких результатов удалось достичь.

Итак, давайте пойдем по порядку.

Как собирали и размечали обучающие данные?

Первая и самая сложная задача при создании нейронного переводчика (как, впрочем, и в любой другой ML-задаче) - найти качественные данные. Для обучения NMT требуются параллельные тексты на двух языках. Если для популярных языковых пар доступны миллионы параллельных предложений, то для мансийского языка готовых корпусов нужного объема просто не существует.

Читать далее
Все новости Югорска на сегодня




Moscow.media

Персональные новости

Другие новости Югорска

Спорт в Ханты-Мансийском автономном округе

Весь спорт в России и в мире



Новости тенниса


Частные объявления в Югорске и в Ханты-Мансийском автономном округе



Авто в Ханты-Мансийском автономном округе

Новости от партнёров в Югорске


Коронавирус в Ханты-Мансийском автономном округе

Экология в Ханты-Мансийском автономном округе
Rss.plus

Другие города России




Ria.City — новый бренд от федеральной интернет-платформы Russia24.pro (в содружестве с сайтом Smi24.net) – мгновенная публикация новостей в Югорске и в любом городе, онлайн, бесплатно, 24/7 при участии RSS.plus.

Ria.City (Города России) — технологичный агрегатор региональных новостей России в адаптивном календарном формате на основе новейшей авторской информационно-поисковой системы SMI24.net с элементами искусственного интеллекта, гео-отбора, тематического таргетинга и возможностью мгновенной публикации авторского контента в режиме Free Public.

Ria.City — ваши оперативные новости, частные объявления, работа, знакомства, аренда и другое инфо онлайн 24/7, посуточно в любом уголке России, в том числе в Югорске сегодня и сейчас совместно с уже популярными проектами Moscow.Media, News-life.pro, SportsWeek.org, Life24.pro и др. Присоединяйтесь к нам онлайн в России, в Украине, в Беларуси, в Абхазии, в мире.

Опубликовать свою новость в Югорске можно мгновенно — здесь.


Все города России от А до Я




















Другие новости сегодня




Светские новости (слухи, сплетни, сарафанное радио, шоу-бизнес, рейтинги)