25 апреля 2024

Нейросетям «Яндекса» не хватает текстов на языках народов СНГ

Разработчики моделей машинного обучения (LLM) сталкиваются с дефицитом текстов на различных языках для их обучения, заявил директор по развитию технологий ИИ «Яндекса» Александр Крайнов 18 апреля во время выступления на форуме Data Fusion.

«Для обучения языковых моделей нужно много хороших текстов, и выясняется, что их просто нет физически, – сетует Крайнов. – На английском языке их много, возможно даже избыточно. На русском языке мы собираем все, до чего можно дотянуться, и как-то более-менее хватает для создания качественных языковых моделей, но избытка нет. А если мы возьмем множество других языков, которые менее распространены в интернете, например данные для узбекского, таджикского или казахского языков, то выясняется, что их не просто недостаточно – их нет».

С языками, для которых доступно ограниченное количество текстов и ресурсов для обучения моделей, действительно возникают трудности, подтверждает менеджер ИИ-продуктов Just AI Алексей Борщов. Это могут быть диалекты, редкие языки и языки с ограниченным объемом текстовых данных, уточняет он. «Например, сегодня очень востребованы языки Средней Азии. Известно также, что некоторые технические компании работают с Республикой Татарстан для сбора данных по татарскому языку. А значит, и языки меньшинств тоже будут постепенно покрываться данными для дообучения моделей», – поясняет Борщов.

Кроме того, культурный уровень, разнообразие тематик общения, а также качество владения языком авторов позволяет меньшему количеству текстов быть более полезными для обучения, добавляет менеджер продуктов Innostage Евгений Сурков.

По словам Крайнова, может сложиться ситуация, когда уровень и качество работы языковых моделей будет снижаться из-за нехватки количества обучающих данных. Их недостаток напрямую влияет на качество и точность ответов языковой модели, добавляет Борщов. Впоследствии это может отразиться на количестве пользователей продукта, уточняет он, ведь выбор LLM-систем носителем языка будет напрямую связан с тем, насколько хорошо сеть умеет работать с языком.

Дефицит текстов влияет прежде всего на то, что большие языковые модели плохо работают с этими языками и будут допускать гораздо больше ошибок, говорит руководитель направления цифровых продуктов образовательной экосистемы «Самолетум» (входит в группу «Самолет»), представитель Альянса искусственного интеллекта Андрей Комиссаров. Те же проблемы возникают с сервисами для распознавания или генерации речи, добавляет он.

«При этом генерация текстов для обучения самими моделями может только усугубить проблемы, – добавляет Сурков. – Попытка поступить по аналогии с успешными шахматными программами здесь может привести к катастрофе».

Проблему с нехваткой текста отчасти может решить перевод, говорит Крайнов. Например, у «Яндекса» есть OCR-сервис (Optical Character Recognition) распознавания текста. Помимо перевода можно «где-то добывать и оцифровывать тексты, которые не оцифрованы», добавляет он.

«В любом случае если мы говорим про задачу, которую не только один «Яндекс» может решить, а какая-то страна для себя, то нужно изыскать любые способы, чтобы было больше данных для самообучения», – считает Крайнов. «Например, для общения педагогов с учащимися-инофонами (учащиеся, чьи семьи недавно иммигрировали) и их родителями мы в первую очередь пытаемся парсить из источников типа YouTube, но по ряду языков на видеохостинге нет достаточного количества текстов, и приходится взаимодействовать с национальными вузами», – говорит Комиссаров.

По словам Борщова, для избежания проблем с нехваткой данных для обучения LLM-систем помимо сбора данных и создания большого количества текстов на разных языках необходимо сотрудничать с языковыми сообществами и носителями редких языков. Также можно использовать метод «обратного перевода», добавляет эксперт: «Текст на одном языке автоматически переводится на другой, даже если модель еще недообучена. Полученные плохие переводы используются в качестве обучающих данных для улучшения качества перевода. Затем модель обучается переводить такие слегка искаженные тексты обратно на исходный язык». Такой способ помогает улучшить качество перевода даже на языках с ограниченным количеством данных, добавляет Борщов.

Источник: Ведомости

Приглашаем на конференцию для директоров по маркетингу и PR-руководителей ИТ-компаний 

5 июня 2024

На мероприятии встретятся директора по маркетингу и PR-руководители крупных российских ИТ-компаний.

 

Экс-редактор Comnews присоединился к команде iTrend

30 мая 2024

На позицию руководителя проектов коммуникационного агентства iTrend вышел Денис Шишулин – ранее многолетний выпускающий редактор издательской группы ComNews, одного из самых авторитетных ИТ-изданий в России. В iTrend Денис будет отвечать за стратегическое руководство ряда PR-проектов с ИТ-компаниями, оперативное взаимодействие со СМИ, координацию работы команд, а также за качество проектов, которыми руководит в агентстве.

 

iTrend — в числе топ-агентств России по версии «Рейтинга Рунета»

28 мая 2024

Опубликованы итоги ранкинга коммуникационных агентств от «Рейтинга Рунета–2024». iTrend занял лидирующие места в ключевых для агентства срезах — PR в ИТ-отрасли, SMM в ИТ-отрасли, PR и SMM на аудиторию b2b enterprise, PR-аналитика, PR первых лиц и др.

 

Исследование iTrend: зарплата для ИТ-специалистов — не решающий фактор при выборе работодателя

23 апреля 2024

Эксперты коммуникационного агентства iTrend провели исследование, в рамках которого проанализировали критерии выбора работы, а также медиапредпочтения более 300 высокоуровневых специалистов из крупных российских ИТ-компаний.

 

Команда iTrend начала работу с Институтом iSpring

19 апреля 2024

Институт iSpring — частный ИТ-вуз нового поколения. Он был основан в 2021 году в Йошкар-Оле российским предпринимателем и основателем международной ИТ-компании iSpring Юрием Усковым.

 
Все новости iTrend