9 марта 2024

Синтетическое качество: как искусственные данные дают реальные результаты

Синтетические (искусственно сгенерированные) данные меняют правила игры в ИИ: они обеспечивают экономию средств, гарантируют безопасность и повышают качество обучения моделей, становясь ключом к реальным результатам.

Илья Катчан, руководитель Центра развития аналитических продуктов Axenix

Взрывной рост использования ИИ и машинного обучения порождают проблему адекватного объема качественных данных для обучения. Она может успешно решаться за счет использования синтетических данных.

Данные качества

Качество данных играет ключевую роль в развитии искусственного интеллекта (ИИ) и машинного обучения. Некачественные данные (неверный формат, искаженные или неполные атрибуты) могут привести к ряду проблем.

Например, увеличатся затраты на исследование и разработку ИИ-алгоритма. Придется тратить дополнительное время на анализ, очистку и восстановление данных перед их использованием.

ИИ-алгоритмы, обученные на некачественных данных, часто демонстрируют плохую производительность и делают неверные предсказания. Боле того, если в исходных данных присутствует предвзятость – модель машинного обучения может не только воспроизводить ее, но и усиливать.

Решения, основанные на таких ИИ-прогнозах, могут иметь серьезные последствия. Возможно появление дискриминационных элементов, например при рассмотрении кредитных заявок в банке. В медицинской диагностике ошибки ИИ будут представлять реальную угрозу для безопасности человека.

Синтетический мир победил?

В ситуации, где применение реальной информации невозможно (коммерческая тайна, безопасность, недостаток данных или их невысокое качество) могут применяться искусственно смоделированные данные – синтетические.

В таком случае информация может быть получена с помощью различных методов синтетической генерации, включая моделирование. По основным характеристикам эти данные полностью сопоставимы с реальными. Синтетические данные легко доступны, они выступают удобной альтернативой для обучения моделей машинного обучения.

Преимущество использования синтетических данных – высокая адаптивность, позволяющая создавать дата-сеты под конкретные бизнес-потребности, и экономия средств. Например, добыча и обработка реальных данных о дорожных происшествиях для автомобильных компаний будет значительно дороже, чем генерация синтетических.

Синтетические данные можно производить значительно быстрее, так как они не привязаны к реальным событиям и их можно генерировать в больших объемах за более короткое время. Кроме того, они обеспечивают конфиденциальность и возможность безопасного использования, не содержат отслеживаемой информации об оригинальных данных.

Как работает синтетическая генерация данных?

Все начинается с определения типа необходимых данных – учитывается структура, характеристики и объем. Далее разрабатывают модели, воспроизводящие взаимосвязи и структуры, встречающиеся в реальности.

С помощью ИИ на основе сценариев, обеспечивающих имитацию закономерностей и изменчивости реальных данных, генерируются дата-сеты необходимого объема и с заданными характеристиками. Завершается процесс фазой валидации: необходимо убедиться, что синтетические данные сохраняют схожесть с реальными.

Методы и технологии, используемые для создания синтетических данных:

  • рандомизация – генерация случайных величин с заданными распределениями;
  • имитация – использование модели для имитации генерации данных в контролируемых условиях;
  • дополнение данных – модификация существующих реальных данных для создания новых синтетических экземпляров;
  • глубокое обучение: использование генеративно-состязательных сетей (Generative-adversarial network, GAN) или вариационных автокодировщиков (Variational autoencoder, VAE). Впрочем, эти способы сегодня стремительно устаревают — на текущий момент для графики чаще всего используются различные производные модели Stable Diffusion, а для текстов – GPT-подобные трансформеры.

Назначение синтетических данных в современном мире

В сценариях, где использование реальных данных может нарушить конфиденциальность, синтетические данные позволяют проводить исследования и разработки, не раскрывая конфиденциальную информацию. Они также позволяют соблюдать различные правила защиты данных и регулирования их оборота в бизнесе и социуме (152 ФЗ).

Синтетические данные могут быть использованы для безопасного и эффективного тестирования ПО, приложений и алгоритмов. Они также позволяют обучать ИИ-модели, когда реальных данных мало, они несбалансированы или недоступны.

В случаях, когда реальные данные ограничены, синтетические могут дополнять наборы, повышая надежность моделей. Также могут использоваться для создания недопредставленных выборок в несбалансированных наборах, что способствует созданию более качественных моделей.

Синтетические данные используются для моделирования сценариев кибератак и проверки устойчивости систем без компрометации и ущерба для реальной информации. В моделировании клинических испытаний позволяют изучать различные исходы и стратегии лечения без риска для жизни людей.

Также, их использование улучшает показатель Time2market – еще недавно некоторые сценарии применения аналитики в бизнесе откладывались в долгий ящик из-за того, что на реализацию проекта требовался минимум годовой объем исторических данных. С синтетическими данными можно серьезно сократить сроки накопления статистики и быстрее принести пользу бизнесу.

Основные сложности

Поддержание реализма и точности синтетических данных может стать серьезной проблемой, поскольку они должны точно отражать свойства и сложные закономерности реальности, включая сложные корреляции между переменными.

Есть этические и юридические дилеммы: создание и использование синтетических данных в сценариях принятия решений или исследований в сфере медицины должны быть тщательно изучены.

Безопасность и конфиденциальность также являются жизненно важными проблемами. Обеспечение того, чтобы конфиденциальность не была случайно нарушена в процессе генерации синтетических данных, требует бдительности.

С технологической точки зрения модели в сложных областях могут быть трудоемкими в вычислительном отношении, попадая в зависимость от значительных ИТ-ресурсов.

Проверка синтетических данных может оказаться сложной и ресурсоемкой задачей, включающей разработку и применение верных показателей и критериев для оценки качества.

Наконец, нельзя игнорировать проблемы масштабируемости. Создание синтетических данных в большом масштабе при сохранении согласованности и качества требует эффективных в вычислительном отношении решений и оптимизации ресурсов, что часто является сложной задачей.

Будущее синтетических данных

Создание точных синтетических данных требует глубоких знаний в области ИИ и наличия специальных навыков работы с соответствующими инструментами и платформами. Это позволит получать синтетические дата-сеты, в которых нет атрибутов данных, искажающих его и отрывающих их реальности.

По мере распространения ИИ и машинного обучения роль синтетических данных будет расти из-за способности существенно снижать стоимость обучения. Например, настоящее учебное изображение для задач компьютерного зрения, которое стоит $5, можно заменить сгенерированным синтетически по цене всего в $0,05.

В масштабах дата-сета это огромные средства, экономия которых частично оправдывает риски, связанные с «синтетикой», и позволяет решать часть проблем, связанных с генерацией данных.

Кроме того, синтетические данные будут все больше обеспечивать необходимое ИИ-модели разнообразие рабочих ситуаций и сценариев за счет включения редких случаев, которые трудно получить в реальности.

Синтетические данные играют важную роль в мире аналитики и моделирования, однако их применение не является универсальным и всегда эффективным. Одним из ключевых ограничений является то, что они могут порождать наблюдения, которые могут отсутствовать в реальности. Это происходит в результате того, что моделирование сложных систем часто основывается на упрощенных предположениях и аппроксимациях.

В частности, если процесс моделирования выполнен не с должной точностью, данные, сгенерированные таким образом, могут вводить в заблуждение, искажая реальное состояние системы или процесса, воссоздавая сценарии, которые невозможны или маловероятны в реальном мире.

С другой стороны, синтетические данные могут быть созданы таким образом, чтобы соответствовать определенному заранее заданному распределению. Такой подход позволяет генерировать данные, которые «усредняют» реальные характеристики и поведение системы, что может быть полезным при тестировании алгоритмов машинного обучения или при планировании ресурсов.

Однако это также влечет за собой риск утраты уникальных или редких случаев, которые могут иметь критическое значение для анализа. Используя усредненные данные, исследователи и аналитики могут пропустить важные аномалии или закономерности, которые только и могут быть обнаружены при анализе реальных данных

***

Таким образом, при использовании синтетических данных необходимо тщательно оценивать контекст их применения. Важно понимать, что данные, идеально подходящие для одной задачи, могут быть совершенно неадекватны для другой.

Решение о применении синтетических данных должно базироваться на глубоком понимании целей исследования, ограничений выбранного метода моделирования и потенциальных последствий использования данных, которые могут быть либо искаженным отображением реальности, либо слишком обобщенным представлением о ней.

Источник: Открытые системы

Команда iTrend начала работу с Институтом iSpring

19 апреля 2024

Институт iSpring — частный ИТ-вуз нового поколения. Он был основан в 2021 году в Йошкар-Оле российским предпринимателем и основателем международной ИТ-компании iSpring Юрием Усковым.

 

Вебинар iTrend «Работодатель-as-a-Service: новая реальность привлечения ИТ-специалистов»

19 апреля 2024

23 апреля в 15:00 пройдет открытый вебинар «Работодатель-as-a-Service: Новая реальность привлечения ИТ-специалистов». Организаторы — коммуникационное агентство iTrend, ассоциация РУССОФТ и консалтинговая группа BITOBE.

 

iTrend: освоить маркировку интернет-рекламы можно только на собственном опыте

25 марта 2024

В феврале 2024 года в Москве прошла Конференция «Digital-коммуникации России». Организатор мероприятия – Ассоциация директоров по коммуникациям и корпоративным медиа России (АКМР). Эксперты конференции обсудили острые вопросы рынка digital, в том числе маркировку интернет-рекламы. Об опыте коммуникационного агентства в рамках перехода на работу по новым правилам рассказала Екатерина Саранцева, директор по развитию iTrend.

 

Медиалогия: iTrend – в ТОП-4 коммуникационных агентств по медиаиндексу за январь 2024 года

20 марта 2024

Коммуникационное агентство iTrend вошло в пятерку агентств, получивших наиболее высокий медиаиндекс по данным рейтинга «Медиалогии» за январь 2024 года. Компания заняла четвёртую строчку ранкинга, набрав 433,2 пункта МИ. Медиаактивность участников рынка оценивалась на основе анализа базы российских СМИ, включающей в себя более 88 тыс. источников — ТВ, радио, газеты, журналы, информационные агентства и Интернет-СМИ.

 

iTrend: интерес деловых СМИ к ИТ вырос в 6 раз за последние пять лет

20 марта 2024

Эксперты коммуникационного агентства iTrend провели исследование, в рамках которого проанализировали, как менялся медиаландшафт в ИТ-индустрии в последние пять лет. В компании сравнили количество упоминаний крупнейших российских разработчиков и системных интеграторов в деловых СМИ и пришли к выводу, что об ИТ-компаниях стали писать в 6 раз чаще.

 
Все новости iTrend