Posted 28 августа, 14:50

Published 28 августа, 14:50

Modified 28 августа, 14:50

Updated 28 августа, 14:50

Использование синтетических данных для обучения ИИ в худшем случае может даже сломать интернет

Реальная угроза: искусственный интеллект может сожрать все настоящие данные, взбеситься от синтетических и испортить нам интернет

Фото: Изображение Midjourney
Использование синтетических данных для обучения ИИ в худшем случае может даже сломать интернет
Исследователи обнаружили, что обучение последовательных поколений генеративных моделей искусственного интеллекта на синтетических данных может привести к большим проблемам.

Генеративные модели ИИ далеко продвинулись в создании нового контента, однако для их обучения нужны настолько огромные объемы данных, что они скоро могут закончиться. При такой нехватке реальных данных бигтех может применить для обучения синтетические.

Ученые предостерегают: это может плохо сказаться на будущих моделях ИИ и даже сломать интернет. Свежее исследование опубликовали в журнале International Conference on Learning Representations.

Проблема в неизбежном возникновении повторяющихся циклов обратной связи. Ученые проверили: из-за них через несколько поколений новые модели становятся непоправимо сломанными. Исследователи предложили заменить термин «крах модели» на «расстройство модельной аутофагии» (MAD), по аналогии с коровьим бешенством, которое было проблемой в 80-х—90-х. Распространялось оно из-за кормления коров переработанными останками других коров.

Чтобы недостатки такого «аутофагического обучения» были более заметными, ученые использовали визуальные модели, но подобные проблемы возникают и с языковыми. Результаты выглядят жутковато: модели создавали изображения людей, все более и более испещренные сетчатыми шрамами или все более похожие на одного и того же человека. Числа превращались в нечитаемые каракули.

Для решения проблемы недостаточно отказаться от умышленного использования сгенерированных данных: информацию для обучения моделей обычно берут в интернете, а в интернете все больше контента, сгенерированного нейросетями, что приводит к самопоглощающим циклам.

При наихудшем сценарии MAD, по мнению исследователей, может «отравить» качество и разнообразие данных во всем интернете, а также привести к другим непредсказуемым последствиям уже в ближайшем будущем.

Подпишитесь

© Все права защищены. При использовании информации гиперссылка на сайт newkhakasiya.online обязательна. Полные правила

Сетевое издание «Новая Хакасия.online». Средство массовой информации зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций,
регистрационный номер серия ЭЛ № ФС 77-76824 от 24 сентября 2019 г.

Учредитель: ООО «ПремьерМедиаИнвест»

Главный редактор: Ошаров Сергей Владимирович

Телефон: +7 (499) 110-58-85

Электронный адрес:  [email protected] / [email protected]

Адрес редакции: 109 044, Москва г, вн. тер. г. муниципальный округ Таганский, ул. Воронцовская, д. 20, этаж 2, ком. 14

Отдел продаж: +7 (391) 295 14-37

Яндекс.Метрика