Posted 28 августа, 14:50

Published 28 августа, 14:50

Modified 28 августа, 14:50

Updated 28 августа, 14:50

Использование синтетических данных для обучения ИИ в худшем случае может даже сломать интернет

Реальная угроза: искусственный интеллект может сожрать все настоящие данные, взбеситься от синтетических и испортить нам интернет

28 августа 2024, 14:50
Фото: Изображение Midjourney
Использование синтетических данных для обучения ИИ в худшем случае может даже сломать интернет
Исследователи обнаружили, что обучение последовательных поколений генеративных моделей искусственного интеллекта на синтетических данных может привести к большим проблемам.

Генеративные модели ИИ далеко продвинулись в создании нового контента, однако для их обучения нужны настолько огромные объемы данных, что они скоро могут закончиться. При такой нехватке реальных данных бигтех может применить для обучения синтетические.

Ученые предостерегают: это может плохо сказаться на будущих моделях ИИ и даже сломать интернет. Свежее исследование опубликовали в журнале International Conference on Learning Representations.

Проблема в неизбежном возникновении повторяющихся циклов обратной связи. Ученые проверили: из-за них через несколько поколений новые модели становятся непоправимо сломанными. Исследователи предложили заменить термин «крах модели» на «расстройство модельной аутофагии» (MAD), по аналогии с коровьим бешенством, которое было проблемой в 80-х—90-х. Распространялось оно из-за кормления коров переработанными останками других коров.

Чтобы недостатки такого «аутофагического обучения» были более заметными, ученые использовали визуальные модели, но подобные проблемы возникают и с языковыми. Результаты выглядят жутковато: модели создавали изображения людей, все более и более испещренные сетчатыми шрамами или все более похожие на одного и того же человека. Числа превращались в нечитаемые каракули.

Для решения проблемы недостаточно отказаться от умышленного использования сгенерированных данных: информацию для обучения моделей обычно берут в интернете, а в интернете все больше контента, сгенерированного нейросетями, что приводит к самопоглощающим циклам.

При наихудшем сценарии MAD, по мнению исследователей, может «отравить» качество и разнообразие данных во всем интернете, а также привести к другим непредсказуемым последствиям уже в ближайшем будущем.