Генеративные модели ИИ далеко продвинулись в создании нового контента, однако для их обучения нужны настолько огромные объемы данных, что они скоро могут закончиться. При такой нехватке реальных данных бигтех может применить для обучения синтетические.
Ученые предостерегают: это может плохо сказаться на будущих моделях ИИ и даже сломать интернет. Свежее исследование опубликовали в журнале International Conference on Learning Representations.
Проблема в неизбежном возникновении повторяющихся циклов обратной связи. Ученые проверили: из-за них через несколько поколений новые модели становятся непоправимо сломанными. Исследователи предложили заменить термин «крах модели» на «расстройство модельной аутофагии» (MAD), по аналогии с коровьим бешенством, которое было проблемой в 80-х—90-х. Распространялось оно из-за кормления коров переработанными останками других коров.
Чтобы недостатки такого «аутофагического обучения» были более заметными, ученые использовали визуальные модели, но подобные проблемы возникают и с языковыми. Результаты выглядят жутковато: модели создавали изображения людей, все более и более испещренные сетчатыми шрамами или все более похожие на одного и того же человека. Числа превращались в нечитаемые каракули.
Для решения проблемы недостаточно отказаться от умышленного использования сгенерированных данных: информацию для обучения моделей обычно берут в интернете, а в интернете все больше контента, сгенерированного нейросетями, что приводит к самопоглощающим циклам.
При наихудшем сценарии MAD, по мнению исследователей, может «отравить» качество и разнообразие данных во всем интернете, а также привести к другим непредсказуемым последствиям уже в ближайшем будущем.