На стриме в X Илон Маск согласился с мнением экспертов о том, что реальных данных для обучения ИИ практически не осталось.
Мы исчерпали практически весь объем человеческих знаний для обучения ИИ. Это произошло в прошлом году.
— Маск в разговоре с председателем Stagwell Марком Пенном
Глава xAI повторил тезисы бывшего научного директора OpenAI Ильи Суцкевера, который в декабре на конференции NeurIPS говорил о достижении "пика данных". По мнению Суцкевера, нехватка тренировочных данных вынудит индустрию изменить текущий подход к разработке моделей.
Маск видит решение в использовании синтетических данных, генерируемых самими ИИ-моделями.
Единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создает тренировочные материалы и проходит процесс самообучения.
Крупные технологические компании уже используют этот подход. Microsoft, OpenAI, Anthropic и другие применяют синтетические данные для обучения своих флагманских моделей. По оценкам Gartner, в 2024 году 60% данных для проектов ИИ были сгенерированы искусственно.
Недавно выпущенная модель Microsoft Phi-4 и модели Google Gemma обучались на комбинации реальных и синтетических данных. Anthropic использовала искусственные данные при разработке Claude 3.5 Sonnet, а Meta улучшала последние версии Llama с помощью ИИ-генерации.
Использование синтетических данных позволяет существенно снизить затраты. Стартап Writer заявляет, что разработка их модели Palmyra X 004 обошлась всего в 700 000 долларов, тогда как сопоставимая модель OpenAI оценивается в 4,6 миллиона.
Однако у этого подхода есть недостатки. Исследования показывают, что синтетические данные могут привести к "коллапсу модели", когда ИИ становится менее "креативным" и более предвзятым в своих результатах, что серьезно влияет на его функциональность.