https://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graphНедавно мне попался график (примерно такой, как на скрине выше): число новыхhttps://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graphНедавно мне попался график (примерно такой, как на скрине выше): число новых

На чём будут учиться нейросети в 2026

https://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graph

3e13ba1c15c5d082f2880ac325400a59.png

Недавно мне попался график (примерно такой, как на скрине выше): число новых вопросов на StackExchange/Stack Overflow растёт до середины 2010-х, держится на плато, а потом — особенно после 2022–2023 — начинает резко падать и к “сегодня” стремится почти к нулю.

Для больших языковых моделей (LLM) публичные Q&A-площадки были идеальным топливом:
вопрос → контекст → решение → правки/комментарии.
Если поток вопросов/ответов иссякает — что будет дальше с данными для обучения?

Ниже — какие источники данных будут доминировать в 2025–2027, и почему “интернет как датасет” заканчивается в привычном виде.

1. Закончился бесплатный и чистый веб

Заканчивается эпоха “сырого интернета” как основного источника свежего прикладного знания.

Причин сразу несколько:

  1. Публичные знания уходят в приватные каналы (чаты, корпоративные базы, закрытые Discord/Slack).

  2. Веб всё сильнее засоряется AI-генерацией, что ухудшает качество для обучения (самоповторы, галлюцинации, SEO-копипаст).

  3. Юридические риски растут, и компании начинают предпочитать лицензирование и “белые” наборы данных.

Показательный факт: даже сами участники рынка начинают покупать доступ к “веттед” знаниям вместо бесконечного скрейпа. Пример — партнёрство OpenAI и Stack Overflow через доступ к OverflowAPI/курированным данным.

2. Меньше данных, но теперь они лучше отобраны

Если раньше гнались за объёмом (ещё 10 триллионов токенов!), то теперь выигрывает подход курирование, дедупликация и модельная фильтрация. Иными словами, данные теперь крайне тщательно подготавливаются.
Как пример: на Hugging Face выложили FineWeb — очищенный и дедуплицированный английский веб из CommonCrawl (порядка 18.5T токенов). И отдельно — FineWeb-Edu (варианты “educational filtering”), где идея в том, чтобы резать мусор и оставлять полезное даже ценой сокращения объёма.

Или еще интереснее — Проект DataComp-LM (DCLM) устраивает соревнование по сборке датасетов. Качество датасета — это отдельная дисциплина. В их baseline подчёркивается, что model-based filtering критичен для сильных результатов.

3. Если Q&A исчезают, то откуда будут браться “новые знания”?

Ниже — карта основных источников, которые будут расти.

3.1. CommonCrawl и “очищенные веб-корпусы”

Common Crawl никуда не исчезает: это огромный открытый архив веб-сканов, который пополняется на миллиарды страниц в месяц. Но важный сдвиг: в обучение попадёт не CommonCrawl “как есть”, а его производные — FineWeb-подобные корпуса, с фильтрацией, дедупом, анти-спамом, анти-AI-мусором.

Следовательно “обучение на вебе” останется, но станет больше похоже на “обучение на отобранном учебнике из веба”.

3.2. Лицензированные датасеты и партнёрства

Когда ценность качественного человеческого контента растёт — растёт и рынок лицензирования.

Stack Overflow отдельно развивает тему лицензирования/доступа к данным для AI-кейсов, а крупные компании заключают соглашения вместо “позже разберёмся в суде”. Понятно что из-за этого знания могут стать более закрытыми, а доступ — платным.

3.3. Код и инженерные артефакты

Даже если разработчики меньше задают вопросов, они продолжают оставлять след в: репозиториях (код, тесты, примеры), issue/PR-дискуссиях, changelog’ах и migration guides, документации и туториалах.

3.4. “Книги и архивы” как новый легальный золотой стандарт

Мы наблюдаем заметный разворот к источникам публичного домена — потому что это одновременно: качественнее случайных веб-страниц, юридически безопаснее.

Например, Harvard анонсировал корпус почти миллиона оцифрованных public-domain книг (HLPD corpus), как “структурированный датасет для исследований и AI”.

3.5. Синтетические данные

Синтетика будет расти по двум причинам: дёшево и управляемо (можно генерировать под конкретные навыки), помогает закрывать “дыры” (форматы, редкие языки, tool-use сценарии).

Риск тоже очевиден: если “перекормить” модель синтетикой, можно получить замыкание на собственных ошибках и стилистическую деградацию. Поэтому устойчивые пайплайны обычно держат смесь: реальное + синтетическое + жёсткая фильтрация.

3.6. Логи взаимодействий и данные продуктов

Самый недооценённый источник будущего — поведение пользователей: диалоги с ассистентом, оценки “полезно/не полезно”, исправления, предпочтения. Важно, что эти данные особенно ценны для instruction-tuning и RL-подходов.

4. Юридические рамки изменят техническую реальность

Европейский AI Act и связанные инициативы усиливают давление на прозрачность и комплаенс: компании будут вынуждены лучше понимать происхождение данных, права, процедуры удаления/опровержения и т.п.

5. Возможные сценарии

Сценарий А: “Данные становятся платными”

Публичные знания → закрываются/монетизируются → доступ через API и лицензии.
Это похоже на то, как новости и научные журналы давно живут за paywall.

Сценарий B: “Открытые корпуса станут супер-курированными”

Вместо “бесконечного веба” появятся эталонные открытые наборы: очищенный веб, public-domain книги, научные/тех-архивы, репозитории кода, с прозрачными методами фильтрации и версионированием.

Реальность, вероятно, будет гибридом: часть данных закрывается, часть — институционализируется и становится качественнее.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.