Почему заканчиваются данные для обучения нейросетей и как это тормозит ИИ

Российский рынок продуктов на основе нейросетей продолжает расти, но существуют проблемы, замедляющие этот процесс. Одна из главных проблем заключается в нехватке данных для обучения нейросетей.

Почему заканчиваются данные для обучения нейросетей и как это тормозит ИИ

Фото: unsplash

Нейросети требуют больших объемов текстов для обучения. Чем сложнее модель, тем больше информации ей нужно, сообщает РБК. Но в интернете теперь много текстов, созданных самими нейросетями. Получается замкнутый круг: если обучать ИИ на материалах, которые также сгенерированы другими ИИ, они не становятся умнее. Например, новые версии GPT-5 не дают таких улучшений, как предыдущие.

Специалисты из MTS AI говорят, что для того, чтобы нейросети становились умнее, нужны данные, созданные людьми. Но таких данных мало, и это затрудняет их развитие. Разработчики ищут другие способы обучения, например, используют видео или изображения, но пока это не дает желаемых результатов.

Прогнозируется, что в 2024 году объем российского рынка продуктов с большими языковыми моделями (LLM) составит 35 млрд рублей. Но российский рынок нейросетей растет медленнее, чем в мире, из-за санкций и нехватки специалистов. Стоимость оборудования для обучения нейросетей выросла, а сам рост рынка идет медленными темпами.

Ранее Bzzz.news сообщал, что исследователи НИУ ВШЭ предложили новый подход для оценки компетентности искусственного интеллекта в образовании.