Группа исследователей из НИУ ВШЭ создала две нейросетевые модели для распознавания вставок, сгенерированных искусственным интеллектом, в научных текстах. Эти системы обещают улучшить проверку оригинальности и достоверности публикаций.

Фото: unsplash
В рамках нового проекта разработаны две модели — AIpom и Papilusion, которые используют различные подходы для обнаружения сгенерированных частей текста, сообщает Naked Science. AIpom сочетает два типа моделей — декодер и энкодер, что позволяет системе эффективно определять границы между оригинальными и машинно-сгенерированными фрагментами. В свою очередь, модель Papilusion классифицирует текст на четыре категории: написанный человеком, сгенерированный ИИ, исправленный синонимами и кратко пересказанный.
Разработчики используют инновационный подход, комбинируя разные типы нейросетей для повышения точности. AIpom, например, включает этапы, когда декодер предварительно выделяет фрагменты текста, предполагаемые как сгенерированные ИИ, а энкодер уточняет результаты, классифицируя каждый отдельный токен текста. Это позволило модели занять второе место на международном научном соревновании SemEval 2024.
Модель Papilusion работает с одним типом моделей — энкодерами, и делит текст на четыре категории. Эти системы показали хорошие результаты, несмотря на наличие ошибок в распознавании на менее знакомых темах, что затрудняет работу моделей. На соревновании система заняла 6-е место среди 30 участников.
Исследователи подчеркивают, что текущие модели хорошо работают на известных данных, но сталкиваются с трудностями при обработке текстов на новых темах или с недостаточно разнообразными данными. Для повышения эффективности необходимо собирать более разнообразные датасеты, в которых используются несколько типов ИИ-моделей и методов исправления текста.
В будущем такие модели могут стать важным инструментом для борьбы с плагиатом и сгенерированным контентом, а также помогут обеспечить высокую достоверность научных публикаций.
Ранее Bzzz.news сообщал, что ученые научили ИИ имитировать человека.