«Антиплагиат» научился определять тексты чат-ботов (но что с этой функцией делать, пока непонятно)

Российская система поиска текстовых заимствований «Антиплагиат» в мае добавила в функционал своей платной версии обнаружение текстов, созданных при помощи искусственного интеллекта. Новинка анонсировалась как «новый уникальный алгоритм, позволяющий автоматически выявлять и маркировать фрагменты текста, которые предположительно сгенерированы с использованием моделей глубокого обучения (GPT-2, GPT-3, ChatGPT)». 16 мая руководитель «Антиплагиата» Юрий Чехович на вебинаре для пользователей рассказал о новинке подробнее. Мы послушали этот вебинар и узнали о том, что сделать заказчику текста, чтобы новая функция не помогла проверяющим.

Иллюстрация SOTA
Иллюстрация SOTA

Системой «Антиплагиат» активнее всего пользуются преподаватели вузов и редактора научных журналов (те области, где особенно важно оценить оригинальность текста). Юрий Чехович сразу же подчеркнул, что в данном случае речь идет не о плагиате: искусственные тексты – это тексты высокой степени оригинальности, поэтому они легко проходят проверку на заимствования, выдавая низкий процент совпадений текста с текстами из баз, с которыми работает система. Поэтому «сам сталкивался в практике с тем, что с помощью GPT или другого чата писались заявки на гранты, статьи или контент для сайта», - признал спикер.

Детектор искусственных текстов «Антиплагиат» анонсировал еще в феврале, когда был готов алгоритм (по иронии судьбы ранее у компании уже был проект подобного детектора, но тогда его не стали дорабатывать из-за отсутствия потенциального спроса – ведь еще год назад никто не прогнозировал появления машинных текстов такого качества). 2 мая открылся доступ к функционалу у платных пользователей, и, по словам Чеховича, сразу стало ясно, «что какая-то доля, пока довольно небольшая, всех работ содержит вставки искусственного текста».

С точки зрения пользователя определение выглядит так: если возникает подозрение, что в документе присутствует сгенерированный текст, в полученном по итогам проверки отчете появляется красная строчка «документ подозрительный», а в подробном отчете система выделяет сомнительные фрагменты.

Повторим: эта функция доступна только на платных тарифах (обычно ими пользуются вузы и издательства), обычные пользователи, загрузив машинный текст в бесплатную версию на сайте компании, получат прежний зеленый значок с пометкой о минимальном проценте заимствований и только – ведь GPT и подобные генераторы действительно не компилируют фрагменты чужих текстов, а создают нечто новое.

Есть и еще одно ограничение, о котором позже упомянули сотрудники компании – выявить подозрительный текст можно только при проверке текстов от 1,5 тысяч знаков, на небольших фрагментах проверка не сработает.

Впрочем, даже если система показала подозрительный текст в учебной или научной работе, возникает вопрос, что делать проверяющим дальше, ведь все равно нельзя убедительно доказать пользователю, что его текст искусственный (так как нельзя показать источник, откуда текст взят, по словам руководителя компании, здесь мы имеем «слово системы против слова человека»).

Все, что остается проверяющим – внимательно изучать подозрительный текст, выявляя в нем странности. И здесь на помощь приходит знание о существующих на данный момент проблемах сгенерированных машиной текстов:

  • приводимые в текстах факты не всегда являются подлинными, если утверждение выглядит правдоподобно, это еще не значит, что оно соответствует действительности.
  • если в тексте даются ссылки на источники и материалы по теме, они могут отсылать к несуществующим книгам и публикациям (хотя спикер утверждал, что GPT-чат уже отказывается генерировать ссылки, предположив, что разработчики внесли в него изменения, нам удалось получить у чат-бота библиографию по заданной теме, в которой были указаны несуществующие в реальности книги, а гиперссылки вели на совсем другие издания, не связанные с темой запроса).
  • проблемы с логикой: генератор текстов создает предложения, связанные с темой запроса, но не развивающие ее и не продвигающие работу.

Одна из особенностей текстов, сгенерированных искусственным интеллектом, в компании получила название «Эффект рыбки Дори», в честь персонажа мультфильма «В поисках Немо» – рыбки, которая очень быстро все забывала. Понимание этой особенности помогает анализировать подозрительный текст, так как появление повторяемых мыслей в разных абзацах – типовой признак того, что текст сгенерирован машиной

Тем, кто столкнулся при проверке работ с большими объемами подозрительного текста, Юрий Чехович порекомендовал обсудить работу с автором, чтобы понять, насколько хорошо он сам знаком с текстом и темой. В сущности, рекомендации здесь те же, что и для выявления работ, написанных для студентов кем-то по заказу: не так важно, написал ли диплом, курсовую, диссертацию другой человек за деньги или машина – важно определить, что человек, который выдает текст за свой, плохо в нем ориентируется, не понимает тему и содержание работы.

Еще один совет на предупреждение таких ситуаций – тоже предсказуемый: если работать со студентом над его дипломом или диссертацией планомерно, шаг за шагом обсуждая разные этапы и фрагменты текста, это повысит шансы получить авторскую работу, а вот если работа возникает накануне дедлайна, возникает вопрос, велась ли она студентом самостоятельно.

Прогнозы спикера на ближайшее будущее также оказались довольно предсказуемыми (а что еще сейчас можно прогнозировать, будь ты хоть человек, хоть искусственный интеллект?):

«То, что можно назвать «детскими болезнями» искусственных генераторов текстов, скорее всего, скоро вылечат» и, возможно, машина будет генерировать ссылки не хуже, чем средний студент. Лучше принять то, что происходит, – запреты на использование GPT не приведут к тому, что люди перестанут пользоваться этими инструментами, но сами инструменты не будут совершенствоваться в направлении того, чтобы становиться более этичными: «ИТ-луддизм» не приведет ни к чему хорошему. Но очевидно, что предстоит отказаться от формальных требований к квалификационным работам (объем текста, количество ссылок и тп), которые все хуже работают для подтверждения качества текста. Поэтому предстоит «разрабатывать формы квалификации, позволяющие отделять личный вклад автора от машинного».

Спикер также предостерег от переоценки потенциальных рисков: «тем, кто сейчас работает над генеративными сетями, а особенно тем, кто продвигает результаты, сейчас очень важно поддерживать хайп», но «никакого чуда, никаких непредсказуемых вещей в генеративных сетях не происходит. Это алгоритмы, задача которых создавать текст, у них нет задачи создавать новое знание». А создали ли машины хороший текст или плохой – это оценивает человек, и задачи тоже ставит человек, в ближайшие десятилетия ситуация не изменится.

Отметим, этот же человек может и довести машинный текст до состояния, в котором новая функция «Антиплагиата» не поможет проверяющим: руководитель компании неоднократно подчеркивал, что если заказчик потратит достаточно времени на проверку фактов в тексте и на его редактуру, этот текст утратит признаки, по которым система может распознать его искусственное происхождение – да и называть такой текст, к которому приложил руку человек, сгенерированным уже некорректно. Вопрос только в том, имеют ли такие затраты времени смысл, пока они сравнимы с трудозатратами на создание оригинального текста.

Многих интересовало, по каким же признакам система определяет искусственный текст? Здесь спикер отослал к апрельской статье своих коллег «За кулисами интеллекта ChatGPT: рассказ о том, как определяют тексты, созданные ИИ», и из нее мы узнали, что система прослеживает связи между фрагментами текста (в сгенерированных текстах они строятся по тому или иному известному набору алгоритмов). Именно поэтому лучше детектируются тексты большего объема.

Самое забавное здесь то, что для определения текста, написанного нейросетью, используется другая нейросеть, которая обучается параллельно с первой: «real-time-обучение генеративно-состязательных сетей (GAN), где генеративная модель пытается запутать дискриминативную, а та, в свою очередь, учится верно отличать примеры».

На вебинаре Чехович подтвердил ту же мысль. Сейчас «и щит, и меч сделаны из одного и того же материала»: и для генерации, и для детектирования искусственных текстов используется нейросеть. Вопрос только в том, какая из нейросетей будет учиться быстрее.