Как программы определяют происхождение текста?
Начнем с основ. Чтобы обнаружить синтетический, то есть созданный машиной текст, нужно искать закономерности.
Дело в том, что когда человек пишет, он объединяет случайные мысли в осмысленные предложения. Люди не следуют шаблонам, и одни предложения могут быть слишком длинными, а другие — короткими.
И это полная противоположность того, как мыслит и пишет ИИ. Здесь не стоит ждать случайностей, и текст будет иметь четкую структуру. Некоторые идеи или слова будут повторяться, а выбор лексики может выглядеть механическим, напоминая речь робота.
Все это учитывают специализированные программы. Чтобы различать то, что написано человеком, и то, что создано нейросетью, используются четыре параметра.
Классификаторы
Это алгоритмы, которые определяют класс текста при помощи таких факторов, как использование, грамматика, стиль и тональность.
Например, текст с невыразительной тональностью, грамматическими ошибками и повторами с большей вероятностью будет отнесен к категории сгенерированных ИИ.
Встраивания
В этом контексте встраивания (embeddings) — это числовые представления слов и их взаимосвязей друг с другом. Они выражены в виде векторов в многомерном пространстве, каждый из которых имеет уникальный код.
Эти коды помогают компьютерам понять, как каждое слово соотносится друг с другом и в каком контексте употребляется. Базовая модель машинного обучения постоянно обучается определять, какие коды распространены в текстах от ИИ, а какие — нет.
Перплексия
Это характеристика текста, которая определяет степень запутанности внутри фрагмента. Люди пишут с очень большой степенью перплексии. Но не ИИ.
Попробуйте придумать, как завершить следующее предложение: «Вчера я смотрел “Оппенгеймер”, и это … фильм». Если в голову приходит что-то вроде «захватывающий», «выдающийся», «замечательный», «впечатляющий» или «увлекательный», очень жаль, но, возможно, вы робот.
Хотите быть в курсе последних новостей и событий? Подписывайтесь на Телеграм- канал «Бизнес в Кузбассе»