Виявлення тексту, створеного ШІ, є великою проблемою для дослідників в галузі кібербезпеки та викладачів. Такі інструменти, як GPTZero, детектор GPT2 та двомовні детектори досягли значного успіху. Однак їх можна легко обійти.
Дослідники компанії OpenAI та інші працюють над впровадженням статистичних водяних знаків у тексти, що були створені ними, але цю перешкоду також можна оминути, змінивши великі частини тексту.
Проблема виявлення тексту створеного ШІ, швидше за все, стане своєрідною гонитвою, оскільки з'являтимуться нові моделі та методи їх виявлення. Багато компаній уже почали розробляти рішення, які, як вони стверджують, є дуже ефективними, але це важко довести, особливо тому, що моделі змінюються з часом.
Ця стаття охопить деякі з сучасних методів виявлення тексту, що був створений ШІ, а у наступній буде висвітлено кілька способів, які було знайдено, щоб ті методи обійти.
Класифікатор тексту OpenAI є досить гарною спробою створити універсальний детектор текстів написаних ШІ. Навчаючи модель на великій кількості даних, згенерованих ШІ, і текстах, що були написані людиною на рівні майже однакової якості з ШІ, детектор може обчислити ймовірність того, наскільки відсотків будь-який текст був створений великою мовною моделлю (ВММ).
Проте, він має низку недоліків — він не обробляє жодних документів довжиною менш як 1000 слів, текст можна легко відредагувати так, щоб обчислення ймовірностей було спотворено, а через його професійно орієнтований набір для навчання, з'являються труднощі з текстами, що були створені дітьми або тими, хто не володіє англійською мовою.
Наразі він позначає людський текст як створений ШІ лише приблизно в 9 % випадків і правильно ідентифікує створений ШІ текст у 26 % випадків. Зі збільшенням потужності та обсягу моделі, ці результати покращаться, але може статися так, що знадобляться точніші детектори для адекватної оцінки того чи створив ШІ певний текст, чи ні.
Один із методів виявлення тексту, згенерованого ШІ, вимагає введення статистичного водяного знака під час створення тексту. Ці методи можуть використовувати «білий список» ВММ, який є методом визначення, чи був текст згенерований конкретною моделлю ШІ. Водяний знак працює шляхом вибору випадкового набору «зелених» токенів перед тим, як буде згенеровано слово, а потім поступово сприяє використанню вибраних токенів під час вибірки. Ці зважені значення мають мінімальний вплив на якість створення, але можуть бути алгоритмічно виявлені іншою ВММ.
Ця ідея є досить цікавою, але вона вимагає від розробників моделі впровадити цю систему токенів у свою ВММ. Якщо модель не має вбудованого водяного знака, цей метод не працюватиме.
Метод DetectGPT здатний виявляти текст, створений ШІ, з мінімальними налаштуваннями, на відміну від попередніх концепцій. Дослідники виявили, що генерації тексту ВММ, як правило, «займають області негативної кривизни логарифмічної функції ймовірності моделі». Таким чином, можна створити систему на основі кривизни для визначення того, чи був цей фрагмент тексту написаний за допомогою певних алгоритмів.
Він працює, обчислюючи логарифм ймовірності з моделі, яка, як вважають, згенерувала текст, і порівнює їх із випадковими змінами тексту з іншої, попередньо навченої моделі загальної мови. Отже, DetectGPT може визначити ймовірність того, що текстовий фрагмент буде написано лише за допомогою кривих ймовірностей!
Для подальшого обговорення теми детекторів і того, як можна їх перехитрити, перегляньте цю статтю.
Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing. ↩
Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring. ↩
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226 ↩
Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305 ↩