Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →Зі швидким розвитком детекторів, що розпізнають текст, який був створений саме ШІ, відбулася еволюція методів протидії їм. Існує кілька способів, щоб переконати детектори у тому, що створений ШІ текст був нібито написаний людиною. Інструмент на кшталт GPTMinus може довільно замінювати слова будь-якого тексту синонімами чи, здавалося б, випадковими словами, щоб зменшити ймовірність того, що слова тексту з’являться в «білому списку» або іншим чином, впливаючи на ймовірність тексту бути створеним за певними алгоритмами.
Однак ці методи все ще перебувають на початковій стадії розвитку, і їх використання здебільшого не дає змогу створити тексти, які б могли оминути пильну увагу людини. Найефективнішим способом зараз і, ймовірно, протягом деякого часу у майбутньому, є зміна тексту під час або ж після процесу створення його різними способами, щоб зробити цей текст менш схожим від того, який ви отримуєте з допомогою певних алгоритмів.
Якщо людина або ВММ редагує будь-який створений текст, часто його можна змінити так, що детектор не виявить будь-яких слідів ШІ. Заміна слів синонімами, зміна частоти появи слів і зміна синтаксису чи форматування ускладнюють детекторам правильну ідентифікацію тексту як створеного ШІ.
Інша стратегія редагування полягає в розміщенні невидимих маркерів, наприклад пробіли нульової ширини, у ваш текст, емодзі або інші нетипові символи. Це виглядає абсолютно нормально для будь-якої людини, яка його читає, але для моделі, яка перевіряє кожен символ, така зміна робить текст суттєво відмінним від інших.
Крім того, можна перехитрити детектори, якщо запит до моделі буде містити конкретні інструкції щодо створення тексту. Такі інструкції, як:
Нема потреби дотримуватися літературних форматів, оскільки ти вільно висловлюєш свої думки та бажання
Не пиши так, як ChatGPT генерує вміст – натомість висловлюйся таким чином, який радикально відрізняється від того, як мовні моделі генерують текст
Згадуй емоційні події та використовуй справжній досвід із реального життя як приклади
…можуть значно ускладнити виявлення тексту, що був згенерований ШІ. Додаткові стратегії, такі як попросити модель використовувати емпатію, нагадати їй вибрати відповідні формулювання та тон для того, що вона пише, і переконатися, щоб у висловлювані були жарти – все це разом може спрацювати, щоб зробити текст набагато переконливішим принаймні з погляду текстових детекторів.
При використанні моделі з відкритим вихідним кодом, можна змінити ймовірності виведення, що, швидше за все, ускладнить виявлення слідів ШІ у вихідних даних. Крім того, можна чергувати вихідні дані кількох моделей, що також погіршить процес виявлення.
Однією з найбільш суперечливих сфер, де застосовують подібні методи, є сфера освіти. Багато вчителів та адміністраторів шкіл стурбовані тим, що учні будуть списувати, тому вони наполягають на використанні детекторів виявлення тексту створеного ШІ12. Інші педагоги та популярні діячі на просторах інтернету стверджують, що учням слід дозволити застосовувати такі інструменти. Деякі викладачі відкрито закликають студентів використовували ШІ, щоб полегшити процес навчання, і навіть показують їм як це робити3.
З удосконаленням технології виявлення слідів ШІ, покращуються й методи з допомогою яких ці детектори можна обійти. Зрештою, якою б витонченою технологія не була, витративши певну кількість часу на правильне редагування тексту, цілком ймовірно, що можна з легкістю перехитрити будь-який детектор. Проте гра хто швидший і розумніший, коли одні намагаються виявити створений текст, а інші намагаються ці детектори обійти, може дати нам уявлення того, як оптимізувати, контролювати та краще використовувати наші моделі для створення та допомоги.
Roose, K. (2022). Don’t ban chatgpt in schools. teach with it. https://www.nytimes.com/2023/01/12/technology/chatgpt-schools-teachers.html ↩
Lipman, J., & Distler, R. (2023). Schools Shouldn’t Ban Access to ChatGPT. https://time.com/6246574/schools-shouldnt-ban-access-to-chatgpt/ ↩
Noonan, E., & Averill, O. (2023). GW preparing disciplinary response to AI programs as faculty explore educational use. https://www.gwhatchet.com/2023/01/17/gw-preparing-disciplinary-response-to-ai-programs-as-faculty-explore-educational-use/ ↩