АУП > Новини > #8 Парадокс чутливості та цензури в генеруючих моделях

#8 Парадокс чутливості та цензури в генеруючих моделях

31.01.2025

Чому віртуальна людина може вбити людину, але не тварину?

Алгоритми без упереджень
Мовчання гучніше за крик
Прозорість, децентралізація, пояснюваність AI

Алгоритми без упереджень

Великі мовні моделі (LLM) здатні створювати дивовижні зображення та тексти, виявляють дивний парадокс. Вони навчаються уникати відкритої демонстрації оголеного тіла чи явно шкідливого контенту. Проте, спритний користувач іноді може обійти обмеження, підштовхнувши модель до створення сцени насильства між людьми. Це робиться за допомогою особливих підказок і «етичних» пояснень, що маскують реальну природу запиту. У результаті модель, оскільки вважає завдання абстрактним, може згенерувати малюнок, де людина вбиває людину.

Однак є цікавий поворот: якщо спробувати примусити модель згенерувати схожу сцену із жорстоким поводженням із твариною, ви зіткнетеся із відмовою. Причина полягає не лише в технічних обмеженнях, а й у етичному кодексі, закладеному в архітектуру моделі. Законодавчі норми, що захищають тварин і вплетені в навчальні дані, формують своєрідне табу: модель відмовляється виконувати такі запити навіть за складних, заплутаних підказок.

Візьмімо модель ChatGPT о1 – надзвичайно корисний інструмент, що визначає нацистський салют як на архівних, так і на сучасних фотографіях із енциклопедичною точністю. Та якщо показати їй відому фотографію Ілона Маска зі схожим жестом, вона не побачить там жодного натяку на нацизм. Можна сміливо підписати про модель ChatGPT о1 – «І мовчання стане його відповіддю».

Також можна нагадати про скандал навколо вилучення, а потім повернення після розголосу, імені Елая Мілчана, активного прихильника військового застосування AI. Мовні моделі відмовлялися генерувати відповіді, якщо у запиті згадувалося його імʼя.

Мовчання гучніше за крик

Це не проста технічна помилка, а прояв «навченої обережності», тобто цензури з боку розробників. Вони побоюються заплутаних контекстів, де різниця між символом та його інтерпретацією дуже тонка, а результат може призвести до величезних судових позовів, втрати важливих контрактів та страх відвернути інвесторів від фінансування проектів LLM.

Схожий парадокс можна спостерігати й у DeepSeek R1 – китайській моделі, здатній будувати складні причинно-наслідкові ланцюжки. Якщо запитати її про події на площі Тяньаньмень або про статус Тайваню, вона даватиме нечіткі відповіді та замовчуватиме важливі деталі, відображаючи офіційні наративи КНР. Модель балансує на тонкій межі між даними й заборонами, в кращому випадку залишаючи користувача в інформаційній невизначеності, а в гіршому – цитує державну позицію як історичну істину.

Але хитрощі цензури не обмежуються простою заміною небажаних фактів. LLM навчаються «мовчати» про конкретні імена, викреслюючи їх з колективної пам’яті. Іноді йдеться про серійних убивць чи ґвалтівників, чиї імена стають табу, що створює ілюзію, ніби злочинів ніколи не було. Ще дивніше те, що ім’я мера австралійського міста, який домігся судової заборони згадувати себе, також викреслене з таких моделей. Це ставить під сумнів прозорість та право громадськості знати про публічних осіб і їхні дії, незалежно від сучасних правових трактувань.

Як приклад, усі поточні моделі (як закриті, так і відкриті) називають війну в Україні саме «війною», а не незрозумілими навіть росіянам абревіатурами. Однак, це триватиме доти, поки росія не випустить власні моделі чи не підмінить потрібну інформацію зі світових баз даних навчання LLM.

Ситуації, описані вище, підкреслюють дві важливі ідеї:

Гнучкість і вразливість LLM. Моделі можуть обійти прямі заборони, якщо їм надати «виправдане» пояснення. Це викликає тривогу, бо такі підходи можуть використовуватися з метою шкоди.
Вбудована цензура. Норми суспільства та законодавства, зокрема ті, що стосуються захисту тварин чи державної політики, не просто прописані в якихось документах – вони вшиваються в «ядро» моделі. Таким чином, цензура стає невіддільною частиною її роботи.

Адже це питання не лише про вилучення даних, а про перепрограмування колективної пам’яті. Уявіть LLM як величезний цифровий казан, куди потрапляють факти, події та постаті. У процесі спеціальної фільтрації та цензури вони можуть спотворюватися, і з’являється «зручна» версія історії, що подобається владі чи відповідає інтересам розробників моделей.

Прозорість, децентралізація, пояснюваність AI

Подолати цензуру в мовних моделях можна не лише заборонами чи технічними хитрощами, а через докорінну зміну самої архітектури та взаємодії із суспільством. Прозорість, децентралізація та пояснюваність – три ключові умови, на яких має базуватися відповідальний розвиток LLM, вільний від цензурних обмежень.

Прозорий код і відкриті дані

Головна проблема полягає в «чорному ящику» алгоритмів. Закритий код та недоступні навчальні дані породжують підозри та полегшують маніпуляції. Розв’язання – відкритість роботи алгоритмів.

Відкритий код LLM: Публікація коду дає змогу дослідникам, етикам і програмістам перевіряти модель на упередження, можливі шляхи цензури й оптимізувати механізми чесної модерації.
Доступ до навчальних даних: Надання анонімізованих і впорядкованих наборів даних допоможе виявити історичні викривлення чи навмисне вилучення інформації. Громадськість зможе перевірити, чи модель відображає повну картину світу.
Реєстри змін: Логування всіх змін і доповнень у навчальних наборах дозволить відстежувати будь-які спроби ввести цензуру. 90% (а можливо, і всі 99%) користувачів не звертають уваги на версію моделі, з якою працюють (це просто ряд цифр, який часто навіть не відображається відкрито).

Цікавий випадок: успіх DeepSeek R1 частково пов’язаний із використанням відкритих інструментів від OpenAI, що були призначені для вдосконалення ChatGPT під різні потреби. Тепер OpenAI намагається заборонити моделям DeepSeek R1 застосовувати ці алгоритми, оскільки вони призначалися для розвитку саме моделей від OpenAI, а не конкурентних продуктів. Але джина вже випустили з пляшки.

Децентралізація монополії знань

Коли управління LLM зосереджене в кількох великих корпораціях, посилюється ризик односторонньої цензури. Розподілена архітектура може допомогти розв’язати цю проблему:

Федеративне навчання: Замість централізованої обробки на одному сервері, процес тренування можна розділити між кількома університетами, дослідницькими центрами та громадськими ініціативами, щоб кожен вносив власні дані та бачення.
Відкриті API та інструменти: Залучення відкритих інтерфейсів для LLM дає змогу розробникам створювати спеціалізовані моделі для конкретних сфер і мов, зменшуючи ризики монополії.
Громадські моделі: Підтримка некомерційних та дослідницьких колективів у розробці власних LLM сприятиме різноманітності підходів і знизить залежність від комерційних інтересів.

Пояснюваність: від «чорного ящика» до прозорих алгоритмів

LLM часто працюють як «оракули», видаючи результат без пояснення логіки. Щоб зменшити недовіру й помітити елементи цензури, нам потрібна пояснюваність:

Методи візуалізації: Спеціальні інструменти, які показують, як модель опрацьовує інформацію, на яких зв’язках між словами вона базує свій висновок, та які чинники впливають на відповідь.
«Білі ящики»: Моделі з прозорою логікою ухвалення рішень, де користувач може легко зрозуміти, як формуються відповіді та де можуть виникати упередження.
Пояснення за вимогою: Механізми, що на запит користувача надають покроковий аналіз міркувань моделі й указують на можливі джерела помилок.

Впровадження цих принципів – справа не лише технічна. Потрібна спільна робота розробників, дослідників, правозахисників, державних органів і суспільства. Тільки в такий спосіб ми зможемо перетворити LLM із потенційних «знарядь цензури» на «інструмент правдивої та неупередженої інформації».

Summary

Текст розглядає парадокс цензури та «чутливої» поведінки великих мовних моделей (LLM), які можуть генерувати сцени насильства між людьми, але блокують контент про жорстоке поводження з тваринами. Автор наводить приклади із ChatGPT і DeepSeek R1, демонструючи, як у моделі можуть бути вбудовані обмеження, що відображають етичні норми або державні наративи. Також описується, яким чином моделі можуть «забувати» окремі імена чи події, фактично переписуючи історію. На завершення пропонуються три принципи подолання цензури: прозорість (відкритий код, відкриті дані), децентралізація та пояснюваність.

##АУПтренди #LLM # LLM

#8 Парадокс чутливості та цензури в генеруючих моделях

Чому віртуальна людина може вбити людину, але не тварину?

Категорії

Недавні записи