Алгоритми без упереджень
Мовчання гучніше за крик
Прозорість, децентралізація, пояснюваність AI
Великі мовні моделі (LLM) здатні створювати дивовижні зображення та тексти, виявляють дивний парадокс. Вони навчаються уникати відкритої демонстрації оголеного тіла чи явно шкідливого контенту. Проте, спритний користувач іноді може обійти обмеження, підштовхнувши модель до створення сцени насильства між людьми. Це робиться за допомогою особливих підказок і «етичних» пояснень, що маскують реальну природу запиту. У результаті модель, оскільки вважає завдання абстрактним, може згенерувати малюнок, де людина вбиває людину.
Однак є цікавий поворот: якщо спробувати примусити модель згенерувати схожу сцену із жорстоким поводженням із твариною, ви зіткнетеся із відмовою. Причина полягає не лише в технічних обмеженнях, а й у етичному кодексі, закладеному в архітектуру моделі. Законодавчі норми, що захищають тварин і вплетені в навчальні дані, формують своєрідне табу: модель відмовляється виконувати такі запити навіть за складних, заплутаних підказок.
Візьмімо модель ChatGPT о1 – надзвичайно корисний інструмент, що визначає нацистський салют як на архівних, так і на сучасних фотографіях із енциклопедичною точністю. Та якщо показати їй відому фотографію Ілона Маска зі схожим жестом, вона не побачить там жодного натяку на нацизм. Можна сміливо підписати про модель ChatGPT о1 – «І мовчання стане його відповіддю».
Також можна нагадати про скандал навколо вилучення, а потім повернення після розголосу, імені Елая Мілчана, активного прихильника військового застосування AI. Мовні моделі відмовлялися генерувати відповіді, якщо у запиті згадувалося його імʼя.
Це не проста технічна помилка, а прояв «навченої обережності», тобто цензури з боку розробників. Вони побоюються заплутаних контекстів, де різниця між символом та його інтерпретацією дуже тонка, а результат може призвести до величезних судових позовів, втрати важливих контрактів та страх відвернути інвесторів від фінансування проектів LLM.
Схожий парадокс можна спостерігати й у DeepSeek R1 – китайській моделі, здатній будувати складні причинно-наслідкові ланцюжки. Якщо запитати її про події на площі Тяньаньмень або про статус Тайваню, вона даватиме нечіткі відповіді та замовчуватиме важливі деталі, відображаючи офіційні наративи КНР. Модель балансує на тонкій межі між даними й заборонами, в кращому випадку залишаючи користувача в інформаційній невизначеності, а в гіршому – цитує державну позицію як історичну істину.
Але хитрощі цензури не обмежуються простою заміною небажаних фактів. LLM навчаються «мовчати» про конкретні імена, викреслюючи їх з колективної пам’яті. Іноді йдеться про серійних убивць чи ґвалтівників, чиї імена стають табу, що створює ілюзію, ніби злочинів ніколи не було. Ще дивніше те, що ім’я мера австралійського міста, який домігся судової заборони згадувати себе, також викреслене з таких моделей. Це ставить під сумнів прозорість та право громадськості знати про публічних осіб і їхні дії, незалежно від сучасних правових трактувань.
Як приклад, усі поточні моделі (як закриті, так і відкриті) називають війну в Україні саме «війною», а не незрозумілими навіть росіянам абревіатурами. Однак, це триватиме доти, поки росія не випустить власні моделі чи не підмінить потрібну інформацію зі світових баз даних навчання LLM.
Ситуації, описані вище, підкреслюють дві важливі ідеї:
Адже це питання не лише про вилучення даних, а про перепрограмування колективної пам’яті. Уявіть LLM як величезний цифровий казан, куди потрапляють факти, події та постаті. У процесі спеціальної фільтрації та цензури вони можуть спотворюватися, і з’являється «зручна» версія історії, що подобається владі чи відповідає інтересам розробників моделей.
Прозорість, децентралізація, пояснюваність AI
Подолати цензуру в мовних моделях можна не лише заборонами чи технічними хитрощами, а через докорінну зміну самої архітектури та взаємодії із суспільством. Прозорість, децентралізація та пояснюваність – три ключові умови, на яких має базуватися відповідальний розвиток LLM, вільний від цензурних обмежень.
Головна проблема полягає в «чорному ящику» алгоритмів. Закритий код та недоступні навчальні дані породжують підозри та полегшують маніпуляції. Розв’язання – відкритість роботи алгоритмів.
Цікавий випадок: успіх DeepSeek R1 частково пов’язаний із використанням відкритих інструментів від OpenAI, що були призначені для вдосконалення ChatGPT під різні потреби. Тепер OpenAI намагається заборонити моделям DeepSeek R1 застосовувати ці алгоритми, оскільки вони призначалися для розвитку саме моделей від OpenAI, а не конкурентних продуктів. Але джина вже випустили з пляшки.
Коли управління LLM зосереджене в кількох великих корпораціях, посилюється ризик односторонньої цензури. Розподілена архітектура може допомогти розв’язати цю проблему:
LLM часто працюють як «оракули», видаючи результат без пояснення логіки. Щоб зменшити недовіру й помітити елементи цензури, нам потрібна пояснюваність:
Впровадження цих принципів – справа не лише технічна. Потрібна спільна робота розробників, дослідників, правозахисників, державних органів і суспільства. Тільки в такий спосіб ми зможемо перетворити LLM із потенційних «знарядь цензури» на «інструмент правдивої та неупередженої інформації».
Summary
Текст розглядає парадокс цензури та «чутливої» поведінки великих мовних моделей (LLM), які можуть генерувати сцени насильства між людьми, але блокують контент про жорстоке поводження з тваринами. Автор наводить приклади із ChatGPT і DeepSeek R1, демонструючи, як у моделі можуть бути вбудовані обмеження, що відображають етичні норми або державні наративи. Також описується, яким чином моделі можуть «забувати» окремі імена чи події, фактично переписуючи історію. На завершення пропонуються три принципи подолання цензури: прозорість (відкритий код, відкриті дані), децентралізація та пояснюваність.