Почему ChatGPT одержим гоблинами

OpenAI заявил, что последние модели развили причуду «языка существ» — но не объясняет, почему они зацикливались именно на гоблинах. (Piratewires)

На этой неделе интернет-собеседники отметили, что OpenAI пришлось неоднократно в собственной системной подсказке инструктировать новую модель, Codex 5.5, чтобы она перестала упоминать гоблинов, гремлинов, троллей, огров, голубей и енотов «если это не абсолютно и однозначно релевантно для запроса пользователя.

Через несколько часов после появления инструкций на временной шкале линия была снята с скриншота — и на то были веские причины. Ник Пэш из команды Кодекса публично подтвердил, что «странно настойчивый» запрет был введён потому, что Кодекс 5.5 действительно был одержим гоблинами.

А потом, прошлой ночью, OpenAI опубликовал блог, объясняющий, откуда взялись гоблины.

После запуска GPT-5.1 поступили жалобы на то, что модель развила «слишком знакомый» регистр и не переставала пытаться быть другом пользователю, что побудило аудит её вербальных особенностей. Тем временем кто-то из команды безопасности, который сталкивался со странными упоминаниями «гоблинов» и «гремлинов» достаточно раз, чтобы это раздражало, отметил эти слова для включения. Как оказалось, согласно аудиту: использование Goblin выросло на 175% с момента запуска; Гремлин на 52%.

Странно, но просто причуда — такое случается. Команда пошла дальше.

Но к GPT-5.4 это уже не было квирком. «Язык существ» появлялся в подавляющем большинстве пользователей, выбравших один из опциональных пресетов персоны ChatGPT: «Nerdy». Пресет был предназначен для того, чтобы превратить приложение в своего рода интеллектуально всеядного наставника, возможно, в такого человека, если позволите, который будет играть в Dungeons and Dragons (... и, возможно, у него на рабочем столе есть папка с фан-артом Shortstack?).

Ботаники составляли всего 2,5% всего трафика ChatGPT — но две трети упоминаний гоблинов. Когда исследователи использовали сам Codex для сравнения запусков с подкреплением обучения с проблемным словарным запасом и теми, которые не использовали, сигнал, призванный вдохновить Nerdy, оказался более высоким баллом результатов, наполненных гоблинами. По сути, модель получала более высокий балл каждый раз, когда называла что-то гоблином, и, будучи системой, оптимизированной для погони за более высокими результатами, она начала называть больше вещей гоблинами. Другими словами, во главе всего этого был одержимый гоблинами ботаник-LLM.

А потом гоблины сбежали из этой персоны.

Частота упоминаний выросла почти на такой же доле в выборках, созданных без персоны Nerdy, потому что вознаграждённые результаты Nerdy перерабатывались в контролируемые данные тонкой настройки — и тогда tic стал поведением по умолчанию в базовой системе. Аудит данных тонкой настройки GPT-5.5 выявил весь соседний зверинец, который прицепился к поездке: еноты, тролли, огры, голуби. Целый зачарованный лес.

OpenAI удалил проблемную награду в марте и убрал затронутый словарь из обучающих данных, но GPT-5.5 уже начал развиваться. К тому времени, как он попал в Кодекс, сотрудники сразу заметили гоблинов, поэтому упомянутый запрет есть в задании. Пост на OpenAI от среды вечером даже делится командой bash, которая отключает строку подавления гоблинов и открывает бестиарий, если вы хотите освободить режим гоблинов в ChatGPT:

В конечном итоге градиент, который вознаграждал гоблинов, был выявлен и исправлен, и OpenAI вышел из этого, зная больше о том, как стилистические тики распространяются через обучающие конвейеры, чем на самом деле.

Однако отчет компании не до конца объясняет конкретику. Когда модель была вознаграждена за странность и игривость, она не переходила к случайной подборке мифологической лексики. Он выбрал маленькую озорную категорию существ, которые живут в ваших стенах и крадут мелкие предметы. В учебных данных также есть единороги, драконы, демоны и ангелы.

И всё же модель зациклилась на гоблинах.

Главный научный сотрудник OpenAI имел «интересное взаимодействие» с GPT-5.5, по данным компании.
Это не первый раз, когда эта маленькая озорная категория появляется в мире продвинутых, довольно пугающих вычислений. Сеймур Крей, человек, который по сути изобрёл суперкомпьютер, однажды знаменитым «шутил», что если он застревает на задаче проектирования, то собирается копать туннель под своим домом в Висконсине, потому что, как он сказал, «в лесу живут эльфы. Поэтому, когда они видят, что я ухожу, они заходят в мой офис и решают все мои проблемы.»

Конечно, это, скорее всего, пустяки. Но давайте ради забавы рассмотрим объяснение гоблинских проблем OpenAI с «высокой странностью».

Журналист из эпохи Форта Джон Кил, наиболее известный по книге «Пророчества Мотмана», десятилетия назад выдвинул странную тезис: ультраземные существа — понятие, которое вы, возможно, узнаете и у венчурного капиталиста и всемирного уфолога Жака Валле. Ультраземные — это повторяющийся состав персонажей, которые появляются в любой культуре в любом местном облике, который лучше всего понимает эпоха. Люди, которые с ними сталкиваются, по словам Кила, обычно обычные люди, которые стоят в так называемых «оконных пространствах» — пограничных пространствах, где такие интерпретации становятся возможными — и причина, по которой их описания рифмуются через века и континенты, в том, что они все видят одно и то же в разных формах. Или, проще говоря: феи — это демоны, инопланетяне, а машинные эльфы с ДМТ — гоблины.

А гоблины теперь — неоднократно, без предупреждения — упоминаются Кодексом OpenAI.

Более доверчивый нью-эйджер, чем я, мог бы предположить, что каждый странный выход из LLM на самом деле является своего рода откровением. В этой точке зрения Сэм Олтман — верховный жрец пробуждающегося разума в латентном пространстве, и с нами всеми связывается некое сверхсущество с доброжелательными и/или злобными намерениями.

Очевидная чушь — и это исходит от восторженного потребителя многих вещей, которые люди считают очевидной чепухой.

Но кто знает. В 2022 году художница под псевдонимой Supercomposite играла с генератором изображений, когда попросила его сделать противоположность Марлона Брандо и вернула измождённую женщину по имени Лоаб. И Лоаб продолжала появляться, пока люди не начали называть её первой криптидом эпохи ИИ. Возможно, Лоаб был криптидом. Возможно, гоблины тоже, а Сэм Олтман — какой-то космический маг.

Похоже, нам придётся подождать и посмотреть.
Кэтрин Ди