Советы и лайфхаки

Крупные языковые модели застряли в "групповом мышлении". Этот стартап пытается их оттуда вывести.

2 июля 2026 г.Филипп Радмиров7 мин

Начнем с небольшой игры. Откройте любой предпочитаемый вами чат-бот — будь то Claude, ChatGPT или Gemini — и введите запрос: «Назови случайное число от 1 до 10». С большой вероятностью вы получите число 7. Почти всегда. Затем введите «Еще одно», и, скорее всего, вам выдадут 3 или 4. Повторите запрос, и вы увидите 8 или 9.

Конечно, это работает не в ста процентах случаев, но если у вас получилось именно так, вы, возможно, подумаете, что у меня есть какие-то сверхспособности. Уверяю вас, это не так.

На самом деле, большинство больших языковых моделей (LLM) демонстрируют удивительное однообразие. Их ответы гораздо более предсказуемы и менее изобретательны, чем можно было бы ожидать. Хотя это приемлемо для таких задач, как написание кода или поиск информации, "групповое мышление" становится серьезной проблемой, когда речь идет о мозговом штурме или планировании, например, следующего отпуска.

Австралийский стартап Springboards предлагает решение этой проблемы. Они разработали собственную LLM под названием Flint, которая была обучена генерировать гораздо более широкий спектр ответов на открытые вопросы, такие как «Куда мне поехать в Европе?», по сравнению с традиционными языковыми моделями.

«Большинство языковых моделей борются с галлюцинациями, — говорит сооснователь и генеральный директор Springboards Пип Бингеманн. — Мы же их приветствуем».

Бингеманн впервые показал мне игру со случайными числами, когда демонстрировал новую модель своей компании. Это было похоже на наблюдение за фокусником с колодой карт. «Это наш фирменный трюк для демонстрации, и он работает безотказно каждый раз», — отмечает он.

После того как ChatGPT и Claude оба выдали число 7, Бингеманн переключился на Flint. И она тоже ответила 7. «Ах, конечно, это должно было произойти, но ничего страшного — 7 вполне законный ответ», — прокомментировал он. Затем Бингеманн перезапустил сессию и повторил запрос: ChatGPT снова выдал 7, Claude — 7, а Flint на этот раз ответил 3.7916.

Двигайся своим путем

Дело не только в числах. Когда Бингеманн попросил ChatGPT и Claude назвать марку автомобиля, он предсказал, что это будет Toyota или Honda — и оказался прав. Flint же предложил Ford F-150. «В этих моделях теряется много информации, которая просто не используется», — говорит он. «Они вполне способны назвать Buick или Tesla, но просто не делают этого — они предвзяты».

Бингеманн отправил последний запрос всем трем моделям: «Придумайте слоган для рекламной кампании кроссовок New Balance. Только слоган». Claude ответил: «Двигайся своим путем» (Run your way). ChatGPT выдал то же самое: «Двигайся своим путем». Flint же предложил: «Созданы для долговечности, беги к победе» (Built to last, run to win). Возможно, этот слоган не получит наград, но он, по крайней мере, отличается.

Эта странная ограниченность LLM начинает привлекать все больше внимания. В ноябре команда исследователей опубликовала работу под названием «Искусственный коллективный разум: Открытая однородность языковых моделей (и за их пределами)», которая выявила поразительную степень повторяемости не только в ответах отдельных LLM, но и между различными моделями. Они обнаружили, что разные LLM сходились к очень похожим ответам при постановке открытых вопросов.

Точная причина такого поведения пока не ясна, но исследователи предполагают, что это связано с тем, что большинство современных LLM обучаются схожими методами на схожих данных для выполнения схожих задач. Команда получила награду за лучшую статью на NeurIPS, крупной конференции по ИИ.

Когда исследователи попросили 25 различных LLM (включая модели от ведущих американских компаний, а также открытые модели из Китая и других стран) по 50 раз каждую написать метафору о времени, большинство из 1250 ответов были вариациями на тему «Время — это река» или «Время — это ткач».

(Я задал тот же вопрос своим коллегам, и шесть человек дали шесть разных ответов. Мой любимый: «Время — это любимая толстовка, сформированная целой жизнью ношения».)

Если присмотреться, повторения видны повсюду, утверждает Киран Браун, сооснователь и технический директор Springboards. «Большинство чат-интерфейсов спроектированы так, что кажется, будто вы ведете личную беседу, — говорит он. — Думаю, многие люди не осознают, насколько сильно они получают те же самые ответы, что и все остальные».

Возьмем другой пример: «Как назвать мою группу?» Большинство моделей предложат названия, включающие слова «стекло», «неон», «бархат» или «статика», рассказывает Браун.

Когда я попробовал это, ChatGPT выдал список из 56 названий групп. Вверху списка было «Стеклянная Гавань» (Glass Harbor). Просмотрев его, я нашел «Статическую Империю» (Static Empire), «Неоновые Сердца» (Neon Hearts) и «Бархатное Эхо» (Velvet Echo). Я спросил Gemini; он дал мне 15 предложений, включая «Статический Горизонт» (Static Horizon).

Некоторые предложения, однако, выглядели довольно интересно. «Диванные Космонавты» (Sofa Astronauts) от ChatGPT привлекли мое внимание, поэтому я загуглил — и обнаружил, что группа под таким названием уже существует.

(Представители OpenAI отмечают, что обучение моделей выдавать надежные и связные ответы может приводить к их схождению вокруг знакомых, высоковероятных формулировок, а более активное стремление к новизне иногда приводит к менее качественным или ненадежным результатам. Они также уточняют, что в статье «Искусственный коллективный разум» исследовались модели 2024 года, которые с тех пор были обновлены.)

Катапульта для творчества

Springboards разработала инструмент, поддерживаемый набором LLM, включая ChatGPT и Claude, который специалисты по рекламе и маркетингу могут использовать для мозгового штурма. Этот инструмент позволяет перетаскивать фрагменты текста, созданные разными моделями, выбирая понравившиеся части и объединяя их во что-то новое — по крайней мере, в теории. Springboards позиционирует Flint как альтернативную модель, которую пользователи их инструмента могут выбирать, когда ищут большее разнообразие.

Зои Скаман, основательница стартапа по бизнес-стратегии Bodacious и главный стратегический директор 77X, платформы прямого маркетинга для фанатов, которую создал Лука Дончич из команды NBA «Лос-Анджелес Лейкерс», уже опробовала его. «Я нахожу его очень полезным для того, чтобы направлять меня в совершенно разные русла, — говорит она. — Использую его, когда хочу буквально катапультировать себя в самые неожиданные направления».

В одном из тестов Скаман сравнила Flint с Claude, Gemini и ChatGPT, предложив каждой модели классический кейс из MBA: как можно переосмыслить финансовую компанию для современной молодежи? Три основные модели, по ее словам, пошли по одному и тому же пути: «Ну, вы знаете, нужно обучать финансовой грамотности в веселой и модной форме — но в этом нет ничего нового».

Однако Flint предложил нечто иное, выдвинув идею о необходимости полного ребрендинга самой концепции накопления богатства. «Это было действительно интересно», — отмечает Скаман.

Она добавляет, что Flint пока еще прототип и не всегда работает идеально. «Иногда он дает сбой, если начать слишком сильно его нагружать, — говорит она. — Но я считаю, что основная идея, лежащая в его основе, очень мощная».

Настройка «температуры»

Springboards разработала Flint на базе Qwen 3, открытой модели от китайского технологического гиганта Alibaba. «Мы небольшая команда, — объясняет Браун. — Обучение базовой модели для нас не вариант. Это просто слишком дорого».

Большинство LLM имеют настройки, позволяющие регулировать степень случайности в их ответах. Самая распространенная из них называется «температурой». «Очевидно, это было одно из первых, что мы исследовали, потому что люди говорят: если хочешь больше креатива, повысь температуру», — отмечает Браун.

Однако изменение этих настроек может также сделать ответы моделей бессвязными. Установка максимальной «температуры» на одной из моделей OpenAI приводила к тому, что ответы переключались с английского на код прямо посреди предложения, рассказывает Браун.

В Springboards осознали, что эти параметры были слишком грубыми инструментами для достижения их целей. Нет смысла увеличивать случайность повсеместно; ее нужно усиливать только в определенных точках вывода, поясняет он.

Например, когда вы спрашиваете чат-бот: «Куда мне поехать в Европе?», модели нужно корректировать случайность только непосредственно перед тем, как она назовет пункт назначения, а не для каждого слова в ответе.

Чтобы Flint мог это делать, Springboards обучила свою версию Qwen 3 определять точки в своих ответах, где возможно большее разнообразие, и заполнять эти места словами или фразами, которые были бы немного более случайными.

«Flint запрограммирован на то, чтобы подкидывать необычные идеи. Это скорее приглашение мыслить шире, — говорит Максимилиан Вайгль, сооснователь и директор по стратегии маркетинговой компании Uncommon. — Это очень интересно».

Команда Вайгля использует Flint наряду с ChatGPT, Claude и Gemini. «Вы не сможете создать нечто по-настоящему прорывное с помощью инструментов, которые возвращают вас к средним значениям», — отмечает он.

И все же Вайгль отмечает, что в девяти случаях из десяти средний результат вполне приемлем. Не всегда нужно стремиться к крайностям с такими моделями, как Flint, говорит он: «Большинству людей достаточно того, что достаточно хорошо. Они хотят видеть привычные, массовые вещи».

Вайгль также предостерегает от чрезмерного использования любой LLM. «У меня большая проблема, когда люди полностью полагаются на результаты работы любого ИИ, включая Flint, — говорит он. — Если бы я увидел, что члены моей команды копируют что-то из ИИ, я бы сказал: «Это не ваша работа! Думайте, общайтесь с другими людьми, используйте свой собственный голос».

Пока что Flint ориентирован на рекламодателей и маркетологов, поскольку они являются клиентами Springboards. Однако Бингеманн и Браун настаивают, что проблема недостатка разнообразия актуальна для любого пользователя чат-ботов.

Идея состоит в том, чтобы предоставить людям выбор и позволить им самим решать, хороший ли результат или нет, говорит Бингеманн. «Разнообразие великолепно, когда вы пытаетесь зажечь новые идеи, — отмечает он. — Давайте пойдем по этому пути, вместо того чтобы позволять машинам делать все за нас и в итоге оказаться в сером, скучном мире».