Dual-Brain: как сэкономить 90% на AI без потери качества

Типичный AI-чат отправляет каждое сообщение на одну и ту же модель. “Привет” и “проанализируй мою юнит-экономику” стоят одинаково. Это как отправлять курьером и посылку, и открытку.

В AICPO работает Dual-Brain — два мозга с автоматическим переключением.

Как устроено

Быстрый мозг — Groq (Qwen3-235B). Бесплатно. Ответ за 0.5 секунды. Обрабатывает 80% сообщений: приветствия, уточнения, простые вопросы, “расскажи подробнее”.

Умный мозг — Claude через OpenRouter. Платно. Подключается только когда нужен. Сложные аналитические задачи, фрустрация пользователя, нестандартные запросы.

Переключение автоматическое. Пять триггеров:

Триггер	Что детектирует	Пример
Негативный тон	Слова-маркеры фрустрации	”это бесполезно”, “ничего не работает”
Стагнация	Нет новых фактов 4+ сообщений	Пользователь ходит по кругу
Повторы	>60% совпадение слов с предыдущими	Переспрашивает одно и то же
Явный запрос	Пользователь просит “подключи умную модель”	Прямая просьба
Техническая сложность	Intent = artifact или complex analysis	Генерация документов, deep analysis

Деэскалация

Важный нюанс, который многие пропускают: эскалировать легко, деэскалировать — сложнее. Если пользователь разозлился, потом успокоился, а система продолжает гонять дорогую модель — экономия теряется.

Dual-Brain отслеживает нормализацию разговора. Когда тон стабилизируется и появляются новые факты — автоматически возвращается на быстрый мозг. Без уведомления пользователя — переключение незаметно.

Экономика

Метрика	Без Dual-Brain	С Dual-Brain
Средняя стоимость сессии	$0.12	$0.01
Время первого ответа	2-4 сек	0.5 сек
% сообщений на дорогой модели	100%	~15%
Качество ответов	одинаковое	одинаковое

Экономия 90% — не за счёт качества, а за счёт того, что 80% сообщений не требуют продвинутой модели.

Почему это важно для бизнеса

Когда вы строите AI-продукт, LLM-расходы — основной COGS. При 1000 активных пользователях разница между $0.12 и $0.01 за сессию — это $3300/мес. При 10 000 пользователей — $33 000/мес.

Dual-Brain — это не оптимизация. Это разница между убыточным и прибыльным AI-продуктом.

Применение за пределами чата

Принцип “дешёвая модель для рутины, дорогая для сложного” применим везде:

Классификация — быстрая модель определяет intent, дорогая обрабатывает сложные кейсы
Генерация — быстрая делает черновик, дорогая полирует только то, что не прошло quality check
Мониторинг — быстрая проверяет метрики, дорогая подключается при аномалии

Это паттерн проектирования, а не фича одного продукта.