[nevr]
· 8 мин чтения

Dual-Brain: как сэкономить 90% на AI без потери качества

Типичный AI-чат отправляет каждое сообщение на одну и ту же модель. “Привет” и “проанализируй мою юнит-экономику” стоят одинаково. Это как отправлять курьером и посылку, и открытку.

В AICPO работает Dual-Brain — два мозга с автоматическим переключением.

Как устроено

Быстрый мозг — Groq (Qwen3-235B). Бесплатно. Ответ за 0.5 секунды. Обрабатывает 80% сообщений: приветствия, уточнения, простые вопросы, “расскажи подробнее”.

Умный мозг — Claude через OpenRouter. Платно. Подключается только когда нужен. Сложные аналитические задачи, фрустрация пользователя, нестандартные запросы.

Переключение автоматическое. Пять триггеров:

ТриггерЧто детектируетПример
Негативный тонСлова-маркеры фрустрации”это бесполезно”, “ничего не работает”
СтагнацияНет новых фактов 4+ сообщенийПользователь ходит по кругу
Повторы>60% совпадение слов с предыдущимиПереспрашивает одно и то же
Явный запросПользователь просит “подключи умную модель”Прямая просьба
Техническая сложностьIntent = artifact или complex analysisГенерация документов, deep analysis

Деэскалация

Важный нюанс, который многие пропускают: эскалировать легко, деэскалировать — сложнее. Если пользователь разозлился, потом успокоился, а система продолжает гонять дорогую модель — экономия теряется.

Dual-Brain отслеживает нормализацию разговора. Когда тон стабилизируется и появляются новые факты — автоматически возвращается на быстрый мозг. Без уведомления пользователя — переключение незаметно.

Экономика

МетрикаБез Dual-BrainС Dual-Brain
Средняя стоимость сессии$0.12$0.01
Время первого ответа2-4 сек0.5 сек
% сообщений на дорогой модели100%~15%
Качество ответоводинаковоеодинаковое

Экономия 90% — не за счёт качества, а за счёт того, что 80% сообщений не требуют продвинутой модели.

Почему это важно для бизнеса

Когда вы строите AI-продукт, LLM-расходы — основной COGS. При 1000 активных пользователях разница между $0.12 и $0.01 за сессию — это $3300/мес. При 10 000 пользователей — $33 000/мес.

Dual-Brain — это не оптимизация. Это разница между убыточным и прибыльным AI-продуктом.

Применение за пределами чата

Принцип “дешёвая модель для рутины, дорогая для сложного” применим везде:

  • Классификация — быстрая модель определяет intent, дорогая обрабатывает сложные кейсы
  • Генерация — быстрая делает черновик, дорогая полирует только то, что не прошло quality check
  • Мониторинг — быстрая проверяет метрики, дорогая подключается при аномалии

Это паттерн проектирования, а не фича одного продукта.


Попробовать AICPO | nevr@aicpo.com