Dual-Brain: как сэкономить 90% на AI без потери качества
Типичный AI-чат отправляет каждое сообщение на одну и ту же модель. “Привет” и “проанализируй мою юнит-экономику” стоят одинаково. Это как отправлять курьером и посылку, и открытку.
В AICPO работает Dual-Brain — два мозга с автоматическим переключением.
Как устроено
Быстрый мозг — Groq (Qwen3-235B). Бесплатно. Ответ за 0.5 секунды. Обрабатывает 80% сообщений: приветствия, уточнения, простые вопросы, “расскажи подробнее”.
Умный мозг — Claude через OpenRouter. Платно. Подключается только когда нужен. Сложные аналитические задачи, фрустрация пользователя, нестандартные запросы.
Переключение автоматическое. Пять триггеров:
| Триггер | Что детектирует | Пример |
|---|---|---|
| Негативный тон | Слова-маркеры фрустрации | ”это бесполезно”, “ничего не работает” |
| Стагнация | Нет новых фактов 4+ сообщений | Пользователь ходит по кругу |
| Повторы | >60% совпадение слов с предыдущими | Переспрашивает одно и то же |
| Явный запрос | Пользователь просит “подключи умную модель” | Прямая просьба |
| Техническая сложность | Intent = artifact или complex analysis | Генерация документов, deep analysis |
Деэскалация
Важный нюанс, который многие пропускают: эскалировать легко, деэскалировать — сложнее. Если пользователь разозлился, потом успокоился, а система продолжает гонять дорогую модель — экономия теряется.
Dual-Brain отслеживает нормализацию разговора. Когда тон стабилизируется и появляются новые факты — автоматически возвращается на быстрый мозг. Без уведомления пользователя — переключение незаметно.
Экономика
| Метрика | Без Dual-Brain | С Dual-Brain |
|---|---|---|
| Средняя стоимость сессии | $0.12 | $0.01 |
| Время первого ответа | 2-4 сек | 0.5 сек |
| % сообщений на дорогой модели | 100% | ~15% |
| Качество ответов | одинаковое | одинаковое |
Экономия 90% — не за счёт качества, а за счёт того, что 80% сообщений не требуют продвинутой модели.
Почему это важно для бизнеса
Когда вы строите AI-продукт, LLM-расходы — основной COGS. При 1000 активных пользователях разница между $0.12 и $0.01 за сессию — это $3300/мес. При 10 000 пользователей — $33 000/мес.
Dual-Brain — это не оптимизация. Это разница между убыточным и прибыльным AI-продуктом.
Применение за пределами чата
Принцип “дешёвая модель для рутины, дорогая для сложного” применим везде:
- Классификация — быстрая модель определяет intent, дорогая обрабатывает сложные кейсы
- Генерация — быстрая делает черновик, дорогая полирует только то, что не прошло quality check
- Мониторинг — быстрая проверяет метрики, дорогая подключается при аномалии
Это паттерн проектирования, а не фича одного продукта.