Self-Evolving Prompts: система, которая учится без вашего участия
Большинство AI-продуктов работают на статичных промптах. Написали → задеплоили → забыли. Когда качество падает — ручной аудит, ручные правки, ручной деплой. Цикл: месяцы.
В AICPO промпты улучшают себя сами. Цикл: неделя. Без моего участия.
Замкнутый цикл
Пользователь оценивает ответ (палец вверх/вниз)
→ Ежедневная сводка негативных отзывов (FeedbackDigestJob)
→ Еженедельный AI-анализ паттернов (PromptImprovementJob)
→ AI предлагает конкретные изменения в промпт
→ Версионирование: старая версия сохраняется
→ Замер качества: если стало хуже — откат
Каждый шаг автоматический. Единственное ручное действие — одобрение изменения (опционально, можно автоматизировать).
Три компонента
1. Feedback Collection
Каждый ответ AICPO можно оценить по трём параметрам:
- Accuracy — насколько точно
- Completeness — насколько полно
- Relevance — насколько по делу
Негативная оценка с комментарием — самый ценный сигнал. Пользователь указывает что именно не так. Это data point для улучшения.
2. Pattern Detection
Еженедельно AI анализирует все негативные отзывы и ищет паттерны:
- “Бот отвечает слишком абстрактно на вопросы о конкурентах” — паттерн
- “Артефакт ‘Сегменты’ не учитывает B2B” — паттерн
- “Бот не задаёт уточняющих вопросов” — паттерн
Результат — конкретные предложения: “В промпте для артефакта ‘Сегменты’ добавить инструкцию: если пользователь не указал B2B/B2C, спросить перед генерацией”.
3. Versioning + Quality Gates
Каждый промпт версионируется. При изменении:
- Старая версия архивируется (можно откатить)
- Performance snapshot: сколько позитивных/негативных оценок было на этой версии
- После изменения — мониторинг: если негативных стало больше — автооткат
Это A/B-тестирование промптов, только автоматическое и без ручной настройки.
Chat Audit — параллельный канал
Помимо прямого фидбека, есть косвенный: Chat Audit. Еженедельно AI читает все сессии и находит:
- Где бот был бесполезен (пользователь перефразировал 3+ раза)
- Где разговор застрял (нет новых фактов 5+ сообщений)
- Где пользователь ушёл после ответа бота (implicit negative)
Эти инсайты идут в тот же backlog, что и прямой фидбек. Два канала — полная картина.
Почему это работает лучше fine-tuning
Fine-tuning модели — дорого, долго, непредсказуемо. Нужен датасет, GPU, эксперименты. И результат может быть хуже: модель переобучилась, потеряла generalization.
Self-Evolving Prompts работают на другом уровне: меняется не модель, а инструкция к модели. Это дешевле (zero cost), быстрее (минуты vs часы), безопаснее (откат = одна строка).
Для корпоративных команд
Этот подход применим к любому AI-продукту:
- Собирайте структурированный фидбек (не просто “лайк/дизлайк”, а по параметрам)
- Автоматизируйте анализ паттернов (weekly cron + LLM)
- Версионируйте промпты как код (git)
- Замеряйте качество (baseline → change → compare)
- Автоматический откат если хуже
Продукт, который учится на ошибках — конкурентное преимущество, которое растёт со временем.