Как работают ассистенты на базе ваших данных, как собрать базу знаний из прайсов и регламентов — и почему это меняет качество ответов бота кардинально
Большинство ботов первого касания работают на инструкции — короткий документ на 3–5 страниц, где описаны роль, алгоритм общения и ключевые ответы. Для задач первичной квалификации и передачи менеджеру этого хватает.
Но как только у бота появляется задача посложнее — продавать из каталога с сотнями позиций, отвечать на вопросы сотрудников по внутренним регламентам, консультировать по техническим деталям продукта — инструкция уже не вмещает всё нужное. Тут и появляется база знаний.
База знаний — это не просто большой промпт. Это отдельный структурированный датасет, к которому бот обращается при каждом ответе, не удерживая всё в памяти одновременно.
Работает на коротком промпте. Подходит для большинства задач первой линии.
Подключён к датасету. Нужен, когда данных больше, чем вмещает инструкция.
Принцип работы простой: перед тем как ответить, бот сканирует подключённый датасет и ищет информацию, максимально близкую к вопросу пользователя. Найденный контент он использует как основу для ответа.
Это принципиально отличается от того, как работает инструкция. Инструкцию бот «читает» перед каждым ответом целиком. Датасет он не читает — он в нём ищет. Именно поэтому база знаний может быть огромной, а инструкция — нет.
Бот не запоминает датасет наизусть. Он ищет в нём ближайший по смыслу вопрос — и отвечает на основе найденного. Поэтому формат «вопрос — ответ» в датасете работает лучше всего.
База знаний собирается из реальных документов вашего бизнеса. Это не нужно писать с нуля — скорее всего, большая часть материалов уже есть. Их нужно найти, привести в порядок и преобразовать в нужный формат.
Документы «нужна подготовка» — это не значит, что их надо переписывать. Нужно проверить, достаточно ли в них данных, нет ли двусмысленных формулировок и неполных сокращений. ИИ сам укажет на проблемы.
Датасет — это ваши документы, преобразованные в формат «вопрос — ответ» в JSON. Именно в таком виде бот работает с ними эффективнее всего. Вот как это делается по шагам.
Перед тем как преобразовывать, просим ИИ проверить документ: достаточно ли данных, нет ли пропусков, двусмысленностей, некорректных сокращений. Если это прайс — не хватает ли каких-то полей. Если регламент — нет ли нелогичных переходов или пропущенных шагов.
Просим внести предложенные правки в текст и вернуть улучшенную версию. Важно: просим не сокращать, а именно доработать. Проверяем объём — финальный документ должен быть не меньше исходного.
При работе с несколькими файлами (например, 3 разных регламента или несколько прайсов) сначала просим ИИ предложить общую архитектуру датасета. Так он поймёт, как сегментировать данные и как они связаны между собой.
По готовому (улучшенному) документу просим создать датасет в формате пар «вопрос — ответ» в JSON. Используем думающую модель. Явно указываем: не сокращать, не пропускать данные, охватить весь документ.
Готовый JSON сохраняем как текстовый файл. Загружаем в NextBot — в раздел базы знаний агента. Бот автоматически индексирует содержимое и начинает использовать его при ответах.
Казалось бы, можно просто загрузить PDF или документ Word как есть. Зачем переводить в JSON и формат вопрос-ответ?
Ответ в том, как бот ищет информацию. Когда пользователь задаёт вопрос, бот ищет в датасете ближайший по смыслу фрагмент. Если датасет — сплошной текст, поиск менее точный. Если датасет — вопросы и ответы, бот находит релевантный вопрос и даёт точный ответ на его основе.
Один хороший датасет на 20–30 страниц вопросов-ответов делает бота в разы точнее, чем большой промпт. Потому что бот не читает датасет целиком — он в нём ищет именно то, что нужно прямо сейчас.
Качество базы знаний напрямую зависит от качества исходных документов. Несколько правил, которые экономят время и улучшают результат.
PDF из сканов — ИИ не может их нормально прочитать. Нужен текстовый PDF, Word или скопированный текст. Перед загрузкой убедитесь, что текст из документа можно выделить и скопировать.
Внутренние сокращения типа «ОПТ», «РОП», «ТД-3» бот не понимает без контекста. Или расшифруйте их в документе, или попросите ИИ уточнить при проверке.
Если файлов несколько, попросите ИИ сначала предложить общую архитектуру датасета. Это сэкономит время и сделает финальный датасет логичнее.
Изображения внутри документов ИИ пытается обработать как картинки — это тратит много токенов и снижает качество результата. Текст без картинок работает лучше.
Большие документы (40+ страниц) лучше обрабатывать поэтапно: сначала проверка и улучшение, потом преобразование в датасет. Один большой запрос часто даёт сокращённый результат.
В двух видео-практиках создаём объёмный регламент с помощью Алисы AI и сразу загружаем его в NextBot для обучения ассистента.
Как создать объёмный регламент на 40–50 страниц с помощью Алисы AI — пошагово на реальном примере
Загружаем готовый датасет в NextBot — ассистент моментально начинает отвечать на основе ваших данных