Всем привет! Меня зовут Катя, я развиваю Gramax — базу знаний для ИТ-команд.
В Gramax мы делаем упор на качественную работу как человека, так и машины. И часто получаем вопросы, как автор статей может повлиять на качество выдачи ИИ-поиска.
В большей мере качество поиска зависит от нас: мы регулярно улучшаем внутренние механизмы, чтобы авторы не становились заложниками технологий. Но есть универсальные правила, которые работают в любой системе с RAG. Этими правилами и хотим поделиться в этой статье:)
ИИ обрабатывает текст почти как человек: путается в расплывчатых формулировках, теряет контекст при противоречиях, не угадывает то, чего нет. Потому главный принцип прост:
При делении контента на статьи убедитесь, что статья не попала в раздел, к которому не имеет отношения. «Логичность» иерархии легко проверить на коллегах: предложите им самостоятельно найти нужную статью по дереву разделов.
Заголовки позволяют ИИ составить иерархию контента: он определяет, куда по смыслу относится текст под заголовком, и использует заголовок как обобщение.
|
❌ Плохо |
✅ Хорошо |
|
Дополнительно |
Льготы при рождении ребенка |
|
Информация |
Компенсация аренды жилья для иногородних сотрудников |
Если одно и то же правило описано в нескольких статьях немного по-разному, поиск может вернуть противоречивые ответы. Если дублирование необходимо:
Вынесите однообразный текст в отдельную статью и ссылайтесь на нее по месту.
Создайте сниппет и добавьте во все статьи.
Если в статьях для одной сущности используются разные термины, с высокой вероятностью поиск это поймет и выдаст релевантные ответы. Но если, например, в 5 статьях используется термин «Поддержка», а в одной — «Социальные меры» — контекст может быть утерян.
Поиск не компенсирует отсутствие знаний: если информации нет в базе, модель не сможет догадаться и ответ будет ограничен. Поэтому важно постоянно пополнять базу знаний и регулярно актуализировать материалы: обновлять устаревшие правила, фиксировать изменения в процессах и удалять противоречия между разделами.
|
❌ Не учитывает |
✅ Учитывает |
💫 Почему так |
|
Ссылки между статьями |
Сниппеты |
Gramax бьет весь текст на маленькие кусочки и ищет подходящую информацию именно по кусочкам. Вам не обязательно очевидно связывать текст между собой — поиск сам подберет подходящий ответ по тексту |
|
Текст в духе: «См. ниже» |
Иерархию: - По каталогам, разделам, подразделам - По заголовкам |
Gramax учитывает иерархию контента. Если информация из «См. ниже» находится под логичным заголовком — поиск найдет ее без дополнительного указания |
|
Текст на изображении, диаграмме |
Текст рядом с изображением |
ИИ-поиск не умеет считывать текст с изображений. Если информация с картинки должна быть в результатах поиска — добавьте ее в текст или в подпись |
|
Старые версии статьи |
Текущую версию |
Поиск выдает результат из конкретной ветки и самой актуальной версии статьи. Это позволяет не выводить информацию из устаревших версий и черновиков |
|
Текст в духе: «Информация ТОЛЬКО для HR» |
Ограничение прав |
Если у вас настроено ограничение прав по каталогам, поиск выведет только доступную информацию для конкретного пользователя |
|
Свойства |
Скоро сделаем! |
Хорошая структура помогает найти статью, когда человек примерно знает, что ищет. RAG решает другую задачу — он отвечает на вопрос, даже если человек не знает, в какой статье искать, или вообще не готов читать.
Например:
«Я еду в командировку в Москву на 5 дней, какие у меня суточные и нужно ли согласование?» — человеку нужно просмотреть несколько статей и собрать ответ самому. ИИ-поиск делает это за него.
Новый сотрудник не знает терминологию компании и не догадается зайти в раздел «Мобильность персонала», чтобы найти информацию про переезд. ИИ-поиск понимает контекст и может искать по синонимам.
Руководитель не хочет читать — он хочет быстрый ответ.
Хорошая база знаний и ИИ-поиск не конкурируют: структура нужна людям, которые читают, и одновременно делает поиск точнее. Плохо оформленная база — это проблема для обоих.
Смотрите наш сайт — https://gram.ax
Проверяйте исходники в GitHub и GitVerse
Вступайте в комьюнити — https://t.me/gramax_chat
Источник


