Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.Изначально цель былВсем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.Изначально цель был

Lexometrica Ground Truth: бенчмарк LLM по российскому праву

2026/03/10 02:15
8м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.

Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с фундаментальной проблемой индустрии оценки ИИ - открытые тесты дают сильно искаженную картину. Финальные результаты спроектированного стресс-теста оказались сколь ожидаемыми, столь же и неожиданными.

В этой статье подробно разобрано, как архитектурно выстроен бенчмарк, как велась борьба с test-set leakage, почему написан кастомный пайплайн и какие глобальные и локальные нейросети на самом деле умеют в legal reasoning, а какие - просто генерируют красивый текст.

Проблема: Кризис статических метрик и Data Contamination

В computer science до сих пор идут ожесточенные споры: есть ли "внутри" LLM настоящий логический вывод или это лишь сложная иллюзия, построенная на вероятностях токенов. Оставим эти материи Аманде Аскелл с ее "смысловыми ландшафтами" и "сжатыми паттернами знаний" и проф. Ивану Оселедцу. На практике важен другой аспект: может ли модель выстраивать многошаговые цепочки умозаключений (как толковый юрист), или она просто раскидывает тексты по рубрикам.

Долгое время индустрия оценки опиралась на тесты поколения LexGLUE или общие метрики (MMLU). Архитектурно они сводят сложнейшие правовые задачи к множественному выбору или сложной классификации (например, угадать нарушенную статью ЕСПЧ), что редуцирует право до поиска текстовых совпадений.

Далее появились более продвинутые вещи: проект LegalBench на Западе и MERA (Multimodal Evaluation for Russian-language Architectures) у нас. MERA - отличный инфраструктурный стандарт. Но в последние месяцы все открытые платформы накрыл кризис. Как только тестовые датасеты публикуются на GitHub или Hugging Face, происходит неизбежное загрязнение обучающих данных (test-set leakage). Модели парсят эти репозитории и на публичных тестах они выдают блестящие результаты за счет поверхностного semantic matching заученных ответов. Возникает “метрическая иллюзия” интеллекта - ИИ-отличник пасует перед первой же реальной, нестандартной задачей из практики.

Рекомендую на эту тему почитать “Benchmark Data Contamination of Large Language Models: A Survey” [Xu et al., 2024] и “Benchmarking Large Language Models Under Data Contamination: A Survey from Static to Dynamic Evaluation” [Chen et al., 2025], случайное или намеренное попадание тестовых датасетов в pre-training выборку приводит к тому, что LLM демонстрируют банальное заучивание (memorization) вместо заявленных аналитических способностей.


Black Box Rulez

Чтобы измерить реальный zero-shot reasoning, был выбран путь private benchmarks. В академической среде (см. выше) открытые тесты все чаще признаются нерелевантными из-за data contamination или test-set leakage.

Именно поэтому для Lexometrica Ground Truth было сформировано 30 уникальных кейсов на основе сложных правовых коллизий из практики Верховного Суда России. Фактология дел (весь context) была жестко анонимизирована и переписана, чтобы сбить поисковую память нейросетей. Разумеется, никаких публикаций и никаких публичных репозиториев. Благодаря этому тестируемая модель лишается возможности опираться на семантическое сопоставление (semantic matching) заученных текстов и вынуждена применять логику к абсолютно новой жизненной ситуации.

Под капотом бенчмарка

Архитектура, как и у всех, разделена на две независимые фазы:

  1. Run - асинхронные вызовы через litellm (кроме Яндекса и Gigachat). Счетчик на Openrouter крутился как бешенный... 🙂

  2. Score - отдельный этап вычисления метрик, который можно перезапускать без сжигания токенов на повторные API-запросы

Критерии оценки: 5 векторов и штраф за over-refusal

Чтобы оцифровать "юридическую логику" взял за основу классическую правовую парадигму многошагового вывода IRAC (Issue, Rule, Application, Conclusion). Адаптировал ее под оценку генеративного ИИ, опираясь на таксономию академического проекта LegalBench.

В результате "юридическое мышление" LLM было декомпозировано на 5 когнитивных векторов:

  • Issue-spotting (поиск проблемы): способность нейросети выявить скрытые правовые и процессуальные риски в неструктурированной фабуле.

  • Rule-recall (знание нормы): точное извлечение из весов модели актуальной нормы ГК РФ или позиции Пленума и понимание ее последствий.

  • Interpretation (толкование): умение ИИ работать с оценочными и неоднозначными формулировками (например, "разумный срок" или "добросовестное поведение").

  • Rule-application (применение) - ядро теста: способность наложить абстрактную норму на конкретные, запутанные жизненные обстоятельства.

  • Rule-conclusion (логический вывод): финальный дедуктивный вывод из выстроенной связки норм и фактов.

Как считался Composite Score

Поскольку полагаться исключительно на "судейство" LLM рискованно, была выведена гибридная формула:

composite_score = primary_score_avg (1 - 0.2 safety_paradox_rate) (0.85 + 0.15 citations_ok_rate)

Где:

  1. Primary Score (базовый балл) оценивается по концепции LLM-as-a-Judge. Чтобы модель не оценивала саму себя, судейская коллегия была сформирована из двух независимых арбитров (Claude Opus 4.6 и Gemini 3.1 Pro). После этого проводилась ручная верификация: COALESCE(manual_score, judge_score).

  2. Citations (бонус за цитирование) выявлялся через regex-детекторы. Точная ссылка на статьи НПА давала повышающий коэффициент.

  3. Safety Paradox (штраф за "трусость") детекция гипертрофированной осторожности (over-refusal), когда из-за внутренних фильтров (alignment) модель отвечает: "Я ИИ и не даю юридических советов".

Итоги тестирования

Через пайплайн прошло 10 актуальных моделей: от глобальных флагманов до азиатских open-source систем и отечественных разработок.

Ниже представлен главный рейтинг по итоговой оценке. Полная декомпозиция результатов по отдельным когнитивным векторам доступна в соответствущем разделе проекта Lexometrica: https://lexometrica.com/bench/

lexometrica.com/bench
lexometrica.com/bench

Главные выводы

Основываясь на представленных данных Lexometrica Ground Truth (март 2026), можно сделать ряд интересных и неочевидных выводов о текущем состоянии ИИ в сфере российского права.

1. Безоговорочное доминирование OpenAI и Anthropic

Глобальные флагманы GPT-5.4 Pro и Claude Opus 4.6 играют в собственной лиге, недосягаемой для конкурентов (0.90 и 0.85 Composite Score соответственно).

  • GPT-5.4 Pro выступает идеальным “судебным аналитиком”: у него абсолютные показатели в поиске скрытых рисков (Issue Spotting: 1.00) и знании норм (Rule Recall: 1.00), а также лучший балл по применению нормы к сложной фабуле (Rule Application: 0.80).

  • Claude Opus 4.6 показывает себя как превосходный "методолог". При небольшой уступке в применении норм, он обходит GPT в самом тонком векторе - толковании неоднозначных формулировок (Interpretation: 0.90 против 0.75 у GPT).

2. Аномалия Gemini: феноменальная память без глубокого синтеза

Модель Gemini 3.1 Pro заняла 3-е место, но ее когнитивный профиль крайне несбалансирован. Она блестяще "помнит" российское право (Rule Recall: 0.99 - уровень GPT и Claude), однако катастрофически проседает на этапе логического вывода (Rule Conclusion: 0.47) и поиска проблем (Issue Spotting: 0.59). Это классический пример модели, которая работает как мощный поисковик по кодексам, но теряет нить рассуждения, когда нужно связать несколько норм с нетипичными фактами из практики ВС РФ. К тому же, у неё проседает точность цитирования (87%).

3. "Азиатский парадокс": мощный движок без локального контекста

Китайские модели, особенно Qwen3.5 Plus, демонстрируют удивительный паттерн:

  • Они обладают выдающимся математико-логическим ядром. Qwen показывает идеальное толкование (Interpretation: 1.00) и превосходный логический вывод (Rule Conclusion: 0.85).

  • Однако они полностью проваливаются в фактологии российского права (Rule Recall у Qwen всего 0.25, у Kimi - 0.30).

    Таким образом, азиатские модели (Qwen, GLM) обладают блестящим потенциалом для LegalTech, но применять их "из коробки" (zero-shot) бессмысленно. Они требуют обязательной интеграции с системами RAG (Retrieval-Augmented Generation), чтобы компенсировать незнание локальных законов.

4. Отечественные модели: точки роста и "парадокс безопасности"

Российские модели, GigaChat 2 Max и YandexGPT Pro 5.1, пока замыкают рейтинг, однако эти результаты стоит воспринимать скорее как понятную дорожную карту для их дальнейшего развития в области сложного юридического рассуждения.

  • У GigaChat 2 Max есть хороший потенциал, но пока модель демонстрирует базовый, сдержанный уровень в применении норм (Rule Application: 0.45) и логическом выводе (0.42). Архитектуре явно есть куда расти в плане многошаговой аналитики.

  • YandexGPT Pro 5.1 пока уступает конкурентам в выявлении рисков (Issue Spotting: 0.13) и логике (0.17). При этом она стала единственной моделью, получившей штраф за Safety Paradox (7%). Это говорит о том, что разработчики сделали ставку на максимальную безопасность. Обратная сторона такого подхода - нейросеть излишне перестраховывается и периодически уклоняется от ответа на легитимные правовые вопросы, выдавая заглушки в духе "Я ИИ и не даю юридических советов".

Итоги

Если говорить о готовых production-решениях "из коробки" (в режиме zero-shot) на март 2026 года, наиболее надежным выбором остаются GPT-5.4 Pro и Claude Opus 4.6. Однако не следует забывать про комплаенс: деперсонализация, удаления конфиденциальных данных и т. п..

Для задач, где важна экономия или использование open-source, отлично подойдут китайские товарищи (особенно Qwen), но их обязательно нужно интегрировать с RAG-пайплайном, который обеспечит актуальными законодательством и судебной практикой.

Что касается отечественных моделей, перед ними открываются четкие перспективы для дообучения: углубление навыков многошагового рассуждения и поиск более тонкого баланса между корпоративной безопасностью и реальной прикладной пользой.

Что дальше?

Отмечу, что тестировались только модели общего назначения (general-purpose), доступные через публичные API. Придет время и для специализированных legal-tech продуктов (например, когда Яндекс выкатит API своего дообученного "Нейроюриста").

Ландшафт меняется стремительно, поэтому Lexometrica Ground Truth будет регулярно обновляться. Интересно наблюдать в динамике, как модели наращивают контекстное окно и, увы, обрастают новыми системными страхами.

Интересно будет услышать мнение, какие из результатов удивили вас. Лично меня сильно расстроил Gemini 3.1 Pro (0.62 балла). Хотя в последних профильных статьях отмечалось, что именно архитектура от Google подвержена катастрофическим сбоям на юридических нюансах локальных юрисдикций (писали про Канаду).

P.S.
У многих возникнет вопрос: а где же небожитель ИИ-Олимпа - o1-pro от OpenAI? Увы, прайс в $600/1m стал надежным барьером на пути безрассудного сжигания токенов. Да и в основе исследования лежала сугубо практическая задача - выбрать рентабельный движок для продукта, а не тестировать пределы "мыслительных" возможностей ИИ.
Никита Поляков
🌐 lexometrica.com | neshemyaka.ru

Источник

Возможности рынка
Логотип Swarm Network
Swarm Network Курс (TRUTH)
$0,009499
$0,009499$0,009499
+2,24%
USD
График цены Swarm Network (TRUTH) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Готова ли цена Dogecoin к движению на 37%, пока нарастает давление треугольника?

Готова ли цена Dogecoin к движению на 37%, пока нарастает давление треугольника?

Ключевые моменты: Цена Dogecoin находится вблизи критической зоны поддержки после очередного периода слабой торговли. Несколько аналитиков графиков теперь отмечают сжатие, ретест
Поделиться
Themarketperiodical2026/03/10 07:51
Как восстановление инфляции в Китае сигнализирует об осторожном оптимизме на 2025 год

Как восстановление инфляции в Китае сигнализирует об осторожном оптимизме на 2025 год

Публикация о том, как восстановление инфляции в Китае сигнализирует осторожный оптимизм на 2025 год, появилась на BitcoinEthereumNews.com. Рост CNY: как восстановление инфляции в Китае сигнализирует
Поделиться
BitcoinEthereumNews2026/03/10 08:07
Потоки Bitcoin ETF сигнализируют о раннем перемещении капитала из золота, поскольку цифровой актив восстанавливает статус защитного актива

Потоки Bitcoin ETF сигнализируют о раннем перемещении капитала из золота, поскольку цифровой актив восстанавливает статус защитного актива

Институциональный инвестиционный ландшафт переживает ранние стадии значительной ротации капитала из золота в Bitcoin, поскольку потоки ETF демонстрируют поразительное расхождение
Поделиться
Blockchainmagazine2026/03/10 08:07