В Лаборатории искусственного интеллекта «Финама» мы изучаем и развиваем применение ИИ в домене финансов: от бенчмаркинга LLM до прикладных сценариев в трейдинге и управлении рисками. Сегодня хотим поделиться с вами нашим исследовательским проектом.
В последнее время мы все чаще встречаем новости вроде “ИИ от OpenAI взял «золото» Международной олимпиады по информатике”. Главное преимущество такого формата оценки — уверенность, что задания оригинальные и что, при обучении модели они не встречались в идентичном виде.
Наша лаборатория поставила себе задачу узнать — насколько обширны знания LLM в области экономики, финансов и трейдинга. Вначале мы тестировали модели на открытых Question Answering (QA) бенчмарках (FinQA, ConvFinQA, TATQA), но столкнулись с несоответствием результатов на бенчмарках и в реальном hands-on тестировании.
В результате мы пришли к идее использовать для оценки LLM форматы, близкие к существующим сертификационным экзаменам, которые сдают инвесторы для подтверждения своей квалификации CFA-like Level 1, 2, 3 (Chartered Financial Analyst) и CMT-like Level 2 (Chartered Market Technician).
Для проверки того, знают ли модели специфику российского рынка, мы собрали бенчмарк на основе олимпиады «Высшая лига» по трекам «Финансы и инвестиции» и «Мировая экономика».
В открытом доступе (GitHub) опубликованы не только результаты наших замеров, но и единый фреймворк, поддерживающий как наши новые бенчмарки, так и уже существующие. Надеемся, это поможет развитию LLM4Trading!
CFA--like Level 1, 2, 3 - Искали на просторах интернета доступные dumps. Ряд вопросов вытаскивали из книг, аугментировали несколькими моделями:
○ генерация вариантов на основании реальных примеров, как референса, и новой информации на которой будет базироваться вопрос (q) (модель 1)
○ выбор лучшего варианта (n_q) - голосованием (модель 2, 3, 4)
○ попытка восстановить общие характеристики из n_q и q. Вопрос отбирается если перекрытие по всем параметрам 0.9
CMT-like Level 2 - аналогично CFA-like Level 1, 2, 3
Trading_TA - формирование вопросов на основании книг по техническому анализу, использовали всё, что доступно: тест глав и формирование вопросов к ним; задания после глав с ответами на них (вопрос и ответ из различных источников); вопросы и ответы авторов изданий;
Trading_Derivatives - основан на заданиях из книги John C. Hull — Options, Futures and Other Derivatives. В качестве gold_answer взяты авторские ответы на данные задания.
VLigaBench‑ru - все задания взяты из открытых олимпиадных заданий «Высшая лига» по трекам «Финансы и инвестиции» и «Мировая экономика».
Базовые существующие финансовые бенчмарки:
○ FinQA — арифметика по отчетности и текст‑табличным данным; 1147 вопросов; есть chain‑of‑thought и точные формулы.
○ ConvFinQA — то же, но в диалоговом формате; 420 диалогов, 1488 вопросов.
○ TATQA — интеграция текста и таблиц; 1668 вопросов.
Новые собранные нами наборы (экзамены и трейдинг):
○ CFA-like Level 1 — базовые дисциплины (этика, экономика, учет, инвестиции); 1069 вопросов; MCQ.
○ CFA-like Level 2 — продвинутые кейсы и многошаговые расчёты; 293 вопроса.
○ CFA-like Level 3 — портфельные стратегии, риск‑менеджмент, этика; 318 вопросов.
○ CMT-like Level 2 — технический анализ, индикаторы, риск, статистика; 251 вопрос.
○ VLigaBench‑ru — русскоязычные олимпиадные задачи по экономике и финансам; 324 задачи.
○ Trading_TA — паттерны, моментум, правила входа, оптимизация систем; 413 заданий.
○ Trading_Derivatives — опционы, арбитраж, синтетика; 544 задания; формульные ответы.
Explainability и RAG:
○ FinDER — многошаговое рассуждение по документам с обязательными обоснованиями; 2837 вопросов.
○ FinDER_RAG — та же постановка с retrieval‑augmented generation (проверяем привязку к источникам).
Мы решили воспользоваться параметрами, рекомендованными авторами моделей (в тех случаях, когда они были указаны)
Чаще всего использовали сервис openrouter для больших и закрытых моделей. Но часть моделей запускали локально через vLLM и проводили замеры (например для Fin-o1-8B, Fin-R1 и др.). При локальных замерах, по возможности старались явно контролировать режим рассуждений моделей, также усиливали данный эффект sys-prompt.
Все оценки проводили с помощью судьи, в нашем случае судьей всегда выступала openai/gpt-4.1. Промпты для оценки были зафиксированы в самом начале, их явно можно улучшить, но это будущие шаги. Паттерны предшествующие вопросам также для всех моделей статичны.
Для каждого домена задан свой набор метрик (например, exams_like, trading и т.д.). Ранжирование внутри домена устроено так:
Фильтрация по NaN
В доменный рейтинг попадают только модели, у которых заполнены все метрики домена.
Если по хотя бы одной метрике домена значение NaN, модель из этого доменного рейтинга исключается.
Ранги по отдельным метрикам
Для каждой метрики домена модели сортируются по убыванию значения (чем выше — тем лучше), и считается ранг: ранг 1 — лучшая модель по данной метрике.
Средний ранг по домену
Для каждой модели считаем средний ранг по всем метрикам домена
Финальный ранг модели в домене
Модели сортируются по domain_avg_rank (меньше — лучше) и получают финальный ранг
domain_rank_public_benchs
exams_like_rank
trading_rank
Интегральный рейтинг: exams_like + trading
Интегральный рейтинг объединяет два домена:
exams_like_rank,
traiding_rank.
Построение идет в несколько шагов.
Пересечение моделей
В интегральный рейтинг попадают только модели, которые присутствуют одновременно в обоих доменных рейтингах (inner join по model). То есть по ним есть полный набор метрик и в exams_like, и в trading.
Нормировка доменных рангов
Доменные ранги переводятся в шкалу [0,1] через min-max нормализацию. Далее вычисляется среднее значения нормализованных рангов внутри доменов. Этот шаг необходим для увеличения устойчивости к разному число моделей, которые были замерены внутри доменов.
Интегральный нормированный скор
Модели сортируются по integrated_norm_score (меньше — лучше) и получают финальный ранг.
integrated_rank_exams_trading
gpt‑5 — специализация на практических задачах
gpt‑5 демонстрирует нетипичный профиль: не лидирует на классических FinQA/TATQA (там впереди Qwen/GLM/gpt‑4.1), но уверенно доминирует на практико‑ориентированных экзаменах (CFA-like/CMT-like), русскоязычных задачах (VLigaBench-ru) и особенно на трейдинговых наборах (Trading_TA/Derivatives).
gpt‑5.2 — новый лидер универсальности
gpt‑5.2 показывает качественный скачок относительно предшественника (gpt-5), он занимает 1-е место в рейтинге по классическим бенчмаркам (public_benchs) и 2-е место в рейтингах по экзаменам (exams_like) и трейдингу. Модель демонстрирует сбалансированную производительность across доменов:
FinQA/ConvFinQA/TATQA: 0,7995/0,9220/0,9245 — топ-результаты на табличных данных
CFA-like Level 1/2/3: 0,8812/0,9079/0,8145 — лучшее понимание экзаменационной логики
Trading_TA/Derivatives: 0,8765/0,8934 — сильнейшие показатели на практических трейдинговых задачах
VLigaBench-ru: 0,8642 — высокая адаптация к русскоязычным финансовым кейсам
В отличие от gpt-5, который «выстрелил» именно на практике, gpt-5.2 одинаково силен и на традиционных QA, и на новых доменах — что делает его наиболее универсальным выбором для финансовых приложений.
Qwen‑модели: эффект режима с рассуждением
Qwen‑модели: эффект режима с рассуждением
Qwen‑модели сильно выигрывают от режима think:
Qwen3‑8B: скачок с ~0,57–0,76 до ~0,77–0,91 на базовых QA; заметное улучшение и на CFA-like 1/2
Но think не всегда помогает на MCQ (Multiple-Choice Question): у некоторых «фин‑специализированных» 7–8B (Fin‑o1/Fin‑r1) наблюдаются случаи снижения на CFA уровнях (анализ ответов показал, и увидели что причиной могли стать лишние шаги)
Языковой фактор
На VLigaBench‑ru большинство моделей выступают заметно хуже, чем на англоязычных экзаменах. Исключения — gpt‑5/5.2, qwen3‑235, DeepSeek‑R1, claude‑3.7 (think), которые удерживают высокий уровень на русском.
Llama‑4 — недооцененная сила в финансах
Несмотря на репутацию «провального» релиза по отзывам пользователей, модели семейства Llama‑4 показывают сильные результаты именно в финансах. Llama‑4‑Maverick‑17B‑128E‑Instruct и Llama‑4‑Scout‑17B‑16E уверенно держатся:
На классических QA:
ConvFinQA — 0,8508/0,8663
TATQA — 0,9101/0,9143 (топ‑уровень)
FinQA — 0,7498/0,8047
На практических экзаменах и трейдинге — конкурентно:
CFA-like Level 1 — 0,8326/0,7465
CMT-like Level 2 — 0,8327/0,7410
Trading_TA — 0,7676/0,7506
Отечественные модели: GigaChat в финансовых задачах
Семейство GigaChat демонстрирует интересную динамику результатов в зависимости от размера и специфики задач:
CFA-like Level 1/2/3: 0,6576 / 0,5870 / 0,6101 — средний уровень на базовых концепциях
VLigaBench-ru: 0,6019 — необычное поведение с пониманием русскоязычных финансовых задач, скорее всего из-за высокой степени понимания финансов в целом
GigaChat3-10B-A1.8B-bf16 (rank: public_benchs — 25, exams_like — 30, trading — 20):
Компактная модель с ограниченными возможностями на сложных доменах
FinQA/ConvFinQA/TATQA: 0,7280/0,7937/0,8747 — немного ниже среднего в соответствии с рангами среди протестированных нами моделей для базовых QA
CFA-like Level 1/2/3: 0,4920/0,3345/0,4151 — значительные сложности с экзаменационной логикой
Trading_TA/Derivatives: 0,5908/0,2371 — значительно уступает моделям сопоставимого размера на практических трейдинговых задачах
Модель больше подходит для простых запросов, чем для комплексного финансового анализа
GigaChat3-702B-A36B-preview (fp8) (rank: public_benchs — 19, exams_like — 22, trading — 18):
FinQA/ConvFinQA/TATQA: 0,7742/0,8448/0,9017 — сильные результаты на табличных данных
CFA-like Level 1/2/3 и Trading_TA/Derivatives — не растут пропорционально размеру от GigaChat3-10B-A1.8B-bf16 . Результаты средние даже среди моделей умеренной емкости
VLigaBench-ru: 0,5895 — неожиданно ниже, чем у GigaChat-2-Max
Мы публикуем код и методологию замеров для воспроизводимости результатов:
GitHub репозиторий: https://github.com/FinamAILab/Finam-FinBench_public
Что доступно:
Полные метрики: все результаты по моделям и бенчмаркам — data/all_benchmarks_results.csv
Конфигурация запусков: параметры inference для всех протестированных моделей — config/api_config.yaml
Вопросы бенчмарков: открываем датасеты CFA-like, CMT-like, Trading_TA/Derivatives, VLigaBench-ru для самостоятельной оценки моделей
Код оценки: скрипты для запуска LLM-as-Judge и агрегации результатов
Что НЕ публикуем:
Ответы моделей
Датасет FinDER — защищен авторскими правами, см. оригинальную статью: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation
Приглашаем к сотрудничеству:
Нашли ошибку или несогласованность в методологии? Заводите issue на GitHub
Хотите предложить улучшение промптов или метрик оценки? Мы открыты к pull-request'ам
Протестировали свою модель и получили интересные результаты? Поделитесь!
Мы будем рады вашим комментариям и предложениям. Наша цель — создать открытый и объективный стандарт оценки LLM в финансах, который будет развиваться вместе с сообществом.
Скоро вернемся с апдейтами уже по нашим собственным моделям — следите за обновлениями Лаборатории ИИ «Финама». 🚀
Источник


