Ми використовуємо табличні набори даних, спочатку з OpenML, зібрані в набір еталонних наборів даних від команди Inria-Soda на HuggingFace. Ми навчаємо на 28 855 навчальних зразках і тестуємо на решті 9 619 зразках. Усі MLP навчаються з розміром пакету 64, 64 та 0,0005, і ми вивчаємо 3 шари по 100 нейронів кожен. Ми визначаємо шість основних метрик, які використовуються в нашій роботі тут.Ми використовуємо табличні набори даних, спочатку з OpenML, зібрані в набір еталонних наборів даних від команди Inria-Soda на HuggingFace. Ми навчаємо на 28 855 навчальних зразках і тестуємо на решті 9 619 зразках. Усі MLP навчаються з розміром пакету 64, 64 та 0,0005, і ми вивчаємо 3 шари по 100 нейронів кожен. Ми визначаємо шість основних метрик, які використовуються в нашій роботі тут.

Посібник для ґіків з експериментів у машинному навчанні

2025/09/21 13:47
3 хв читання

Анотація та 1. Вступ

1.1 Пост-хок пояснення

1.2 Проблема розбіжностей

1.3 Заохочення консенсусу пояснень

  1. Пов'язані роботи

  2. Pear: регуляризатор узгодження пост-хок пояснювача

  3. Ефективність навчання консенсусу

    4.1 Метрики узгодження

    4.2 Покращення метрик консенсусу

    [4.3 Узгодженість за яку ціну?]()

    4.4 Чи все ще цінні пояснення?

    4.5 Консенсус та лінійність

    4.6 Два терміни втрат

  4. Обговорення

    5.1 Майбутня робота

    5.2 Висновок, подяки та посилання

Додаток

A ДОДАТОК

A.1 Набори даних

У наших експериментах ми використовуємо табличні набори даних, спочатку з OpenML та скомпільовані в набір еталонних наборів даних від команди Inria-Soda на HuggingFace [11]. Ми надаємо деякі деталі про кожен набір даних:

\ Bank Marketing Це набір даних бінарної класифікації з шістьма вхідними ознаками і приблизно збалансованими класами. Ми навчаємо на 7 933 навчальних зразках і тестуємо на решті 2 645 зразках.

\ California Housing Це набір даних бінарної класифікації з сімома вхідними ознаками і приблизно збалансованими класами. Ми навчаємо на 15 475 навчальних зразках і тестуємо на решті 5 159 зразках.

\ Electricity Це набір даних бінарної класифікації з сімома вхідними ознаками і приблизно збалансованими класами. Ми навчаємо на 28 855 навчальних зразках і тестуємо на решті 9 619 зразках.

A.2 Гіперпараметри

Багато наших гіперпараметрів є постійними у всіх наших експериментах. Наприклад, всі MLP навчаються з розміром пакету 64 і початковою швидкістю навчання 0,0005. Також, всі MLP, які ми вивчаємо, мають 3 прихованих шари по 100 нейронів кожен. Ми завжди використовуємо оптимізатор AdamW [19]. Кількість епох варіюється від випадку до випадку. Для всіх трьох наборів даних ми навчаємо протягом 30 епох, коли 𝜆 ∈ {0,0, 0,25}, і 50 епох в інших випадках. При навчанні лінійних моделей ми використовуємо 10 епох і початкову швидкість навчання 0,1.

A.3 Метрики розбіжностей

Ми визначаємо кожну з шести метрик узгодження, використаних у нашій роботі.

\ Перші чотири метрики залежать від топ-𝑘 найважливіших ознак у кожному поясненні. Нехай 𝑡𝑜𝑝_𝑓 𝑒𝑎𝑡𝑢𝑟𝑒𝑠(𝐸, 𝑘) представляє топ-𝑘 найважливіших ознак у поясненні 𝐸, нехай 𝑟𝑎𝑛𝑘 (𝐸, 𝑠) буде рангом важливості ознаки 𝑠 у поясненні 𝐸, і нехай 𝑠𝑖𝑔𝑛(𝐸, 𝑠) буде знаком (позитивним, негативним або нульовим) оцінки важливості ознаки 𝑠 у поясненні 𝐸.

\

\ Наступні дві метрики узгодження залежать від усіх ознак у кожному поясненні, а не лише від топ-𝑘. Нехай 𝑅 буде функцією, яка обчислює ранжування ознак у поясненні за важливістю.

\

\ (Примітка: Krishna та ін. [15] вказують у своїй статті, що 𝐹 має бути набором ознак, визначених кінцевим користувачем, але в наших експериментах ми використовуємо всі ознаки з цією метрикою).

A.4 Результати експерименту з непотрібними ознаками

Коли ми додаємо випадкові ознаки для експерименту в розділі 4.4, ми подвоюємо кількість ознак. Ми робимо це, щоб перевірити, чи пошкоджує наша втрата консенсусу якість пояснення, розміщуючи нерелевантні ознаки в топ-𝐾 частіше, ніж моделі, навчені природним шляхом. У таблиці 1 ми повідомляємо відсоток випадків, коли кожен пояснювач включав одну з випадкових ознак у топ-5 найважливіших ознак. Ми спостерігаємо, що в цілому ми не бачимо систематичного збільшення цих відсотків між 𝜆 = 0,0 (базова MLP без нашої втрати консенсусу) і 𝜆 = 0,5 (MLP, навчена з нашою втратою консенсусу)

\ Таблиця 1: Частота потрапляння непотрібних ознак у топ-5 рангів, виміряна у відсотках.

A.5 Більше матриць розбіжностей

Рисунок 9: Матриці розбіжностей для всіх метрик, розглянутих у цій статті, на даних Bank Marketing.

\ Рисунок 10: Матриці розбіжностей для всіх метрик, розглянутих у цій статті, на даних California Housing.

\ Рисунок 11: Матриці розбіжностей для всіх метрик, розглянутих у цій статті, на даних Electricity.

A.6 Розширені результати

Таблиця 2: Середня точність тестування для навчених нами моделей. Ця таблиця організована за набором даних, моделлю, гіперпараметрами у втраті та коефіцієнтом зменшення ваги (WD). Середні значення отримані за кількома випробуваннями, і ми повідомляємо середні значення ± одна стандартна похибка.

A.7 Додаткові графіки

Рисунок 12: Поверхні логітів для MLP, кожна навчена з різним значенням лямбда, на 10 випадково побудованих тривимірних площинах з набору даних Bank Marketing.

\ Рисунок 13: Поверхні логітів для MLP, кожна навчена з різним значенням лямбда, на 10 випадково побудованих тривимірних площинах з набору даних California Housing.

\ Рисунок 14: Поверхні логітів для MLP, кожна навчена з різним значенням лямбда, на 10 випадково побудованих тривимірних площинах з набору даних Electricity.

\ Рисунок 15: Додаткові графіки кривих компромісу для всіх наборів даних та метрик.

\

:::info Автори:

(1) Аві Шварцшильд, Університет Меріленду, Коледж-Парк, Меріленд, США та робота завершена під час роботи в Arthur (avi1umd.edu);

(2) Макс Цембалест, Arthur, Нью-Йорк, Нью-Йорк, США;

(3) Картік Рао, Arthur, Нью-Йорк, Нью-Йорк, США;

(4) Кіган Хайнс, Arthur, Нью-Йорк, Нью-Йорк, США;

(5) Джон Дікерсон†, Arthur, Нью-Йорк, Нью-Йорк, США (john@arthur.ai).

:::


:::info Ця стаття доступна на arxiv за ліцензією CC BY 4.0 DEED.

:::

\

Ринкові можливості
Логотип SIX
Курс SIX (SIX)
$0.00958
$0.00958$0.00958
0.00%
USD
Графік ціни SIX (SIX) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Трамп вимагає новий президентський портрет, незважаючи на те, що старий залишається таємним

Трамп вимагає новий президентський портрет, незважаючи на те, що старий залишається таємним

Президент Дональд Трамп хоче, щоб Смітсонівський інститут створив новий президентський портрет його особи, хоча його старий портрет ще не був представлений публіці
Поділитись
Alternet2026/02/14 03:57
Європа запустила в космос свою найпотужнішу ракету з інтернет-супутниками Amazon на борту

Європа запустила в космос свою найпотужнішу ракету з інтернет-супутниками Amazon на борту

Європейське космічне агентство (ESA) здійснило запуск найпотужнішої версії ракети Ariane 6, вивівши на орбіту 32 інтернет-супутники Amazon.
Поділитись
Finance2026/02/14 04:01
Bitcoin утримує діапазон, оскільки CFTC скликає криптовалютних CEO щодо правил

Bitcoin утримує діапазон, оскільки CFTC скликає криптовалютних CEO щодо правил

Консультативний комітет з інновацій CFTC сигналізує про посилений нагляд за деривативами та контроль за шахрайством на спотовому ринку, що вплине на стейблкоїни та використання криптовалютної застави.
Поділитись
CoinLive2026/02/14 03:59