Узгодження показників (метрик) штучного інтелекту з бізнес-цілями в охороні здоров'я

01.11.2023

Такі показники, як точність / PPV, повнота / чутливість і специфічність, виводяться на основі ймовірностей, отриманих за допомогою моделей штучного інтелекту. Ці ймовірності потрібно перетворити на «жорсткі» мітки, такі як «здоровий» або «хворий».

Микола Погребняков, PhD

Компанії в галузі охорони здоров’я, подібно до своїх аналогів у інших галузях, все більше досліджують можливості використання штучного інтелекту для покращення своїх продуктів. Багато компаній створюють спеціалізовані команди зі штучного інтелекту, що діють окремо від команд бізнесу чи продукту. Хоча, і бізнес, й технічні команди використовують метрики для оцінки якості штучного інтелекту та відстеження прогресу, проте вони зазвичай використовують різні метрики. Дуже важливо, щоб обидві команди розуміли технічні та бізнес-наслідки того, що показують ці метрики.

Зазвичай найбільша різниця полягає у ключових цілях штучного інтелекту та бізнесу. Під час створення моделей штучного інтелекту, команди зазвичай прагнуть покращити основні показники, які часто є композитними, такими як F1. Вони також мають широкий спектр метрик, які можуть бути обчислені. Тим часом бізнес-команди ставлять інші питання, пов’язані з продуктивністю моделей штучного інтелекту: наскільки добре моделі задовольняють бізнес-цілі; чи готові вони до випуску; і наскільки добре модель, ймовірно, буде поводитися на реальних користувачах.

Ці різниці не повинні бути нездоланними. Лідери бізнесу та команд штучного інтелекту повинні спільно обговорити бізнес-цілі компанії, а потім вибрати метрики, які відображатимуть ефективність моделей у досягненні цих цілей. Розгляньте ці фактори для визначення пріоритетів метрик штучного інтелекту залежно від бізнес-цілей.

Розмір компанії

Невеликі компанії, особливо стартапи, можуть надавати перевагу повноті / чутливості для того, щоб переконатися, що вони не пропустять жодного позитивного випадку. Це життєво важливо для встановлення довіри та ефективності на початковому етапі.

Більші організації, особливо ті, які обслуговують кілька ринків, можуть акцентуватися на точності / PPV й специфічності, щоб зменшити кількість хибнопозитивних й негативних результатів. Це стає дуже важливим в умовах, коли ціна помилкового прогнозу є високою.

Цільовий ринок

Нішеві ринки цінують правильні прогнози. Наголошуйте на точності / PPV й специфічності, щоб відстежувати випадки хибнопозитивних й хибнонегативних результатів.

На противагу цьому, широкі ринки передбачають рішення, які підходять для багатьох підгруп. Тут важливе значення має повнота/чутливість.

Поширеність захворювання серед населення

Якщо це специфічне захворювання дуже рідке або дуже поширене у популяції, то набори даних, які використовуються для навчання та, що важливо, тестові набори даних будуть незбалансованими. Такі показники, як F1 або коефіцієнт кореляції Метью (MCC), є більш релевантними індикаторами, ніж звичайна (пряма) точність.

Середня розповсюдженість забезпечує збалансований набір даних. Використовуйте площу під кривою ROC (ROC-AUC) або точність.

Ціна хибнопозитивних або хибнонегативних результатів

Ціна хибнонегативного результату є високою, коли критично, щоб модель помилково не позначила людей із захворюванням як здорових. Людей, яких модель помилково визначила як хворих, можуть направити на додаткові тести для підтвердження діагнозу. Тут вкрай необхідно, щоб виявлення хвороби було ефективним, і показник повнота / чутливість є хорошим показником, на який варто звернути увагу.

В інших випадках важливіше, щоб модель не визначала помилково захворювання у людей, які його не мають: хибнопозитивний результат. Це вимагає більшої точності виявлення. Підкресліть показник точності / PPV.

Важливість аномальних даних (викидів)

Деякі моделі штучного інтелекту видають необроблені (сирі) числа замість ймовірностей. Хорошим прикладом є модель, яка прогнозує артеріальний тиск. Надзвичайно високі або низькі значення, або аномальні дані, можуть бути важливими або неважливими при інтерпретації результатів моделі.

Якщо викиди важливі, використовуйте RMSE (корінь середньоквадратичної похибки) або MSE (середньоквадратична похибка), які більше впливають на більші похибки (оскільки вони зводять у квадрат різницю між істинними і прогнозованими значеннями).

Якщо викиди не є важливими, використовуйте MAE (середня абсолютна похибка), оскільки вона менш чутлива до викидів.

Такі показники, як точність / PPV, повнота / чутливість і специфічність, обчислюються на основі ймовірностей, що виводяться моделями штучного інтелекту. Ці ймовірності потрібно перетворити на «жорсткі» мітки, такі як «здоровий» або «хворий». Для цього потрібно встановити поріг прийняття рішення. Встановіть поріг на рівні 0,6, і всі пацієнти з прогнозованою ймовірністю захворювання більше 0,6 отримають ярлик «хворий», тоді як ті, чия ймовірність менше 0,6, – «здоровий». Цей поріг є « регулятором», який користувач моделі може налаштувати. Знижуючи поріг, більше пацієнтів позначаються як хворі, що збільшує ймовірність хибнопозитивних результатів. Підвищуйте його, і менше випадків буде позначено, але це збільшує ймовірність помилкового позначення хворих пацієнтів як здорових – хибнонегативних результатів. Вирішуйте, що для вас важливіше, залежно від бізнес-вимог.

Ключем до успішної співпраці між командами штучного інтелекту та бізнесу є взаєморозуміння. Для досягнення цього розуміння команди повинні регулярно спілкуватися та інформувати одна одну щодо бізнесових наслідків, компромісів та значущості метрик, які вони використовують.

Микола Погребняков – керівник відділу штучного інтелекту та науки про дані в Sparrow BioAcoustics. До роботи в Sparrow Нік обіймав посаду керівника відділу ШІ в Twitter, був одним із перших інноваторів NLP в Thomson Reuters, а також позаштатним дослідником у Стенфордському університеті.

Ласкаво просимо у світ Стетофону!