Важный момент: проблема надежности ИИ в здравоохранении

Сотни инструментов искусственного интеллекта для здравоохранения — от транскрипции и обработки изображений до диагностики — заявляют о точности выше 90%, но большинство из них тестируются только в изолированном режиме. (Axios)

Почему это важно: Как показывает анализ корейского специалиста по искусственному интеллекту Квансуба Юна, при совместном использовании эти инструменты становятся менее надежными.

Юн и консультант по вопросам здравоохранения Клэр Хаст продемонстрировали пример сценария, в котором пациентке проводилось медицинское обследование, результаты которого были обработаны с помощью ИИ, затем ей была сделана маммография с использованием методов визуализации, поддерживаемых ИИ, и поставлен диагноз с помощью инструмента ИИ.

Поразительная статистика: хотя точность каждого инструмента в отдельности составляла более 85%, надежность системы в целом была всего 74%.

Что он сделал: Юн использовал системный анализ для оценки общей надежности рабочего процесса при одновременном использовании трех инструментов.

На основе общедоступных данных о точности инструмента визуализации (90%), инструмента документирования (85%) и диагностического инструмента (97%) Юн получил показатель надежности 74%.
«Эта формула представляет собой стандартную эвристику в области надежности — ту же самую структурную логику, которая используется для оценки надежности систем в аэрокосмической и оборонной отраслях», — говорит Юн.

Между строк: На практике, если ошибочные данные из одного инструмента ИИ поступают в другой, у второго инструмента нет возможности отметить ненадежные входные данные, говорит Юн.

«Результат выглядит убедительно, но вся цепочка, которая его привела к получению, никогда не измерялась от начала до конца».
Проблема заключается в том, что, по словам Хаста и Юна, это особенно тревожно, учитывая, что стандартная процедура регулирования для оценки инструментов включает в себя автономное тестирование производительности моделей.

«В настоящее время никто не обязан измерять надежность всего рабочего процесса, в который интегрирована эта модель», — говорит Юн.
С другой стороны: врачей обычно оценивают как отдельных специалистов, а не как часть более широкой системы — нет данных о том, насколько снижается надежность оценки, когда пациенты переходят от одного врача к другому.

«Если сложить вероятности правильности множества последовательных решений, принимаемых человеком, то станет ясно, насколько высока вероятность ошибок», — говорит Марк Сендак, генеральный директор стартапа Vega Health, занимающегося инфраструктурой и оценкой искусственного интеллекта.
«Я опасаюсь, что мы будем предъявлять к искусственному интеллекту требования совершенства, которые явно не соответствуют стандартам, предъявляемым к существующей медицинской системе», — говорит Роберт Вахтер, заведующий кафедрой медицины Калифорнийского университета в Сан-Франциско.

На что мы обращаем внимание: следует уделять больше внимания общей эффективности того, что Вахтер называет «диадой человек-искусственный интеллект».

Например, инструменты искусственного интеллекта можно было бы разработать таким образом, чтобы они более четко указывали людям, участвующим в процессе, где требуется их клиническое мышление.
В таком сценарии результаты, полученные с помощью ИИ со 100% уверенностью, могут быть окрашены в зеленый цвет, а результаты с меньшей уверенностью — в желтый или оранжевый.

По словам Вахтера, такая схема позволит регулирующим органам и экспертам по оценке подобных инструментов лучше оценивать «это взаимодействие человека и его фактические результаты, а не просто предполагать, что участие человека повышает безопасность».
В итоге, когда речь заходит об использовании ИИ в здравоохранении, "у нас нет ни данных, ни контроля над всем этим процессом", — говорит Хаст.
Эрин Бродвин