Ассоциация разработчиков и пользователей искусственного интеллекта Национальная база медицинских знаний

Руководитель направления аналитики Webiomed, к.т.н. Лариса Серова опубликовала статью, рассказывающую о том, как система способна «извлекать» из медицинских текстовых записей структурированные признаки.

Электронные медицинские карты (ЭМК) представляют основу автоматизации медицинской организации. В последнее время они повсеместно внедряются во всем мире. По некоторым данным около 95% больниц США внедрили самые разнообразные системы ведения ЭМК. У нас в стране благодаря вначале реализации проекта «ЕГИСЗ» в 2011-2018 г., а затем и последовавшему федеральному проекту «Создания единого цифрового контура в сфере здравоохранения на основе ЕГИСЗ» в многих медицинских организация также стали применяться ЭМК.

Некоторые передовые регионы и отдельные медицинские организации уже по 5 и более лет работают с такими системами, накопив поистине огромные базы данных с разнообразными протоколами инструментального и лабораторного обследования, врачебными осмотрами и т.д.

В целом, в отрасли информатизации здравоохранения имеется мнение, что ЭМК редко могут быть использованы для машинной обработки, в особенности для создания на их основе наборов данных для последующего машинного обучения. Главная причина — преимущественно неструктурированный способа хранения медицинских записей, в особенности врачебных осмотров. И действительно, сегодня большинство систем ведения ЭМК ставят во главу угла удобство пользователей и скорость внесения ими своих записей, что чаще всего делается через разные шаблоны и упрощенные текстовые формы наподобие мини-текстовых редакторов. Причина этого кроется в том, что если заставлять врача вносить информацию через «жесткие» формализованные формы ввода – то такая информация будет более структурированная (и отчасти более качественная), но потребует существенно больше времени на ее внесение.

По наблюдению экспертов Webiomed, порой такой способ требует в 2-3 раза больше времени, чем быстрая коррекция обычного текстового шаблона, подгруженная из справочника текстовых заготовок.

Врач работает с ЭМК

Мы считаем, что такая ситуация будет сохраняться еще достаточно длительное время. Поэтому именно неструктурированные протоколы врачебных осмотров будут превалировать над детальными машинно-читаемыми формализованными клиническими протоколами. Отсюда возникает идея не отрицать неструктурированные медицинские записи, а учиться с ними работать.

Для таких задач создаются специализированные сервисы. Одним из таких решений является Amazon Comprehend Medical, который позволяет извлекать значимую информацию (жалобы, диагноз, назначенные препараты и их дозировку, результаты исследований и т.п) из неструктурированных медицинских записей.

При этом от пользователя не требуется знаний машинного обучения, т.к. Comprehend Medical предоставляется по сервисной модели через интеграционные API Amazon. Этот продукт ориентирован на поставщиков медицинских услуг, страховщиков и исследователей, а также на медицинские, биотехнологические и фармацевтические компании, которым сервис позволит быстро внедрять системы поддержки принятия решений и улучшить процессы управление медицинскими данными пациентов.

Данный подход находит в последнее время подтверждение и в серьезной научной литературе. Например, в конце 2019 г. JAMIA опубликовала исследование, которое показало, что данные, полученные из неструктурированных ЭМК, являются более точным источником информации для прогнозирования ИБС, чем структурированные данные. Это еще больше подкрепляет нашу убеждённость перспектив извлечения признаков из неструктурированных ЭМК, в т.ч. для задач сбора больших наборов данных для машинного обучения. Более того, развитие ИИ позволяет не просто извлекать признаки из текстовых записей – но и демонстрирует, что работа с непосредственными неструктурированными записями также может давать моделям ИИ точность даже выше, чем если это были формализованные признаки.

В современных ЭМК до 70% информации написано на естественном языке. Свободный текст удобен для выражения клинических концепций и событий, таких как диагностика, симптомы и вмешательства. Врачи в своих записях фиксируют жалобы пациентов, симптомы и назначенную лекарственную терапию в формате неструктурированных текстов. Многие важные наблюдения остаются незарегистрированными в полях форм протоколов, очень часто можно видеть комментарии врача в виде свободного текста, хранящегося рядом с пустыми полями форм.

Специальный сервис Webiomed

Для того, чтобы система «Webiomed» могла «извлекать» из медицинских текстовых записей структурированные признаки, мы создали специальный сервис – Webiomed.NLP.

Для его развития мы создаем модели машинного обучении с использованием методов Natural language processing (NLP). Эти возможности позволят нашей системе из обычных текстовых медицинских протоколов вытаскивать клинически-значимую неразмеченную информацию, которая затем используется для машинного анализа поступивших в Webiomed запросов от медицинских информационных систем.

С помощью NLP мы извлекаем симптомы из жалоб, данные об артериальном давлении, росте и весе пациента из неструктурированных объективных данных, лабораторные показатели из выписок и многое другое. Мы также используем Webiomed.NLP для обогащения накапливаемых «сырых данных» (raw data) и создания с помощью этого собственных размеченных дата-сетов, которые нужны нам для последующего машинного обучения и создания прогностических моделей.

Разработанные компанией модели извлечения признаков из медицинских текстовых записей методами NLP показали высокую точность при обработке неструктурированной ЭМК пациента. На данный момент они проходят комплексное тестирование на реальных данных пилотных проектов медицинских организаций для выявления предикторов развития заболеваний.

Планируется значительное расширение числа извлекаемых признаков моделями NLP для дальнейшего развития предиктивных способностей нашей системы для различных заболеваний и факторов риска пациентов.

Метод извлечения признаков позволяет использовать очень большое количество данных из ЭМК для машинного обучения. Речь идет о сотнях тысячах записей, что практически невозможно реализовать в клинических исследованиях, таких как Framingham Heart Study, где было обследовано около 10 тысяч пациентов за длительный период.

Сервис Webiomed.NLP может быть интегрирован в любую медицинскую информационную систему для повышения ее функциональных возможностей по интерпретации врачебных записей в ЭМК.

Полный текст публикации: https://webiomed.ai/blog/primenenie-nlp-dlia-izvlecheniia-informatsii-iz-elektronnykh-meditsinskikh-kart/