Национальная база медицинских знаний реализует пилотный проект создания оператора биомедицинских данных

Ассоциация «Национальная база медицинских знаний» реализует пилотный этап создания «Национального оператора биомедицинских данных». Для его выполнения был создан Консорциум из нескольких компаний. В качестве опорной организации была выбрана АНО «Врачебная палата Федерального Медико-Биологического Агентства» (ФМБА РФ). В состав консорциума также вошло ГБУЗ МО МОНИКИ им М.Ф.Владимирского, разработчики систем искусственного интеллекта и других, медицинских сервисов.

Архитектура пилотного проекта представлена на рис. ниже. В качестве поставщика системы хранения биомедицинских данных и предоставления аппаратных мощностей участвует компания «СолСтрикс». В качестве платформ для сбора деперсонифицированных «сырых» медицинских данных с последующим производством из них применяется СППВР Webiomed (обработка электронных медицинских карт) и Botkin.Ai и CoBrain Analytics (обработка медицинских изображений). В качестве интеграционной шины применяется решение компании «Инфсофт». Поставщиками медицинских данных выступают свыше 10 медицинских организаций, подчиненных ФМБА России и использующих медицинские информационные системы «КМИС» и «Медеора». Также поставщиком данных согласилась выступить сеть медицинских центров «Открытая клиника». В качестве биллинговой системы, учитывающей вклад каждой МО в накоплении единого Датасета используется решение Robomed Network.

Текущие результаты пилотного проекта: на базе АНО «Врачебная палата ФМБА» компанией «СолСтрикс» был создан центр обработки данных, в котором установлено программное обеспечение Webiomed ,в котором осуществляется сбор деперсонифицированных медицинских данных для последующей их обработки с целью создания отечественных DataSet-ов и проведения машинного обучения.

Компанией «Инсофт» для консолидации данных была разработана интеграционная шина. Из участвующих в проекте МО была выполнена передача деперсонифицированных медицинских данных. На данный момент накоплена информация о 4 тыс. «цифровых двойников» пациентов, включающая сведения о 9 тыс. случаев обследования и лечения, в том числе 58 тыс. медицинских протоколов и врачебных осмотров.

Во время сбора медицинских данных протестирована работа системы Robomed Network. С ее помощью собран реестр метаданных с различных медицинских учреждений и реализован поиск по этим данным, проверен механизм оценки содержимого медицинских данных как с точки зрения полноты заполнения медицинской документации, так и с точки зрения своевременности и точности работы медицинских сотрудников, проверена возможность прицельного удаленного доступа в хранилища медицинских данных, находящихся в медицинских учреждениях, через конкретные выборки из реестра метаданных. Реализована экономика обмена медицинскими данными, либо любыми производными пакетами данных между участниками сети с последующей фиксацией в платежном шлюзе.

Выполнена трехсторонняя интеграция МИС, сервисов MedAboutMe и объектного хранилища с использованием общей интеграционной шины. На первом шаге через специализированный сервис интеграционной шины в MedAboutMe из МИС передаются необходимые экземпляры СЭМД. На втором шаге через другой специализированный сервис шины MedAboutMe передает экземпляры СЭМД в хранилище. Таким образом, MedAboutMe может стать еще одним источником данных, приходящих в хранилище через шину.

Выполнена разметка информации и создание демонстрационной версии DataSet-а, содержащего данные об инфарктах и инсультах. На основании этого дата-сета проведено пробное машинное обучение, целью которого было создание математической модели, предсказывающей наличие развивающегося инфаркта или инсульта у пациента, обратившегося в медицинскую организацию, которая сводится к задаче классификации. Задача классификации в машинном обучении — это задача отнесения объекта к одному из заранее определенных классов на основании его формализованных признаков. Каждый из объектов в этой задаче представлен в виде вектора в N-мерном пространстве, каждое измерение в котором представляет собой описание одного из признаков объекта. В нашем случае из ЭМК пациента отобран ряд признаков, которые размечены в демо-версии. В дальнейшем возможно научить систему извлекать эти признаки из ЭМК автоматически, в том числе с помощью NLP-методов с алгоритмам машинного обучения. В ходе пилотного проекта проверено 6 различных алгоритмов машинного обучения (ML) и глубокого обучения (DL) для определения лучшего алгоритма решения поставленной задачи. По результатам предварительного моделирования получена оценка F1, равная 90.1%, что свидетельствует о высокой точности выбора самих признаков и алгоритма машинного обучения «k Nearest Neighbor».

Представленные результаты доложены наблюдательному совету ассоциации с целью уточнения дальнейших шагов по реализации проекта, включая демонстрацию результата инвесторам и работу с государственными органами власти в части создания частно-государственного партнерства для реализации полноценной промышленной фазы проекта. Выслано предложение в ГК «Ростех», идут переговоры.