Можно ли обезличивать медицинские персональные данные?

Приветствую! Я Дмитрий Шевелько, руководитель юридической компании «Победа Права».

Медицинские данные — это минное поле для разработчиков ИИ и исследователей. В одной таблице лежат ФИО, адреса, номера СНИЛС и полисов, а рядом — диагнозы, результаты анализов и схемы лечения. Разработчикам алгоритмов нужен второй блок информации. Роскомнадзору и прокуратуре важно, чтобы никто не увидел первый.

Возникает задача: передать датасеты исследователям, обучить искусственный интеллект и при этом не получить оборотный штраф за утечку врачебной тайны. Закон разрешает использовать такие сведения, но ставит жесткое условие — корректное обезличивание.

Давайте разберем, как выстроить этот процесс легально, где ошибаются клиники и почему IT-компаниям нельзя слепо доверять нейросетям защиту персональных данных.


Что 152-ФЗ считает реальным обезличиванием (и почему удалить ФИО недостаточно)

Правила игры задает Федеральный закон № 152-ФЗ «О персональных данных». Статья 3 определяет персональные данные как любую информацию, которая прямо или косвенно указывает на конкретного человека.

Закон трактует обезличивание строго. Это не просто удаление колонки с фамилией. Это технические действия, после которых невозможно определить личность пациента без использования дополнительной информации.

Применительно к медицине вы обязаны вычистить или замаскировать все прямые и косвенные идентификаторы (паспорта, адреса, телефоны, СНИЛС), но сохранить клиническую картину — параметры давления, названия препаратов, динамику болезни.

Мы в «Победа Права» всегда напоминаем клиентам, что 152-ФЗ — это база. Детальные требования к процедуре зашиты в подзаконных актах:

  • Приказ Роскомнадзора от 19.06.2025 № 140 — здесь описаны конкретные технические методы.
  • Постановление Правительства № 1154 от 01.08.2025 — регламентирует нестандартные случаи.
  • Постановление Правительства № 211 от 21.03.2012 — диктует правила для государственных клиник.

Правовая ловушка: почему само маскирование данных требует согласия пациента

Здесь кроется главная юридическая ошибка, на которой ловят компании. Руководители клиник рассуждают так: «Мы удалили имена, данные больше не персональные, значит, передаем их кому хотим».

Это нарушение. Согласно 152-ФЗ, само действие по обезличиванию — это разновидность обработки персональных данных. Вы берете исходную карту пациента и меняете ее. На это действие нужно законное основание (статья 6).

Закон дает два легальных сценария:

Сценарий 1. Прямое согласие пациента Медицинская организация получает от человека письменное согласие на обработку. Документ должен быть конкретным, информированным и сознательным (статья 9). Если к вам придет проверка, бремя доказывания ляжет на вас. Нет бумаги или электронной подписи — есть штраф.

Сценарий 2. Научные исследования без согласия Пункт 9 части 1 статьи 6 ФЗ № 152-ФЗ дает лазейку для науки. Вы вправе обрабатывать данные без согласия пациента, если решаете статистические или исследовательские задачи. Но закон ставит жесткий барьер: только при условии обязательного обезличивания.

Как мы решаем эту задачу на практике? Формального соблюдения закона мало для защиты бизнеса. Мы рекомендуем клиникам и IT-компаниям заключать отдельное соглашение о сборе обезличенных данных. В договоре мы жестко фиксируем три параметра: цель сбора (научно-исследовательская), технические методы очистки и финальный состав передаваемого датасета. Это создает юридическую прозрачность и спасает компанию при проверках регулятора.

Технические сценарии защиты: как скрыть пациента от алгоритмов

Требование закона «сделать восстановление личности невозможным» нужно перевести на язык кода. Рынок использует комбинацию двух подходов.

Метод 1: Необратимое хеширование таблиц Этот алгоритм отлично работает со структурированными идентификаторами (номера полисов, СНИЛС).

  • Изоляция контура. ПО устанавливается прямо в защищенную сеть медицинской организации. Данные не покидают стены клиники.
  • Маскировка. Идентификаторы преобразуются в хеши — уникальные буквенно-цифровые строки. Для защиты применяется шифрование с секретным кодом («солью»). Обратно расшифровать хеш без этого ключа невозможно.
  • Сборка профилей. Система использует внутренние числовые коды (например, пациент №405). Это позволяет объединить три разных визита одного человека в единую историю болезни, при этом ИИ не знает, чья это история.
  • Экспорт. На обработку уходят только структурированные файлы без привязки к личности.

Метод 2: Распознавание сущностей через нейросети (LLM) для свободного текста Настоящая проблема для клиник — протоколы осмотров, дневники врачей и направления. Врачи пишут свободным текстом. Стандартные фильтры (регулярные выражения) здесь ломаются из-за отсутствия контекста. Слово «Иванов» может означать лечащего врача, пациента, родственника в анамнезе или название улицы.

Современные IT-команды применяют большие языковые модели (LLM). Нейросеть сканирует абзац и понимает смысл. Видит сокращение «ул.» перед словом — удаляет адрес. Видит инверсию «Иван Михайлович» или «М.И. Иванов» — распознает ФИО.

Скорость обработки вырастает кратно: ручная вычистка одной медкарты занимает 10 минут, нейросеть делает это за 30 секунд. Заменяет реальные данные на безопасные маски: [ПАЦИЕНТ], [ДАТА], [АДРЕС].

Риски машинного обучения: где ИИ подставит компанию под штраф

Технологии LLM выглядят впечатляюще, но таят специфические риски. Если нейросеть ошибется, юридическую ответственность понесет компания.

Где ломаются языковые модели:

  • Галлюцинации. Нейросеть способна придумать и вписать в текст данные, которых там не было. Например, дописать номер чужого паспорта ради сохранения структуры документа.
  • Разговорные формы. Врачи скорой помощи или психиатры часто пишут уменьшительные имена («Сашенька», «Витюша»). Базовые модели их пропускают.
  • Сложная транслитерация. Зарубежные имена, написанные кириллицей, часто остаются в тексте.

Как защитить бизнес от ошибок алгоритма: Мы настаиваем на внедрении многоуровневой проверки. Никогда не доверяйте обезличивание одной нейросети.

  1. Используйте архитектуру «Генератор + Контролер». Большая модель маскирует данные, вторая (быстрая и точная) проверяет финальный текст на остатки ФИО.
  2. Прогоняйте результат через жесткие регулярные выражения.
  3. Дообучайте модели на синтетических медицинских картах, чтобы алгоритм выучил редкие сокращения врачей.
  4. Разворачивайте модели только на изолированных серверах без выхода в открытый интернет.

Псевдонимизация: как сохранить ценность датасета для науки

Глухое обезличивание уничтожает пользу данных. Заменив «Пациентка Сидорова Анна, 65 лет» на тег [ПАЦИЕНТ], вы лишаете исследователей возможности искать корреляции между возрастом, полом и течением болезни.

Решение проблемы — псевдонимизация. Алгоритмы заменяют реальные сведения на вымышленные, но сохраняют статистический смысл:

  • ФИО заменяется на вымышленные имя и фамилию того же пола и национальности.
  • Даты сдвигаются на случайное число (±7 дней).
  • Точные адреса обрезаются до названия города или крупного района.

Вы получаете статистически достоверный датасет. Восстановить личность реального человека по нему невозможно, а значит, закон соблюден.

Синтетические данные: новые вызовы для права

IT-индустрия идет дальше. Вместо обезличивания реальных медкарт компании начинают генерировать полностью синтетические истории болезни. Они копируют статистические закономерности реальных пациентов, но не принадлежат ни одному живому человеку.

Здесь возникает интересная этико-правовая дилемма. Если синтетический датасет математически точно повторяет реальную базу клиники, не становится ли он скрытой формой персональных данных? Практики применения пока нет, и законодателям только предстоит очертить границы этого термина.

Резюме юриста

Отвечая на вопрос «можно ли обрабатывать медицинские данные»: да, это абсолютно легальная практика. Бизнесу нужно выполнить пять шагов:

  1. Обосновать обработку. Получить согласие пациента либо зафиксировать исследовательскую цель (п. 9 ч. 1 ст. 6 ФЗ № 152-ФЗ).
  2. Соблюсти нормативы. Изучить требования 152-ФЗ и Приказа Роскомнадзора № 140.
  3. Выстроить архитектуру. Использовать хеширование для таблиц и псевдонимизацию текстов в закрытом контуре.
  4. Настроить контроль. Поставить валидаторы поверх нейросетей, чтобы исключить галлюцинации и пропуск имен.
  5. Подписать договоры. Детально прописать зоны ответственности между клиникой и разработчиками ИИ.

Процесс требует ресурса. Но только связка правового фундамента и надежного кода позволит вам безопасно использовать опыт миллионов пациентов для создания технологий завтрашнего дня.