Представьте, что вы создаете медицинский искусственный интеллект (ИИ). Ваша цель — научить его находить грыжу позвоночника на МРТ-снимках не хуже, а то и лучше опытного врача. Но есть проблема: чтобы нейросеть «научилась», ей нужно показать сотни тысяч примеров с уже отмеченными грыжами. Этот процесс называется разметкой данных.
А теперь представьте стоимость такой задачи: если попросить практикующих врачей-рентгенологов вручную разметить 500 000 снимков, проект обойдется в целое состояние, а работа займет годы. Дорогостоящие проекты — это классическая проблема в мире медицинского ИИ.
В этой статье расскажем, как решили эту проблему для одного международного медицинского стартапа и почему умный подход к работе важнее, чем просто нанять самых дорогих специалистов.
Шаг 1: Где взять полмиллиона анонимных снимков?
Первая трудность — найти данные. Клиенту нужно было более 500 000 МРТ-снимков позвоночника в разных проекциях. Готовые базы данных не подходили: в одних было мало материала, в других — снимки разного качества, а третьи нельзя было использовать в коммерческих целях.
Мы пошли другим путем. Кто обладает доступом к большим архивам качественных снимков? Практикующие врачи. Так нашей целью стал не поиск данных, а создание профессионального сообщества.
Мы начали с обычных объявлений, писали в профильные группы рентгенологов, и скоро сработало «сарафанное радио». В итоге мы вышли на врачей из Казахстана, которые поняли ценность нашей задачи и согласились помочь.
Важный момент: все данные собирались полностью анонимно. Мы не просто покупали снимки, а выстраивали сеть партнеров, которые поставляли обезличенные данные, понимая, что помогают создавать уникальный и «чистый» набор для обучения ИИ. Такой «партизанский» подход позволил нам собрать базу, которую невозможно найти в открытом доступе.
Шаг 2: Почему разметку делали не врачи?
Когда гигантский архив снимков был у нас на руках, встал главный вопрос: кто будет их размечать? На каждом снимке нужно было выделить четыре области: межпозвоночные диски, жировую ткань, позвоночный канал и костные структуры.
Первая мысль любого заказчика: «Это должны делать только врачи!»
Это не всегда эффективно. Задача врача — ставить диагнозы и проверять сложные случаи. А монотонная работа по обводке контуров, требующая усидчивости и внимания, — это совсем другое. Мы решили, что с этим лучше справится специально обученная команда под строгим контролем экспертов.
Почему наш подход сработал:
- Экономия. Бюджет клиента сократился в 3-4 раза.
- Скорость. Команда из 25 обученных разметчиков работает в разы быстрее, чем несколько врачей, у которых есть основная работа в клинике.
- Качество. Разметчик сосредоточен на одной задаче — идеально точном контуре. А врач выполняет свою главную функцию — проверяет результат и выносит экспертное решение.
Наше секретное оружие: инструкции с гифками
Как научить человека без медицинского образования видеть структуры на МРТ-снимке с точностью хирурга? Мы создали настоящую «Библию проекта».
Это было не просто техническое задание. Вместе с привлеченными рентгенологами мы разработали сверхдетальные инструкции, где каждый сложный момент был показан на гиф-анимации.
- Как отличить край диска от тени на снимке? — Смотри гифку.
- Где граница между жировой тканью и позвонком? — Вот наглядный пример.
- Какой снимок считается качественным, а какой — браком? — Показано здесь.
Благодаря такому подходу наша команда всего за пару недель научилась «видеть» снимок так, как его видят профессионалы. Независимый аудит показал точность разметки 87,5% — это отличный результат для индустрии.
Технологии и тройной контроль качества
Мы использовали профессиональные инструменты для разметки (CVAT) и предобработки данных, но главной нашей силой стал выстроенный процесс контроля — настоящий конвейер качества.
- Первый уровень. Обычный разметчик выполняет свою часть работы.
- Второй уровень. Его результат проверяет старший разметчик (куратор), исправляя возможные неточности.
- Третий, экспертный уровень. Врачи-кураторы выборочно проверяют 10-15% всех размеченных снимков, а также разбирают самые сложные и спорные случаи.
Иногда даже у врачей возникали разные мнения — медицина не всегда точная наука. В таких ситуациях мы собирали «консилиум», принимали единое решение («золотой стандарт») и тут же вносили его в нашу «Библию проекта» с гифками.
Результат: сэкономили клиенту год работы
Всего за 12 месяцев мы разметили и проверили более полумиллиона снимков. Что в итоге получил наш клиент:
- Готовый, идеально структурированный набор данных для обучения нейросети.
- Экономию 9–12 месяцев на исследования и разработку.
- Чистую архитектуру данных, которую можно сразу загружать в модель без дополнительных доработок.
Этот проект доказал, что сбор и разметку медицинских данных можно эффективно передать на аутсорс, если выстроить правильные процессы. Это позволяет команде клиента сосредоточиться на главном — обучении нейросетей и развитии своего продукта.