Глубокое обучение

Автор: old.medach.pro

Публикация: 18.02.2018

Патоморфологи сталкиваются с серьезным увеличением трудовой нагрузки и повышением сложности гистопатологической диагностики рака в связи с приходом персонализированной медицины. Поэтому диагностические протоколы должны быть сосредоточены в равной степени на эффективности и точности. В этой статье мы представляем “глубокое обучение” как подход для улучшения объективности и эффективности анализа гистопатологических препаратов. С помощью двух примеров (распознавание рака предстательной железы в биоптатах и обнаружение метастазов рака молочной железы в сторожевых лимфатических узлах) мы показываем потенциал этой новой методологии к снижению трудовой нагрузки для патоморфологов и в то же время к повышению объективности диагнозов. Мы обнаружили, что все препараты, содержащие рак предстательной железы и микро- макрометастазы рака молочной железы могли быть распознаны автоматически, в то время как 30-40% препаратов с доброкачественными опухолями или здоровой тканью могли быть исключены без применения каких-либо дополнительных иммуногистохимических маркеров или вмешательства человека. Мы приходим к выводу, что “глубокое обучение” имеет большие перспективы к улучшению эффективности диагностики рака простаты и определения стадии рака молочной железы.

Микроскопический анализ окрашенных гематоксилин-эозином фрагментов был основой диагностики и градации рака в течение последнего столетия. Протоколы полного исследования биоптатов и резецированных образцов тканей, включая микроскопический анализ, существуют для большого количества наиболее распространенных типов рака (таких как рак легких, молочной железы, предстательной железы). Использование этих протоколов привело к созданию веских стратегий прогноза и широко используемых стратегий градации (например, система градации Глисона).

В связи с ростом заболеваемости раком и наличием вариантов лечения, строго специфичных для конкретных пациентов, все больше и больше усложняется диагностика и градация рака. В наше время патоморфологам приходится изучать в деталях огромное количество препаратов, часто с применением дополнительные иммуногистохимических методов окрашивания, для того, чтобы сформулировать полный диагноз. Более того, увеличилось число количественных параметров, которые патоморфологи должны выделить для часто используемых систем градации (например, длина, площадь поверхности, число митозов). В связи с этими трудностями, протоколы анализа были адаптированы и доработаны, чтобы обеспечить наилучшее соотношение между прогностическим потенциалом и выполнимостью в ежедневной клинической рутине.

Недавнее внедрение систем, позволяющих получать сканы цельных препаратов, предоставляет возможность количественной оценки и совершенствования гистопатологических процедур. Эти системы создают цифровое изображение окрашенных фрагментов ткани, фиксированных на предметном стекле, в высоком разрешении. Цифровые изображения цельного препарата (ИЦП) делают возможным применение технологий анализа изображений, помогающих патоморфологам проводить исследование и количественную оценку препаратов. За последние 5 лет одна из таких методик, - "глубокое обучение", завоевала широкую известность в других областях. “Глубокое обучение" нельзя рассматривать как отдельную методику, его можно примерно описать как применение многослойных искусственных нейронных сетей для решения широкого диапазона проблем - от распознавания речи до анализа изображений. В последние годы технологии “глубокого обучения” быстро стали последним словом техники в машинном распознавании образов. Особый подтип нейронных сетей — сверточные нейронные сети (СНС) — стал de facto стандартом распознавания изображений и, в ряде задач, по качеству достигает уровня человека6. Эти системы проходят обучение, изучая необходимые признаки непосредственно из огромных баз данных изображений (содержащих, как правило, миллионы изображений). Напротив, более традиционные алгоритмы распознавания образов основаны на созданных вручную блоках выделения характерных признаков.

Несмотря на значительные успехи, технологии “глубокого обучения” еще не успели проявить себя в области медицинской визуализации. Одной из основных причин является то, что в распоряжении традиционных направлений медицинской визуализации (например, радиологии) нет необходимого количества изображений для обучения сложных систем "глубокого обучения". Такой проблемы нет в цифровой гистопатологии: одно ИЦП, как правило, содержит триллионы пикселей, из которых можно извлечь сотни примеров раковых желез (в случае раков предстательной и молочной желез).

Некоторые начальные этапы работы публиковались в течение последних пяти лет, поднимая для обсуждения вопрос применения технологий “глубокого обучения” к микроскопическим и гистопатологическим изображениям. Ciresan et al. были первыми, кто применил сверточные нейронные сети для подсчета митозов с целью определить стадию первичного рака молочной железы. Более того, в другой публикации они показали применимость патч-ориентированных сверточных нейронных сетей для сегментации. Wang et al. позже расширили работу по обнаружению митозов, совместив вручную построенные признаки и сверточные нейронные сети . К другим применениям сверточных сетей относятся первичное обнаружение рака молочной железы, градация глиом, сегментация эпителия и стромы14. Наконец, Su et al. использовали другую технологию “глубокого обучения” - вложенные шумоподавляющие автокодировщики - для сегментации и обнаружения клеток при раке легких и опухолях мозга.

В исследовании изучается общая применимость СНС для улучшения эффективности диагностики рака по изображениям окрашенных гематоксилин-эозином срезов посредством применения этих сетей для выполнения двух новых задач: обнаружения рака предстательной железы в биоптатах и обнаружение метастазов рака молочной железы в резецированных сторожевых лимфатических узлах.

Число биопсийных срезов предстательной железы значительно увеличилось за последние десятилетия в связи с появлением тестирования на простатический специфический антиген (ПСА). Из-за особенностей стандартной процедуры биопсии (от восьми до двенадцати случайных биопсий под контролем ультразвука), в результате каждой процедуры изготавливается несколько препаратов. Большая часть этих препаратов, как правило, не содержат злокачественных изменений. Гистопатологический анализ мог бы быть значительно модернизирован, если бы эти препараты, содержащие только здоровую ткань, могли быть автоматически исключены из исследования, не вытесняя препараты со злокачественными изменениями. На базе нашего клинического учреждения мы последовательно собирали биоптаты от 254 пациентов, которым проводили биопсию под контролем МРТ для обнаружения рака предстательной железы. Препараты были подготовлены в соответствии со стандартным гистопатологическим протоколом и впоследствии оцифрованы с помщью системы Olympus VS120-S5 (Olympus, Токио, Япония).

Анализ сторожевых лимфатических узлов хорошо известен своим утомительным протоколом4. Несколько срезов лимфатического узла исследуются на наличие микрометастазов (0,2-2 мм) и макрометастазов (>2 мм). Более того, около 60-70% исследуемых сторожевых лимфатических узлов не содержат метастазов вообще. В этой статье мы сосредоточимся на анализе сторожевых лимфатических узлов при раке молочной железы с целью обнаружения препаратов, не содержащих макро- или микрометастазов. Также мы пытаемся определить точное расположение метастазов на определенном препарате. В исследование были включены образцы от 271 пациента нашего учреждения. Образцы были подготовлены в соответствии со стандартным гистопатологическим протоколом и впоследствии оцифрованы с помощью сканера 3DHistech Pannoramic 250 Flash II (3DHistech, Будапешт, Венгрия).

После оцифровки окрашенных гематоксилин-эозином препаратов злокачественные изменения и метастазы были вручную отграничены сотрудником патологоанатомического отделения (I.K., эксперимент с раком предстательной железы) и лабораторным техником (M.H., эксперимент со сторожевыми лимфатическими узлами) с помощью компьютерной мышки под руководством опытных патоморфологов (C. A. H. K., P. B.). Из этих отмеченных областей были выделены небольшие участки изображений (“патчи”) — прототипы для обучения СНС обнаружению участков злокачественных изменений в валидационных наборах (схематический обзор на Рис.1). Эти валидационные наборы были использованы для оптимизации параметров сети. После обучения СНС переводилась в полностью сверточную сеть, которая давала попиксельный прогноз наличия злокачественных изменений и метастазов в отдельных, прежде не использовавшихся наборах тестовых данных. Для обнаружения рака предстательной железы СНС оценивались на уровне отдельных препаратов с использованием анализа рабочей характеристики приемника (ROC-анализ). Мы также изучали, насколько хорошо система может исключать препараты без злокачественных изменений из последующего диагностического процесса. Для анализа сторожевых лимфатических узлов мы оценивали, насколько хорошо система справляется с распознаванием отдельных микро- и макрометастазов с использованием FROC-анализа (ROC со свободным ответом), и справляется ли она с исключением препаратов, не содержащих метастазов, с использованием ROC-анализа.

Источник: Scientific reports

Четыре слоя, обозначенных буквой “С”, что означает сверточный слой, могут считаться стадией “выделения характерных признаков”, когда из патча изображения в последовательном порядке выделяются признаки высокого уровня. Слои, обозначенные буквой “М”, — это слои максимального объединения (примечание переводчика: ориг. pooling), уменьшающие размер изображения и улучшающие переходную инвариантность для сети. Последние три слоя являются слоями “классификации” (обозначены буквой “F”), которые определяют, исходя из данных признаков, содержит ли патч изображения злокачественные изменения или нет. Такая сеть может впоследствие быть применена к каждому пикселю изображения цельного препарата по методу “скользящего окна”.

Результаты

Субъекты

Рак предстательной железы. Из первоначальной выборки в 254 пациента восемь были исключены, поскольку микропрепараты для них не были доступны. Четверо были исключены, поскольку биопсия не была проведена во время обследования, и один был исключен, поскольку размер образца ткани был недостаточным для гистопатологического анализа. Из оставшихся 238 мы отобрали случайным образом 225 микропрепаратов для оцифровки, из которых 100 были представлены обучающему набору, 50 — валидационному набору и 75 — тестовому набору. Образцы в обучающем наборе были разделены таким образом, что было достигнуто соотношение примерно 50/50 между препаратами, содержащими злокачественные изменения и не содержащими их. Все препараты были успешно оцифрованы и описаны. Больше информации о выбранных препаратах можно найти в Таблице 1.

Таблица 1. Подробная характеристика данных по цельным препаратам биоптатов, использованных для экспериментов с раком предстательной железы.

Количество препаратов на категорию	Обучение	Валидация	Тест	Всего
Злокачественные изменения	48 (62,94±29,23)	31 (62,32±27,88)	45 (64,90±25,22)	124 (64,02±26,78)
2+3	0	1	0	1
3+2	0	2	0	2
3+3	11	9	14	34
3+4	23	9	12	44
3+5	0	0	1	1
4+3	7	6	10	23
4+4	5	1	3	9
4+5	2	2	3	7
5+3	0	1	0	1
5+4	0	0	2	2
Норма	52	19	30	101
Всего	100	50	75	225

В первой колонке обозначены категории, а в первом ряду обозначены различные наборы данных. В категории “злокачественные изменения” распределение препаратов определено в соответствие со шкалой Глисона. Числа в скобках в строке “Злокачественные изменения” обозначает среднее объемное содержание в процентах в препаратах и соответствующее стандартное отклонение.

Сторожевые лимфатические узлы при раке молочной железы. Сбор данных для экспериментов со сторожевыми лимфатическими узлами осуществлялся в две серии. Первая серия состояла из 173 препаратов из материалов опытного патоморфолога, занимающегося проблемами рака молочной железы (P.B). Эти первоначальные препараты были разделены на обучающий (98), валидационный (33) и тестовый (42) наборы. Эти препараты затем были оцифрованы, и каждый метастаз был описан. Чтобы удостовериться в том, что на наши результаты не повлиял фактор в виде использования результатов работы единственного патоморфолога, мы включили в исследование второй набор данных, содержащий все идущие друг за другом случаи исследования сторожевых лимфатических узлов при раке молочной железы в период с октября 2014 до апреля 2015: в результате было дополнительно отобрано 98 изображений цельных препаратов. Для второй серии не были предоставлены описания препаратов, а только заключения по ним (наличие макро- и/или микрометастазов и изолированных клеток опухоли (ИКО)). Больше информации по включенным случаям можно найти в Таблице 2. В 22 из 24 случаев, где встречались только ИКО, патоморфологом было проведено дополнительное иммуногистохимическое исследование.

Таблица 2. Детали данных по цельным препаратам сторожевых лимфатических узлов, использованных для экспериментов с метастазами рака молочной железы.

Количество препаратов на категорию	Обучение	Валидация	Тест	Последовательные	Всего
Хотя бы один макрометастаз	18	5	7	16	46
Без макрометастазов, хотя бы один микрометастаз	29	8	8	4	49
Без макро- и микрометастазов, хотя бы одна ИКО	1	0	1	22	24
Без макро- и микрометастазов и без ИКО	50	20	26	56	152
Всего	98	33	42	98	271

В первом столбце обозначены категории, а в первой строке обозначены различные наборы данных. (ИКО = изолированные клетки опухоли).

Обнаружение рака предстательной железы

Карта вероятности злокачественных изменений (КВЗИ) — результат работы СНС, определяет вероятность злокачественных изменений на пиксель, для ИЦП из тестового набора с 30% злокачественных изменений от общей площади ткани карта показана на Рис. 2. Злокачественное поражение желез отмечено патоморфологом (ограничено пурпурной линей) выявлено верно с большой вероятностью. Строма в описанных участках выявлена верно — это участок малой вероятности злокачественных изменений (в зеленом цвете, хорошо видны на фрагментах изображений высокого разрешения).

Источник: Scientific Reports

В верхнем ряду показано полное поле обзора, в нижнем - в увеличенном масштабе (участок, отмеченный квадратом).

Во втором столбике отражена карта вероятности злокачественных изменений, наложенная на первоначальное изображение. Красным отмечена высокая вероятность злокачественных изменений, в то время как прозрачные/зеленые участки соответствуют низкой вероятности.

Несколько других примеров представлены на Рис. 3. На Рис. 3b показан фрагмент изображения ложноположительного участка в высоком разрешении. В связи с препаровкой и гистопатологической обработкой, края ткани биоптата часто деформируются и рвутся, это приводит к их мнимому патологическому виду. Если изучить эти участки вблизи, мы видим, что ложноположительные участки железы в самом деле имеют некоторое сходство с участками злокачественных изменений (например, слияние желез, необычная форма). В общем, мы можем увидеть четкое разделение между злокачественным (Рис. 2 и 3а) и доброкачественным биоптатами (Рис. 3b,c), основываясь на КВЗИ.

Источник: Scientific reports

В каждом примере (a-c) показано полное поле обзора с наложенной картой вероятности злокачественных изменений. Красным отмечена высокая вероятность злокачественных изменений, в то время как прозрачные/зеленые участки соответствуют низкой вероятности. Пример (а) содержит около 40% злокачественных изменений (обозначен пурпурным контуром), примеры (b,c) не содержат злокачественных изменений. Увеличенные фрагменты изображений соответствуют участкам, обозначенным черным квадратом. В примере (b) мы выделили небольшую зону с ложноположительным результатом, вызванным деформацией ткани у краев биоптата.

Результат проведения анализа гистограммы КВЗИ наиболее хорошо выражается количественно с помощью ROC-анализа. На Рис. 4 представлены ROC-кривые для анализа медианы и 90-го процентиля кумулятивных гистограмм КВЗИ независимых тестовых наборов. Прерывистыми линиями обозначены необработанные ROC-кривые, сплошными линиями и затемненными участками показаны средняя ROC-кривая после бутстрепа и 95-е процентили. Бутстреп — метод статистического анализа, позволяющий рассчитать доверительные интервалы (ДИ) посредством повторного ресэмплинга репрезентативной выборки. Средния площадь после бутстрепа под ROC-кривой (ППК) для анализа медианы составляла 0,99 (0,95-1,0) и 0,98 (0,94-0,99) для анализа 90-го процентиля. Тем не менее, анализ 90-го процентиля имеет более высокую специфичность при уровне чувствительности 0,999 (0,32, 95%-ДИ: 0,29-0,97) в сравнении с анализом медианы (0,17, 95%-ДИ: 0,15-1,0).

Источник: Scientific reports

Для получения ROC-кривых было использовано два параметра гистограмм - медиана и 90-й процентиль кумулятивной гистограммы изображений цельных препаратов. Средняя ROC-кривая имеет большую площадь под кривой (ППК), тем не менее 90-й процентиль ROC кривой показывает бóльшую специфичность при высокой чувствительности. Сплошными линиями отмечена средняя ROC-кривая после бутстрепа, затемненные участки обозначают 95-й процентильные доверительные интервалы, прерывистая линия - “сырая” ROC-кривая.

Выявление метастазов рака молочной железы в сторожевых лимфатических узлах

Характерные примеры образцов сторожевых лимфатических узлов представлены на Рис. 5 (без метастазов) и Рис. 6 (с метастазами). Метастазы выявлены верно с очень высокой вероятностью (красный цвет). Участки, содержащие только лимфоциты, главным образом не окрашены (вероятность близка к нулю), в то время как участки, содержащие гистиоциты или смесь гистиоцитов и лимфоцитов, слабо окрашены зеленым (низкая вероятность). Поиск различий между участками, богатыми гистиоцитами, и метастазами - хорошо известная патоморфологам проблема.

Источник: Scientific reports

Карты вероятности метастазов наложены на оригинальное изображение с окраской гематоксилин-эозин. Прозрачные/зеленые участки соответствуют низкой вероятности, в то время как красным отмечена высокая вероятность злокачественных изменений. Участки, отмеченные желтыми квадратами на цельных препаратах, в правой части изображений показаны в полном разрешении.

Результаты были проанализированы количественно двумя путями. FROC-анализ использовался для оценки точности локализации, а ROC-анализ использовался для оценки качества на уровне препарата. FROC-анализ проводился только в тестовом наборе, поскольку описания необходимы для оценки точности локализации. FROC и ROC-кривые показаны на Рис. 7. Обобщенные результаты FROC и ROC-анализов приведены в Таблице 3. Ценой одного-двух ложноположительных обнаружений на опухоль-негативное изображение (примечание переводчика: фотография среза, на котором нет злокачественных изменений ткани) 90% или 93% всех отдельных микро- и макрометастазов могли быть обнаружены, соответственно. Если мы также включали случаи изолированных клеток опухоли (ИКО), 71% был обнаружен ценой одного ложноположительно обнаружение на опухоль-негативное изображение и 74% были обнаружены ценой двух ложноположительных обнаружений на изображение.

Источник: Scientific reports

Карты вероятности метастазов наложены на оригинальное изображение с окраской гематоксилин-эозин. Прозрачные/зеленые участки соответствуют низкой вероятности, в то время как красным отмечена высокая вероятность злокачественных изменений. Пурпурным контуром обозначена реальная ситуация. Участки, отмеченные желтыми квадратами на цельных препаратах, в правой части изображений показаны в полном разрешении

Источник: Scientific reports

Карты вероятности метастазов наложены на оригинальное изображение с окраской гематоксилин-эозин. Прозрачные/зеленые участки соответствуют низкой вероятности, в то время как красным отмечена высокая вероятность злокачественных изменений. Пурпурным контуром обозначена реальная ситуация. Участки, отмеченные желтыми квадратами на цельных препаратах, в правой части изображений показаны в полном разрешении

ROC-анализ показывает, что как в тестовом, так и в последовательном наборах данных площадь под ROC-кривой, близкая к 0,90, может быть получена на уровне препарата при отграничении препаратов содержащих микро- и макрометастазы от не содержащих их. Более того, при 0,999 чувствительности можно достигнуть до 0,44 специфичности в последовательном наборе. При использовании препаратов, содержащих только ИКО, качество анализа падало (площадь под ROC-кривой - 0,74; специфичность - 0,02, чувствительность - 0,999).

Таблица 3. FROC и ROC анализ в эксперименте со сторожевыми лимфатическими узлами.

Анализ FROC	1 ЛП	2 ЛП
Чувствительность (вкл. ИКО)	0,71 (0,39-0,93)	0,74 (0,59–0,94)
Чувствительность (искл. ИКО)	0,90 (0,63-0,99)	0,93 (0,78–1,0)
Анализ ROC	Площадь под кривой	Специфичность при 99,9% чувствительности
Тест (вкл. ИКО)	0,88 (0,77-0,97)	0,39 (0,33–0,90)
Тест (искл. ИКО)	0,90 (0,79-0,98)	0,39 (0,32–0,94)
последовательный (вкл. ИКО)	0,74 (0,65-0,82)	0,02 (0,01–0,30)
последовательный (искл. ИКО)	0,88 (0,81-0,93)	0,44 (0,43–0,69)

Средние бутстрапированные значения даны для чувствительности (FROC анализ), зоны под кривой (ROC анализ) и специфичности при 99,9% чувствительности (ROC анализ). 95% доверительные интервалы, полученные путем бутстрапированния, показаны в скобках. (ЛП = ложно положительные обнаружения в опухоль-негативном изображении).

Методы

Материалы

Для всех пациентов в данном исследовании экспертный совет отказался от необходимости в информированном согласии.

Рак предстательной железы. В системе PACS нашего учреждения был осуществлен поиск всех пациентов, которые проходили биопсию предстательной железы под контролем МРТ после первоначальной многопараметрической МРТ, с подозрением на рак в 2012. Результаты, полученные от 254 пациентов, были изначально включены в данное исследование. После оценки пригодности для включения, пациенты были случайным образом разделены между тремя наборами: обучающим, валидационным и тестовым.

Биоптаты были предварительно окрашены с использованием стандартных протоколов окрашивания гематоксилин-эозином

из рутинной клинической практики, после чего биоптаты были проанализированы и описаны опытными патоморфологами как часть рутинной диагностической работы. Для этого исследования препараты были получены из архива отделения патологии для последующей оцифровки.

Сторожевый лимфатический узел. Для первоначального обучающего набора были использованы задокументированные случаи со сторожевыми лимфатическими узлами из практики одного опытного патоморфолога (P.B.). Образцы сторожевых узлов были предварительно окрашены с использованием стандартных протоколов окрашивания гематоксилин-эозином из рутинной клинической практики, после чего образцы были проанализированы и описаны опытными патоморфологами как часть рутинной диагностической работы.

Чтобы удостовериться в том, что наши результаты не были случайно предвзятыми из-за использования материалов, полученных от одного патоморфолога, мы также включили все случаи со сторожевыми лимфатическими узлами с октября 2014 по апрель 2015 в качестве дополнительного тестового набора.

Вслед за этим из архива отделения патологии было последовательно получено по одному окрашенному гематоксилин-эозином препарату от каждого пациента для оцифровки. Препараты отбирались таким образом, чтобы они содержали обширные зоны метастазов, если метастазы присутствовали.

Оцифровка и описание

Рак предстательной железы. Препараты со злокачественными изменениями предстательной железы были оцифрованы с помощью системы сканирования препаратов Olympus VS120-S5. Препараты были оцифрованы с использованием объектива 40х (масштаб: 1 пиксель = 0,16 микрон). На оцифрованных препаратах злокачественные изменения были отмечены от руки с помощью разработанного нами инструмента. Описание было произведено сотрудником патологического отделения (I.K.) под руководством опытного патоморфолога (C.H.-v.d.K.). Иногда два последовательных среза были помещены на один препарат. В этих случаях описывался только один срез, а другой исключался из последующего анализа.

Сторожевые лимфатические узлы. Препараты сторожевых лимфатических узлов были оцифрованы сканером препаратов 3DHistech Pannoramic 250 Flash II. Препараты были оцифрованы с использованием объектива 20х (масштаб: 1 пиксель = 0,24 микрон). После оцифровки препараты были описаны с использованием программы Aperio ImageScope и инструмента для обозначения границ опухоли от руки. Описание было произведено лабораторным техником (M.H.). Точность и полнота описаний были проверены опытным патоморфологом (P.B.).

Дополнительный набор не был описан, для этого набора был доступен только отчет патоморфолога.

Этапы предварительной обработки

Описания были использованы для создания бинарных изображений-масок в таком же разрешении как и у первоначальных препаратов. Каждый пиксель внутри описанного участка был помечен как злокачественное изменение (метка 1), в то время как все остальные участки остались пустыми (метка 0). Вдобавок к бинарной аннотирующей маске, мы также создали бинарную маску ткани, чтобы отграничить фон от ткани. С этой целью мы провели простую процедуру ограничения оптической плотности RGB каналов. Оптическая плотность канала получена по формуле:

ODC — оптическая плотность канала c (Красный, Зеленый или Синий); I — интенсивность канала; Imax — максимальная интенсивность, которая равняется 255 в связи с 8-битной квантизацией. Ограничивая оптические плотности при 0,2, получилось исключить весь фон, что позволило получить бинарную маску, где ткань имеет метку 1, а фон - метку 0.

Обучение и применение сверточной нейронной сети. Для обучения сверточной нейронной сети мы использовали библиотеки “глубокого обучения” Theano 0.7 и pylearn2 0.1, находящиеся в свободном доступе.

Поскольку невозможно предоставить нейросети полные изображения цельных препаратов в один прием, мы случайным образом выделили небольшие патчи из изображений цельных препаратов для обучения. Результаты на цельных препаратах могут быть получены путем применения сети к каждому пикселю изображения.

Размер патчей в пикселях был определен эмпирически в ходе первоначальных экспериментов. Мы пробовали патчи размером 64x64, 128x128, 256x256. Патчи размером 64x64 имели значительно меньшую точность, а патчи размером 256x256 ограничивали глубину сверточной сети в связи с ограничениями оперативной памяти. Таким образом, мы остановились на патчах размером 128x128.

Для того, чтобы сеть научилась распознавать вид злокачественных изменений (в этой статье — рак предстательной железы и метастазирующий рак молочный железы), важно, чтобы маленькие патчи содержали достаточно информации, чтобы обеспечить разграничение патчей со злокачественными изменениями и без них. При выборе слишком больших патчей сети тяжелее распознать релевантные особенности для разграничения. Таким образом было выявлено наиболее информативное разрешение.

Инструкция для эксперимента с раком предстательной железы предполагает, что изначальное изучение биоптатов должно проводиться с помощью микроскопа при увеличении 5х, которое являтеся достаточным для определения злокачественных изменений. Затем мы подтвердили это в небольшом обзорном эксперименте, в котором необученный исследователь смог разграничить патчи, содержащие злокачественные изменений, от патчей, которые не содержали их, при увеличении 5х (0,60 микрон на пиксель). Таким образом, для этого эксперимента патчи извлекались при увеличении 5х. Для сторожевых лимфатических узлов использовалась схожая стратегия, но при увеличении 10х (0,48 микрон на пиксель).

Патчи размером 128х128 были извлечены при определенном разрешении как с участков ткани со злокачественными изменениями, так и без них, с помощью масок, полученных на стадии предварительной обработки. Извлечение было проведено так, чтобы для обоих классов было получено равное количество патчей. Во время извлечения патчи поворачивали (0, 90, 180 и 270 градусов), а затем переворачивали, чтобы удостовериться в том, что нейронная сеть не будет изучать особенности, зависящие от поворота. Результатом этого стало восемь вариантов каждого патча, это было сделано как для положительных, так и для отрицательных образцов. Всего было получено 920000 патчей для эксперимента с раком предстательной железы и 2,6 миллиона патчей для эксперимента с лимфатическими узлами. Извлечение патчей производилось с помощью обучающего и валидационного наборов в обоих экспериментах. Тестовые наборы в обоих экспериментах использовались для окончательной оценки и не применялись во время процедуры обучения.

После извлечения патчей конволюционная нейронная сеть обучалась, качество обучения сети подвергалось мониторингу посредством оценки частоты ошибочной классификации в валидационном наборе патчей. Обучение прекращалось, когда положение с ошибками в валидационном наборе не улучшалось в течение пяти эпох. Структура сети (например, количество слоев, количество фильтров на слой, количество узлов в полностью соединенных слоях) и параметры (например, темп обучения, скорость) подвергались постоянной поправке для достижения максимального качества в валидационном наборе. В конце концов, очень схожие структура и параметры сети были получены в обоих экспериментах. Время обучения на одну эпоху составляло приблизительно 80 и 200 минут на эпоху для экспериментов с раком простаты и лимфатическими узлами, соответственно (GeForce GTX970). Наилучшее качество было достигнуто после 5 и 12 эпох соответственно. Полный перечень параметров сети представлен в файлах-приложениях.

После обучения СНС была переведена в полностью сверточную сеть для быстрого применения на изображениях цельных препаратов27. Применение этих полностью сверточных сетей к изображениям цельных препаратов привело к созданию карт вероятности, где каждому пикселю назначено значение либо 0 (нет злокачественных изменений), либо 1 (есть злокачественные изменения). Генерация карты вероятности для биоптатов предстательной железы занимает 5-10 минут, а для препаратов лимфатических узлов - около 30-40 минут. Тем не менее, среднее время анализа препарата в большой степени зависит от количества ткани на препарате. Из-за особенности процедур, биоптаты предстательной железы содержали намного меньше ткани и поэтому обрабатывались быстрее.

В связи с особенностями препаратов сторожевых лимфатических узлов, когда лишь маленький участок препарата содержит злокачественные изменения, а большая часть препарата покрыта лимфоцитами, некоторые нормальные участки, которые похожи на злокачественные изменения, обычно недостаточно представлены в обучающих данных. Другими словами, сеть не способна распознавать эти участки как норму. Для решения этой проблемы мы использовали алгоритмы бустинга, схожий с тем, который применяли Cirsan et al.9 Мы использовали изначальные карты вероятности, полученные для обучающего набора данных, для отбора новых патчей как содержащих, так и не содержащих злокачественных изменений. Но в этот раз мы увеличили вероятность добавления патча к обучающим данным, если центральный пиксель патча был изначально неправильно классифицирован сетью. Этот процесс привел к получению дополнительных обучающих данных, которые содержат более сложные образцы. Затем мы повторно обучили сеть на старых и обогащенных патчах и получили окончательные карты вероятности для препаратов сторожевых лимфатических узлов.

Алгоритмы бустинга не применялись в эксперименте по выявлению рака предстательной железы, поскольку в препаратах биоптатов участки со злокачественными изменениями и участки нормальной ткани более сбалансированы.

Оценка

Рак предстательной железы. Нормализованная кумулятивная гистограмма вычислена по окончательному вероятностному изображению цельного препарата. Гистограмма была составлена из 100 интервалов, равномерно распределенных между 0 и 1. В случаях, когда на препарате не было злокачественных изменений, гистограмма быстро поднималась, а в случаях наличия злокачественных изменений на препаратах, гистограмма поднималась медленнее. Для перехода от общей гистограммы на уровень отдельных препаратов мы использовали перцентильный анализ. Выбрав перцентиль мы изучали, с какой вероятностью мы можем получить этот перцентиль. Делая это для каждого случая и проводя ROC-анализ при такой вероятности, мы оценивали качество работы СНС на уровне препарата. Мы использовали валидационный набор данных для получения оптимальных перцентилей с шириной шага больше 10, как для общей зоны под ROC-кривой, так и для высочайшей специфичности при 0,999 чувствительности, которые являлись медианой и 90-м перцентилем соответственно.

Для достижения доверительного интервала зоны под ROC-кривой 10,000 раз делался ресэмплинг для бутстрепа.

Сторожевой лимфатический узел. Окончательная карта вероятности для препаратов сторожевых лимфатических узлов изначально была ограничена вероятностью в 0,3, чтобы избавиться от ложноположительных результатов при низкой вероятности. Затем мы провели анализ связных компонентов, чтобы получить все обнаруженные патологические изменения. Все компоненты с диаметром меньше 0,02 мм (10% от минимального диаметра микрометастазов) были исключены, чтобы избежать ложного определения, связанного с артефактами (например, пылью, деформацией ткани). Для получения вероятности на компонент, средняя вероятность по всем пикселям была вычислена внутри каждого компонента.

Учитывая сегментацию компонентов и их вероятности, мы провели FROC-анализ на уровне метастазов и ROC-анализ на уровне препаратов в тестовом выборке. В последовательном наборе проводился только ROC-анализ, и для этого набора описаний не было. При обнаружении мы оценивали каждый индивидуальный метастаз, будь то макро-, микрометастаз или ИКО посредством FROC-анализа. Метастаз считался обнаруженным, когда коэффициент Дайса для сегментации компонента был как минимум 0,5 (с описанием). Все компоненты, которые не совпадали с метастазами, считались ложноположительными обнаружениями. Вероятность компонента затем использовалась для создания FROC-кривой. Чувствительность FROC-кривой выражена с учетом ложноположительных обнаружений в препаратах, не содержащих метастазов.

В ROC-анализе компонент с наибольшей вероятностью является наиболее функциональным и используется в качестве “точки отсчета” для препарата. Эти вероятности на препарате были затем использованы для создания ROC-кривых на уровне препарата.

Все анализы сторожевых лимфатических узлов проводились дважды: в первом случае допускалось, что ИКО не являются метастазами (ИКО игнорировались), в другом случае допускалось, что ИКО являются метастазами и должны быть обнаружены.

Перевод: Станислав Кирсанов

Редакция: Полина Тиканова, Николай Лисицкий

Обложка: Антон Осипенко

Оригинал

Источники

Fischer A. H., Jacobson K. A., Rose J. & Zeller R. Hematoxylin and eosin staining of tissue and cell sections. CSH Protoc 2008, pdb.prot4986 (2008).
Epstein J. I., Allsbrook W. C., Amin M. B. & Egevad L. L. & ISUP Grading Committee. The 2005 International Society of Urological Pathology (ISUP) consensus conference on Gleason grading of prostatic carcinoma. Am. J. Surg. Pathol. 29, 1228–1242 (2005).
Genestie C. et al. . Comparison of the prognostic value of Scarff-Bloom-Richardson and nottingham histological grades in a series of 825 cases of breast cancer: major importance of the mitotic count as a component of both grading systems. Anticancer Res. 18, 571–576 (1998).
Weaver D. L. Pathology evaluation of sentinel lymph nodes in breast cancer: protocol recommendations and rationale. Mod. Pathol. 23 Suppl 2, S26–S32 (2010).
Gurcan M. N. et al. . Histopathological image analysis: a review. Biomedical Engineering, IEEE Reviews in 2, 147–171 (2009).
LeCun Y., Bengio Y. & Hinton G. Deep learning. Nature. 521, 436–444 (2015).
Krizhevsky A., Sutskever I. & Hinton G. E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems. 25, 1097–1105 (2012).
Szegedy C. et al. . Going deeper with convolutions. arXiv:14094842v1 (2014).
Ciresan D. C., Giusti A., Gambardella L. M. & Schmidhuber J. Mitosis detection in breast cancer histology images with deep neural networks. Med Image Comput Comput Assist Interv. 8150, 411–418 (2013).
Ciresan D., Giusti A., Gambardella L. M. & Schmidhuber J. Deep neural networks segment neuronal membranes in electron microscopy images. Advances in Neural Information Processing Systems. 25, 2843–2851 (2012).
Wang H. et al. . Mitosis detection in breast cancer pathology images by combining handcrafted and convolutional neural network features. Journal of Medical Imaging 1, 034003–034003 (2014).
Cruz-Roa A. et al. . Automatic detection of invasive ductal carcinoma in whole slide images with convolutional neural networks. In SPIE Medical Imaging 904103–904103 (International Society for Optics and Photonics, 2014).
Ertosun M. G. & Rubin D. L. Automated grading of gliomas using deep learning in digital pathology images: A modular approach with ensemble of convolutional neural networks. In AMIA Annual Symposium Proceedings vol. 2015, 1899 (American Medical Informatics Association, 2015).
Xu J., Luo X., Wang G., Gilmore H. & Madabhushi A. A deep convolutional neural network for segmenting and classifying epithelial and stromal regions in histopathological images. Neurocomputing. 191, 214–223 (2016).
Su H. et al. . Robust cell detection and segmentation in histopathological images using sparse reconstruction and stacked denoising autoencoders. Med Image Comput Comput Assist Interv, 9351, 383–390 (2015).
Zlotta A. R. & Nam R. K. To biopsy or not to biopsy–thou shall think twice. Eur Urol. 61, 1115–7, discussion 1117–8 (2012).
Kim T., Giuliano A. E. & Lyman G. H. Lymphatic mapping and sentinel lymph node biopsy in early-stage breast carcinoma: a metaanalysis. Cancer. 106, 4–16 (2006).
Efron B. & Tibshirani R. J. An introduction to the bootstrap vol. 57 (CRC press, 1994).
Chen T. & Chefd’hotel C. Deep learning based automatic immune cell detection for immunohistochemistry images In Machine Learning in Medical Imaging 17–24 (Springer, 2014).
Cruz-Roa A. A., Arevalo Ovalle J. E., Madabhushi A. & González Osorio F. A. A deep learning architecture for image representation, visual interpretability and automated basal-cell carcinoma cancer detection. Med Image Comput Comput Assist Interv. 8150, 403–410 (2013).
Reed J. et al. . Prognostic implications of isolated tumor cells and micrometastases in sentinel nodes of patients with invasive breast cancer: 10- analysis of patients enrolled in the prospective East Carolina University/Anne Arundel Medical Center Sentinel Node Multicenter Study. J. Am. Coll. Surg. 208, 333–340 (2009).
de Boer M. et al. . Micrometastases or isolated tumor cells and the outcome of breast cancer. N. Engl. J. Med. 361, 653–663 (2009).
de Boer M., van Dijck J. A., Bult P., Borm G. F. & Tjan-Heijnen V. C. Breast cancer prognosis and occult lymph node metastases, isolated tumor cells, and micrometastases. J Natl. Cancer Inst. 102, 410–425 (2010).
Weaver D. L. et al. . Effect of occult metastases on survival in node-negative breast cancer. N. Engl. J. Med. 364, 412–421 (2011).
Bergstra J. et al. . Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy) (2010).
Goodfellow I. J. et al. . Pylearn2: a machine learning research library. arXiv preprint arXiv:13084214 (2013).
Sermanet P. et al. . OverFeat: Integrated recognition, localization and detection using convolutional networks. In International Conference on Learning Representations (ICLR 2014) (2014). Available at: http://old.arxiv.org/pdf/1312.6229v4.pdf (Accessed: April 20th 2016).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.