Segmentação de Imagens Médicas com Deep Learning

Normalmente, um dos principais problemas no diagnóstico médico é a subjetividade do especialista na hora da decisão. Mais especificamente, em interpretação de imagens médicas, a experiência do especialista pode determinar muito o resultado do diagnóstico final.

Métodos manuais de visualização às vezes pode ser muito tediosos, demorados e sujeitos a erros por parte do intérprete. Isso levou ao crescimento de diagnósticos automatizados baseados em imagens como suporte, sendo um dos tópicos de pesquisa mais ativos atualmente.

O surgimento do paradigma de aprendizado profundo (Deep Learning) e os recentes avanços no poder computacional permitiram o desenvolvimento de novos diagnósticos inteligentes com base em Visão Computacional.

E este é o tema deste artigo: Segmentação de Imagens Médicas com Deep Learning.

Caso você nunca tenha ouvido falar em Visão Computacional, uma das áreas mais ativas em Inteligência Artificial na atualidade, visite este outro artigo em nosso blog, para uma definição mais detalhada: O Que é Visão Computacional?

Visão Computacional e o Setor de Saúde

O setor de saúde tem uma série de características particulares, que o torna totalmente diferente de outros setores. É óbvia a necessidade de atendimento médico com precisão e as pessoas esperam o mais alto nível de cuidados e serviços, em vários casos independentemente do custo.

A análise de imagens médicas atraiu cada vez mais atenção nos últimos anos devido ao seu componente vital nas aplicações de saúde. O avanço na Visão Computacional, como fusão de imagem multimodal, segmentação de imagens médicas, registro de imagens, diagnóstico assistido por computador, anotação de imagem e terapia guiada por imagens, abriram muitas novas possibilidades para revolucionar a saúde. Tais áreas incluem cuidados de saúde com o uso de dispositivos móveis, sensores biométricos, Visão Computacional para análise e terapia preditiva, entre outras aplicações.

Atualmente, boa parte da interpretação de dados médicos é feita de forma manual por especialistas. Mas a interpretação de imagens por peritos humanos é bastante limitada devido à sua subjetividade, complexidade da imagem, variações, fadiga do perito e diferenças de interpretação. Após o sucesso do Deep Learning em outras aplicações do mundo real, as redes neurais profundas agora estão fornecendo soluções realmente incríveis e com boa precisão para imagens médicas e é visto como um método chave para futuras aplicações no setor de saúde. Vejamos alguns exemplos.

Aplicações da Visão Computacional no Setor de Saúde

Esta não é uma lista definitiva, mas sim algumas das aplicações de Machine Learning, especialmente Deep Learning, e Visão Computacional em aplicações que fornecem impacto significativo no setor de saúde. É importante ressaltar que Deep Learning não é o único método para o trabalho em Visão Computacional, mas é o que tem conseguido resultados no estado da arte neste campo.

Diagnósticos em Imagens Médicas

A Visão Computacional tem sido um dos avanços mais notáveis em Inteligência Artificial, graças ao Machine Learning e em especial a uma sub-área do aprendizado de máquina, o Deep Learning, que vem sendo usado em muitas aplicações no setor de saúde. Uma iniciativa da Microsoft chamada Project InnerEye – Medical Imaging AI to Empower Clinicians (iniciada em 2008) está atualmente trabalhando em ferramentas de diagnóstico baseado em imagens e a equipe publicou uma série de vídeos explicando seus desenvolvimentos, incluindo este vídeo sobre Machine Learning para análise de imagem:

Deep Learning provavelmente desempenhará um papel cada vez mais importante nas aplicações de diagnóstico, uma vez que o aprendizado profundo se torna mais acessível e, à medida que mais fontes de dados (incluindo formas ricas e variadas de imagens médicas) se tornem parte do processo de diagnóstico baseado em IA.

Contudo, as aplicações de aprendizagem profunda são conhecidas como limitadas em sua capacidade explicativa. Em outras palavras, um sistema de aprendizado profundo treinado não pode explicar “como” chegou às suas previsões – mesmo quando estão corretas. Este tipo de “problema de caixa preta” é ainda mais desafiador nos cuidados de saúde, onde os médicos não querem tomar decisões de vida e morte sem uma compreensão firme de como a máquina chegou à recomendação (mesmo que essas recomendações tenham provado estar corretas no passado).

Para os leitores que não estão familiarizados com o aprendizado profundo, mas que gostariam de uma explicação informada e simplificada, recomendo o Deep Learning Book, uma iniciativa da Data Science Academy para ajudar a difundir o Deep Learning no Brasil, inteiramente em português, online e gratuito.

Consultas e Sugestões de Tratamento

O diagnóstico é um processo muito complicado e envolve – pelo menos por enquanto – uma miríade de fatores (da cor do branco dos olhos dos pacientes aos alimentos que eles consomem no café da manhã), dos quais as máquinas não podem coletar e dar sentido; No entanto, há poucas dúvidas de que uma máquina pode ajudar os médicos a fazer as considerações corretas no diagnóstico e no tratamento, simplesmente servindo como extensão do conhecimento científico.

Isso é o que o Departamento de Oncologia do Memorial Sloan Kettering (MSK) está apontando em sua recente parceria com o IBM Watson. O MSK possui uma série de dados sobre pacientes com câncer e tratamentos usados ao longo de décadas, e é capaz de apresentar e sugerir ideias de tratamento ou opções aos médicos para lidar com casos de câncer no futuro – considerando o que funcionou melhor no passado. Esse tipo de ferramenta de “Inteligência Aumentada” já está em uso preliminar atualmente.

Coleta de Dados Médicos em Escala / Crowdsourced

Existe um grande foco na partilha de dados de vários dispositivos móveis, a fim de agregar e dar sentido a mais dados de saúde. O ResearchKit da Apple tem como objetivo fazer isso no tratamento da doença de Parkinson e da síndrome de Asperger, permitindo que os usuários acessem aplicativos interativos (um dos quais aplica aprendizagem de máquina para reconhecimento facial) que avaliam suas condições ao longo do tempo. O uso do aplicativo alimenta os dados de progresso em curso, em um pool anônimo para estudo futuro.

A IBM está tentando adquirir todos os dados de saúde que ela pode obter, desde a parceria com a Medtronic para coletar dados sobre diabetes e dados de insulina em tempo real, e até mesmo comprar a empresa de análise de saúde Truven Health por US $ 2,6 bilhões. Ninguém compra uma empresa por 2,6 bilhões de dólares se não acreditar que terá retorno sobre o investimento!

Apesar do enorme dilúvio de dados de saúde fornecidos pela Internet das Coisas (IoT), o setor ainda parece estar tentando compreender como essas informações podem ser usadas e fazer mudanças em tempo real no tratamento. Cientistas e pacientes estão otimistas de que, à medida que essa tendência de dados de consumidores reunidos continuar, os pesquisadores terão mais munições para combater doenças difíceis e casos únicos.

Cirurgia Robótica

O Da Vinci Robot obteve a maior parte da atenção no espaço da cirurgia robótica nos últimos anos, e alguns poderiam argumentar por uma boa razão. Este dispositivo permite que os cirurgiões manipulem membros robotizados para realizar cirurgias com detalhes finos e em espaços apertados (e com menos tremores) do que seria possível pela mão humana sozinha. Aqui está um vídeo que destaca a destreza incrível do robô Da Vinci:

Embora nem todos os procedimentos de cirurgia robótica envolvam aprendizado em máquina, alguns sistemas utilizam a Visão Computacional (auxiliada pela aprendizagem de máquina) para identificar distâncias ou uma parte específica do corpo (como a identificação de folículos capilares para transplante na cabeça, no caso de cirurgia de transplante de cabelo) . Além disso, a aprendizagem de máquina é, em alguns casos, usada para estabilizar o movimento dos membros robotizados ao receber instruções dos controladores humanos.

Medicina Personalizada

Se o seu filho tiver o dente quebrado, é provável que sejam prescritas algumas doses de Vicodin. Para uma infecção do trato urinário, é provável que o médico receite Bactrim. No futuro não muito distante, poucos pacientes receberão exatamente a mesma dose de qualquer medicamento. Na verdade, se conhecemos o suficiente sobre a genética e a história do paciente, os médicos poderão prescrever medicamentos não com base apenas na doença, mas também na genética e histórico do paciente!

A promessa de medicina personalizada é um mundo no qual as recomendações de saúde e tratamentos de doenças são adaptados com base em sua história médica, linhagem genética, condições passadas, dieta, níveis de estresse e muito mais. E para buscar padrões, fazer as correlações entre os dados e prever o medicamento ideal, na dose ideal, podemos empregar Deep Learning e obter resultados cada vez mais precisos.

Embora eventualmente isso possa se aplicar a condições menores (ou seja, dar a alguém uma dose ligeiramente menor de Bactrim ou uma variação completamente original de Bactrim formulada para evitar efeitos colaterais para uma pessoa com perfil genético específico), é provável que muito do seu impacto inicial seja melhor percebido em situações de alto risco (ou seja, decidir se deve ou não entrar em quimioterapia, com base na idade, gênero, raça, genética, etc.).

Deep Learning no Combate ao Câncer

Deep Learning desempenha um papel vital na detecção precoce do câncer. Um estudo publicado pela NVIDIA mostrou que a aprendizagem profunda diminui a taxa de erro para diagnósticos de câncer de mama em 85%. Esta foi a inspiração para os co-fundadores Jeet Raut e Peter Njenga quando criaram a plataforma de imagens médicas Behold.ai. A mãe de Raut foi informada por um médico (humano) de que ela já não tinha câncer de mama, um diagnóstico que revelou ser falso e que poderia ter custado sua vida.

Além de ser a segunda principal causa de morte (responsável por 8,8 milhões de mortes em todo o mundo em 2015), o câncer também tem impactos significativos e crescentes na economia. Em 2010, o custo anual total do câncer foi estimado em cerca de US $ 1,6 trilhão. Mas a boa notícia é que a detecção precoce pode salvar não só bilhões de dólares, mas inúmeras vidas. Numa conversa no TEDx 2014, o CEO e fundador da Enlitic, Jeremy Howard, disse: “Se você detectar câncer cedo, sua probabilidade de sobrevivência é 10 vezes maior”.

Felizmente, o aprendizado profundo mostrou capacidades para alcançar resultados de precisão diagnóstica mais altos em comparação com muitos especialistas. Embora isso possa ser uma questão de disputa com os médicos (o que na verdade não deveria ser), para muitas vítimas possíveis, a tecnologia pode ser o diferencial entre viver ou morrer.

Já está convencido como a aprendizagem de máquina vem sendo aplicada com sucesso no setor de saúde, com grande potencial para os próximos anos? Acima listamos apenas alguns exemplos. Consulte as referências ao final do artigo para vários outros avanços nesta área. O maior problema atualmente, para a evolução de aplicações de saúde baseadas em IA, é a falta de profissionais qualificados no mercado em todo mundo.

Agora vamos compreender de maneira mais específica como usar Visão Computacional e Deep Learning em segmentação de imagens médicas.

Atividades em Visão Computacional

Vamos começar, compreendendo as quatro principais atividades em Visão Computacional:

Classificação é o processo de determinar a classe ou categoria de imagem. Coletamos dados de entrada (imagens), definimos as possíveis saídas (as classes) e treinamos um modelo de Deep Learning. Ao apresentar novas imagens ao modelo, ele deverá ser capaz de prever a probabilidade da imagem pertencer a cada uma das categorias que definimos durante o treinamento. Tarefa básica em Machine Learning.

Mas em alguns casos, a classificação pode não ser suficiente e precisamos também saber a localização de um objeto em uma imagem. Nesse caso, além de prever a classe (gato, cachorro, avião, pessoa), nosso modelo deve prever as coordenadas da área (chamada de caixa delimitadora ou bounding box) onde o objeto está situado dentro da imagem.

A combinação Classificação + Localização funciona muito bem quando temos apenas um objeto em uma imagem. Mas e quando temos múltiplos objetos ou nenhum objeto? Neste caso usamos técnicas de Detecção de Objetos, para detectar múltiplos objetos em uma cena, seja uma imagem ou em um vídeo.

Por fim, temos a Segmentação. Em Visão Computacional, a segmentação da imagem é o processo de partição de uma imagem em múltiplos segmentos (conjuntos de pixels, também conhecidos como super-pixels). O objetivo da segmentação é simplificar e/ou alterar a representação de uma imagem em algo que é mais significativo e mais fácil de analisar. A segmentação da imagem normalmente é usada para localizar objetos e limites (linhas, curvas, etc.) em imagens. Mais precisamente, a segmentação da imagem é o processo de atribuição de um rótulo a cada pixel em uma imagem, de modo que os pixels com o mesmo rótulo compartilhem certas características. Esta técnica de Visão Computacional pode ser usada para analisar imagens médicas (como imagens de ressonância magnética) e identificar um tumor no cérebro, um problema no rim ou uma deficiência no ventrículo esquerdo do coração, ajudando os médicos a fornecer diagnósticos bem mais precisos ou mesmo prevendo eventuais problemas de saúde, garantindo assim um tratamento pró-ativo.

Segmentação de Imagens Médicas

Segmentação é o processo que divide uma imagem em regiões com propriedades semelhantes, como nível de cinza, cor, textura, brilho e contraste. O papel da segmentação é subdividir os objetos em uma imagem. No caso de segmentação de imagens médicas, o objetivo é:

Estudar estrutura anatômica.
Identificar a Região de Interesse, ou seja, localizar tumor, lesão e outras anormalidades.
Medir o volume do tecido para medir o crescimento do tumor (e também diminuir o tamanho do tumor com tratamento).
Ajudar no planejamento do tratamento antes da radioterapia ou no cálculo da dose de radiação.

A segmentação automática de imagens médicas é uma tarefa difícil, pois as imagens médicas são de natureza complexa e raramente apresentam qualquer característica linear simples. Além disso, a saída do algoritmo de segmentação é afetada devido a:

Efeito de volume parcial.
Inomogeneidade de intensidade.
Presença de artefatos.
Proximidade em nível de cinza de diferentes tecidos.

Segmentation

A análise de imagens médicas é uma ferramenta inestimável em medicina. Imagens de ressonância magnética (MRI – Magnetic resonance imaging), tomografia computadorizada (CT – computed tomography), mamografia digital e outras modalidades de imagens fornecem um meio efetivo para o mapeamento de imagens que podem alimentar modelos de Deep Learning. Essas tecnologias têm aumentado significativamente o conhecimento da anatomia doente para pesquisa médica e são um componente crítico no diagnóstico e planejamento de tratamentos. A segmentação precisa das imagens médicas é um passo chave na utilização de Inteligência Artificial como ferramenta de apoio aos médicos.

Embora uma série de algoritmos tenham sido propostos no campo da segmentação de imagens médicas, este continua a ser um problema complexo e desafiador. Diferentes pesquisadores utilizam diferentes técnicas. Atualmente, do ponto de vista do processamento de imagens médicas, algo comum é a segmentação com base no nível de cinza e na textura. Extratores de recursos são utilizados para converter as imagens em conjuntos de pixels, que então são usados como dados de entrada em modelos de Deep Learning. E a principal arquitetura de aprendizado profundo que vem sendo utilizada com sucesso para estas atividades é a arquitetura de Rede Neural Convolucional (Convolutional Neural Network – CNNs ou Convnets).

O Estado da Arte

As Redes Neurais Convolucionais Profundas (ou Deep Convolutional Neural Networks) representam o estado da arte em tarefas de Visão Computacional, em atividades de classificação, detecção e segmentação de objetos. Várias arquiteturas vem sendo propostas e com o uso de programação paralela em GPU e dados (muitos dados) é possível alcançar resultados realmente fabulosos. E quando usadas em imagens médicas, surpreendem até mesmo os médicos mais experientes. Os carros autônomos são exemplos de aplicações de uso das CNNs para Visão Computacional.

As Convnets são um tipo de rede neural feed-forward. Elas recebem uma entrada (pixels de uma imagem), realizam operações matemáticas entre os dados de entrada e os pesos (multiplicação de matrizes) e calculam as probabilidades para cada possível classe de saída. Uma arquitetura típica de Convnet compreende: uma camada de entrada, camadas de convolução (componente principal da arquitetura onde ocorre a multiplicação entre os pesos e regiões do volume de entrada – como pixels no caso de imagens), camadas não-lineares (como a função de ativação ReLU, que aplica ativação elementwise), camadas de agrupamento ou Pooling (para redução de dimensionalidade) e camadas densas ou totalmente conectadas que calculam as probabilidades de cada classe. Esse diagrama resume esta arquitetura:

CNN

O processo de aprendizagem (também chamado de treinamento da rede), onde os valores dos pesos são otimizados, ocorre através do backpropagation, uma técnica que eficientemente calcula os gradientes para os pesos em relação à função de perda (loss function ou erro da rede). Esta arquitetura pode variar de acordo com as necessidades do problema a ser resolvido.

Embora as ConvNets sejam amplamente utilizadas na classificação, em muitas tarefas visuais, especialmente em processamento de imagens biomédicas, a saída desejada deve incluir localização, exigindo a atribuição de um rótulo de classe para cada pixel. Esta é a principal ideia de uma segmentação de imagens usando ConvNets.

Algoritmos de segmentação semântica recentes, convertem a arquitetura CNN existente construída para classificação, uma arquitetura totalmente convolucional (Fully Convolutional Network – FCN). Eles obtêm um mapa de rótulos da rede classificando cada região local na imagem e realizando uma simples deconvolução, que é implementada como interpolação bilinear, para rotulagem em nível de pixel. Além disso, novas propostas, introduzem a ideia da rede de deconvolução para gerar um mapa de probabilidade de classe pixel-wise densa, por operações consecutivas de descompactação, deconvolução e retificação.

E uma dessas arquiteturas CNN modificadas apresentada em 2015, vem sendo utilizada com sucesso em tarefas de segmentação de imagens biomédicas, a arquitetura U-Net, que você pode conferir abaixo.

U-Net

Ao aplicar a arquitetura a um conjunto de imagens médicas, o resultado poderia ser mostrado na figura abaixo. Perceba que existem diversas arquiteturas e você pode construir a sua, de acordo com seu objetivo, quantidade de dados e capacidade de processamento disponíveis. O resultado é a classificação e identificação automáticas de tumores, lesões e outras anormalidades, que podem ajudar os profissionais da área de saúde a desempenharem seu trabalho com muito mais precisão e segurança.

Seg