Detección temprana del cáncer de mama con machine learning

Detección temprana del cáncer de mama con machine learning
Detección temprana del cáncer de mama con machine learning

El cáncer de mama es una de las principales causas de mortalidad en mujeres a nivel mundial. Por ello estudios sobre la detección temprana del cáncer de mama con machine learning pueden marcar la diferencia en el tratamiento y la supervivencia. Afortunadamente, las herramientas tecnológicas están revolucionando la manera en que abordamos el diagnóstico.

En las últimas décadas, los procedimientos médicos han evolucionado. Hemos pasado de técnicas altamente invasivas a otras menos agresivas, como la biopsia con aguja fina. Más recientemente, la inteligencia artificial se ha convertido en una herramienta clave. La incorporación del machine learning (aprendizaje automático) en el diagnóstico médico está revolucionando la atención sanitaria. Gracias a estos avances, hoy es posible detectar lesiones sospechosas de forma más temprana y precisa.

Hoy en día, se utilizan muchos algoritmos de machine learning para el diagnóstico del cáncer de mama. Estos modelos ayudan a distinguir entre tumores benignos y malignos. Lo hacen analizando datos clínicos o características extraídas de imágenes médicas. En resumen, la tecnología se ha convertido en una aliada clave. Permite detectar el cáncer lo antes posible y apoya a los especialistas en su toma de decisiones.

¿Cómo ayuda el machine learning en el diagnóstico?

Por Pablo Mazza

Alumno de la 5ª edición del Máster en Big Data Sanitario. Healthcare Professional | Digital Health | Neurorehabilitation | Value Pharma

La pregunta natural es: ¿qué aportan exactamente estos algoritmos al proceso de detección del cáncer de mama? En el método tradicional, un médico radiólogo examina mamografías. Analizando una muestra de tejido bajo el microscopio, apoyándose en su experiencia para decidir si una lesión parece maligna. Esto, aunque eficaz, depende en gran medida de la pericia humana y puede estar sujeto a variabilidad.

Ahí es donde el machine learning marca la diferencia. Un modelo entrenado puede analizar rápidamente cientos de datos de cada paciente. Desde características celulares hasta antecedentes médicos. En busca de patrones sutiles que indiquen la presencia de cáncer. Por ejemplo, modelos basados en árboles de decisión, random forest o técnicas de boosting. Pueden evaluar combinaciones de factores (edad, densidad mamaria, historial familiar, resultados de biopsias, etc.) para predecir la probabilidad de malignidad.

Este enfoque automatizado mejora la precisión del diagnóstico. Además, puede estimar el riesgo de que una persona desarrolle cáncer de mama en el futuro. Esto permite intervenir antes y aplicar medidas preventivas. En resumen, el machine learning actúa como un asistente. Aprende de muchos casos anteriores y usa ese conocimiento para apoyar el diagnóstico de nuevos pacientes de forma consistente.

Ahora bien, dentro de la inteligencia artificial aplicada a la salud, el deep learning (aprendizaje profundo) merece una mención especial. ¿En qué se diferencia del machine learning tradicional? Principalmente en su capacidad para aprender directamente de los datos brutos.

Los métodos clásicos requieren que alguien le «diga» al algoritmo qué características analizar (como el tamaño, la forma o la textura del tumor). En cambio, las técnicas de deep learning pueden descubrir por sí solas qué aspectos son importantes al procesar imágenes o datos complejos. En el caso de las mamografías o láminas celulares, las redes neuronales profundas, especialmente las CNN (redes neuronales convolucionales), aprenden a detectar patrones visuales sutiles en los píxeles. Estos patrones podrían pasarse por alto con los métodos tradicionales. Estudios comparativos han mostrado que, con las características adecuadas, un modelo clásico puede rendir muy bien, pero un modelo profundo puede superarlo ligeramente en desempeño.

Esto no significa que siempre haya que usar deep learning. De hecho, en datos tabulares (numéricos) como los perfiles de biopsias, los algoritmos tradicionales bien ajustados alcanzan precisiones altísimas, a la par de modelos profundos más complejos. La clave está en elegir la herramienta adecuada para cada tipo de datos. En nuestro contexto, muchas de las variables son numéricas (mediciones clínicas), por lo que técnicas de machine learning clásico resultan muy efectivas. Pero si en el futuro se incorporan imágenes de mamografía a gran escala, las redes neuronales profundas podrían detectar características que mejoren aún más la detección temprana.

Un modelo entrenado de Machine learning puede analizar rápidamente cientos de datos de cada paciente, lo cual es muy útil en la detección de cancer de mama«

Principales técnicas en la detección asistida por IA

Una variedad de algoritmos de machine learning se han explorado para el diagnóstico de cáncer de mama, cada uno con su enfoque particular. Todos estos métodos han demostrado resultados exitosos clasificando tumores benignos y malignos en distintos estudios. A continuación, describimos de forma sencilla las técnicas más destacadas empleadas en este proyecto y en la literatura:

  • Máquinas de Vectores de Soporte (SVM): Son algoritmos que intentan trazar una frontera lo más clara posible entre las clases. En nuestro caso, una SVM buscaría la mejor forma de separar matemáticamente las muestras de tejido benigno de las malignas. Si imaginamos nuestros datos en un espacio multidimensional (donde cada característica es un eje), la SVM encuentra el “plano” o frontera que deja a un lado los tumores benignos y al otro los malignos, maximizando la distancia entre ambas categorías. Las SVM han sido muy populares en problemas de clasificación médica por su capacidad para manejar conjuntos de datos con muchas variables y producir buenos resultados aun con pocos datos de entrenamiento.
  • Random Forest: Este método es como tener muchos árboles de decisión y combinar sus resultados. Cada árbol de decisión es un modelo simple que hace preguntas secuenciales (por ejemplo: “¿el tamaño del tumor excede cierto valor?”) hasta llegar a una predicción. Un random forest construye decenas o cientos de esos árboles, cada uno entrenado con diferentes partes de los datos, y luego hace que “voten” por la clasificación final. ¿El resultado? Un modelo robusto que suele mejorar la precisión y reducir errores, porque la combinación de muchos árboles mitiga las equivocaciones que podría cometer un árbol individual. En el contexto del cáncer de mama, los random forest han mostrado ser excelentes para detectar patrones complejos en los datos clínicos y han brillado por su alto desempeño y estabilidad en numerosas competencias y estudios.
  • K-Nearest Neighbors (K-NN): Este algoritmo se basa en una idea muy intuitiva: “dime con quién andas y te diré quién eres.” Para clasificar un caso nuevo (por ejemplo, los resultados de una biopsia desconocida), el K-NN busca en el conjunto de datos los k casos más similares (sus “vecinos” más cercanos) según las características disponibles. Luego, decide la clase por mayoría: si la mayoría de esos vecinos son tumores malignos, clasifica el nuevo caso como maligno, y viceversa. Por supuesto, todo depende de cómo se mida la “similitud” (distancia) y de elegir un k apropiado (número de vecinos a considerar). Es un método sencillo pero efectivo, especialmente cuando los datos están bien normalizados (es decir, escalados de forma comparable). En la práctica, K-NN puede lograr buena precisión en detección de cáncer de mama. Sin embargo, puede ser sensible a datos ruidosos o a la presencia de muchas variables irrelevantes.
  • Redes Neuronales Artificiales: Inspiradas en el cerebro humano, las redes neuronales consisten en capas de neuronas artificiales que se conectan entre sí y van aprendiendo. Las más simples (perceptrones multicapa) ya pueden captar relaciones complejas entre las variables de un conjunto de datos clínicos. En detección de imágenes de mama, se emplean redes convolucionales que actúan casi como “ojos digitales”.

Todas estas técnicas aportan visiones diferentes (desde enfoques más estadísticos hasta modelos inspirados en la biología). Lo importante es que, con los datos adecuados, todas pueden aprender a reconocer un tumor maligno con alta fiabilidad. De hecho, en un famoso conjunto de datos de cáncer de mama muy usado en la investigación (el Wisconsin Breast Cancer Dataset), se han logrado aciertos cercanos al 99% empleando estos algoritmos clásicos bien calibrados. Veamos cómo se desempeñaron en nuestro proyecto concreto al aplicarlos a la detección temprana del cáncer de mama.

¿Cómo predicen estos modelos?

En este proyecto pusimos a prueba los algoritmos mencionados utilizando datos reales de biopsias de tejido mamario (un conjunto de datos con 569 muestras, cada una descrita por 30+ características derivadas del análisis celular). Entrenamos y comparamos modelos de Random Forest, Gradient Boosting (otro método de ensamble), SVM, K-NN, Regresión Logística (un modelo estadístico tradicional) y una Red Neuronal simple. A cada modelo se le evaluó con métricas de desempeño como la precisión, el recall (sensibilidad) y el F1-Score, además del área bajo la curva ROC, para determinar cuál brindaba la mejor clasificación de tumores benignos vs malignos.

Los resultados fueron muy prometedores: todos los modelos lograron identificar correctamente la mayoría de los casos de cáncer de mama, con valores de desempeño elevados en general. En particular, Random Forest y la red neuronal destacaron como los mejores, con precisión y recall cercanos al 96-97%, mostrando un rendimiento excelente. Otros modelos como K-NN, SVM y Gradient Boosting también alcanzaron precisiones en el rango del 93-95%, lo cual indica que incluso métodos algo más simples pueden ser muy efectivos si se les proporcionan los datos y la configuración adecuados. El modelo más sencillo de todos, la regresión logística, obtuvo alrededor de un 89% de precisión, que si bien es ligeramente inferior a los demás, sigue siendo notable para un algoritmo tan básico.

En general, las diferencias entre los modelos fueron pequeñas; todos mostraron desempeños bastante consistentes en las distintas métricas (ningún algoritmo fue claramente superior a los demás en todas las medidas). Esto sugiere que cualquiera de estos enfoques, bien entrenado, podría servir como herramienta de apoyo en la detección de tumores mamarios, ya que no hubo un “ganador absoluto” sino varios modelos con desempeños comparables.

Dicho esto, cabe mencionar que Random Forest ofreció un balance particularmente sólido entre precisión y recall, posicionándose como una opción muy completa (altas tasas de acierto sin muchos falsos negativos). Por otro lado, técnicas de ensamble como Gradient Boosting mostraron un recall ligeramente mayor en nuestras pruebas, lo que podría ser útil si el objetivo prioritario fuera no dejar escapar ningún caso positivo. En suma, todos los modelos aprendieron a distinguir bastante bien entre tejido benigno y maligno, pero Random Forest y la red neuronal alcanzaron la combinación óptima de métricas, coronándose como las mejores del grupo.

Si quieres ver el proyecto completo de Pablo Mazza, rellena el formulario y te lo mandamos a tu correo electrónico.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *