El código para la detección del cáncer de piel
Con este desarrollo será posible identificar la malignidad de un lunar sospechoso basándose en su borde, color y simetría.
Por: Juan Diego Quintero Castro
Pareciera que el mundo siempre ha sido igual de grande, pero no: vivimos en el mundo más amplio de la historia de la humanidad. Tal amplitud radica en que conocemos más de lo que conocieron las personas de la primera mitad del siglo XX, y mucho más que quienes habitaron la tierra antes de la revolución francesa, y así sucesivamente hasta el inicio de los tiempos. Pero esa amplitud tiene un precio –y un costo también–: la mayoría de cosas que sabemos las conocemos de segunda mano.
Todo nos lo cuentan otros –y se dice “todo” porque es tanta la información y los servicios que a diario se consumen que no podemos comprobarlos–. Entonces, nuestro mundo es amplio y en él abunda la confianza. Confiamos en que Waze nos da la mejor ruta de camino al trabajo, en que el correo urgente se envía y llega efectivamente a su destinatario, en que la suma hecha en Google Sheet del P&G de la empresa es correcta, en que el dinero en nuestra billetera virtual amanecerá ahí al otro día. Confiamos en todo ello, pero no sabemos cómo ocurre.
En general, detrás de esa ignorancia llena de confianza están los algoritmos, que han existido desde siempre, pero que ahora son cajas negras que, gracias a la sofisticación tecnológica, gobiernan a placer los sectores económicos más importantes de las economías más grandes, y estrangulan las regulaciones de Europa y Estados Unidos.
Esos algoritmos están construidos casi siempre con redes neuronales de varios nodos, y tienen la potencia para impulsar la desinformación en Meta, las alucinaciones de ChatGPT, los videos de Youtube, la recomendación de las series de Netflix, las armas que se usan en las guerras del oriente de Europa, los misiles de Israel teledirigidos contra Gaza y El Líbano, el robo de identidades y la suplantación de voz, la vigilancia que ejerce sobre sus ciudadanos el Partido Comunista chino, y también se usan en la Universidad Externado de Colombia para detectar a tiempo el cáncer de piel.
“Es un producto terminado, publicamos en una revista el algoritmo del modelo”, cuenta el doctor Germán Combariza, profesor del Departamento de Matemáticas. Él lideró el proyecto de detección de melanoma, el cual inició en la Facultad de Medicina de la Universidad de los Andes, pero que no logró obtener un buen desempeño porque el entrenamiento del modelo no fue lo suficientemente fuerte. En ese momento se aliaron con los docentes y estudiantes del pregrado en Ciencias de Datos del Externado.
Los modelos –algoritmos– de inteligencia artificial son como los deportistas: tienen desempeño y entrenamiento. Se entrenan con cientos de datos, ojalá miles y, de ser posible, millones. El entrenamiento consiste en algunos casos, cuando son modelos supervisados, en mostrarle muchas imágenes de, por ejemplo, manzanas: la chilena, la peruana, la colombiana, grandes, pequeñas, coloradas, pálidas, lindas, feas, pero todas manzanas, y es importante decirle que son manzanas. Ya entrenado, se le entrega un segundo grupo de algunas imágenes, el de prueba, ojalá miles y de ser posible millones de peras, duraznos, guayabas, lulos y, por supuesto, manzanas. Las veces que acierte en llamar manzanas a las manzanas de ese segundo grupo será el determinante de su desempeño, el porcentaje de su precisión.
En el Externado, un grupo de estudiantes pre entrenaron el modelo para detectar el melanoma –le hicieron pretemporada–, lo que significa que limpiaron las imágenes de los lunares, les quitaron ruido, objetos adicionales. “Intentamos pasar el dato lo más limpio posible. Si tenía una regla midiendo el lunar, la recortamos; si tenía unos pelos, los quitamos”, dice el doctor Combariza. Ese preentrenamiento marcó la diferencia. Mejoró de forma sustancial su desempeño, y ahora clasifica las imágenes cuando tienen alta probabilidad de tener melanoma y cuando no.
La clasificación –otro concepto obtuso de estos tiempos de datos– se logra con base en variables. Si las de la manzana eran el color y el tamaño, el grupo de estudiantes de Ciencia de Datos, liderados por los profesores Combariza y Arley Torres, decidió, con base en criterios médicos humanos, que las variables debían ser el color, la accidentalidad del borde y la simetría. “Tania Díaz, una de nuestras estudiantes, está tratando de entender los bordes, comprender su comportamiento. Lo hace con una idea muy bonita: un borde estirado es una onda”, comenta el profesor Combariza.
La idea es sencilla y sofisticada al mismo tiempo: se toma el perímetro del lunar, se decide por alguna razón hacerle un corte, y se estira sobre un plano como se estira un cordón cuando se suelta un nudo. Una vez plasmado en el plano conserva sus curvas. En términos geográficos, sus picos y valles. A esa onda que queda se le pueden aplicar teorías matemáticas de ondas, de sonido, la transformación de Fourier, la dimensión fractal y así obtener la accidentalidad del borde. Eso los acerca más al otro lado del problema.
Este trabajo lo presentó Tania en el Congreso de Estadística y Matemática. La recepción fue buena y dejó el póster en la Sala Pitágoras, donde estudian y reciben monitorias los estudiantes de Ciencia de Datos. “Me emocionó mucho conocer personas que se me acercaron porque han tenido cercanía con la enfermedad. Me permitió ver cómo se pone en práctica y al servicio de las personas todo lo que aprendo en la carrera”, comentó Tania.
Con esta técnica el grupo que ha investigado y puesto en práctica el algoritmo para detectar el melanoma espera iniciar un proceso que los lleve a crear una aplicación que arroje un porcentaje de probabilidad de cáncer por variable, y así llevarla al sector dermatológico para un uso clínico de consultorio. “Ojalá lograr que con un celular se fotografíe el lunar sobre el cual se sospecha, y en cuestión de minutos diga la probabilidad de cáncer según su borde, su color y su simetría”.
En esta empresa se ha embarcado una parte de la planta de profesores del Departamento de Matemáticas. Quieren entender cómo funciona el algoritmo que usan para detectar el cáncer de piel, y quieren entenderlo porque saben que va a fallar. “Todos los algoritmos van a fallar”, dice Germán. Lo harán porque no están bien entrenados, ni preentrenados. Contienen los mismos sesgos de los humanos, que fallan mucho –el gran culpable de los desastres: el error humano–. Cajas negras que funcionan casi siempre, casi.
Ante el error como destino, las instituciones le exigen –sin mucho éxito– a las Big Tech transparencia algorítmica: Que cuenten cómo funciona el algoritmo de videos de Instagram, el de noticias de X, el de videos de Youtube. Lo hacen para proteger a los consumidores (según la profesora Shoshana Zuboff, de Harvard, en el mundo de Silicon Valley las personas no son clientes, ni productos como se dice que es la gente a la que no le cobran por un servicio. “Si es gratis es porque tú eres el producto”. La profesora Zuboff afirma que las personas son la materia prima). El asunto es que quizá no sea solo relevante el cómo funcionan los algoritmos. Al parecer importan también los parámetros de decisión.
Combariza lo explica con su trabajo en el Externado. “En las variables que identificamos (color, simetría, borde) hay que determinar un parámetro. Nuestra investigación nos debe llevar hacia él, pero al final somos nosotros los que decimos, por ejemplo, que en coloración más de 0.5 es cáncer y que de 0.49 hacia abajo no lo es, en probabilidad”. Esa decisión es humana y es central para su adecuado funcionamiento. Pero el asunto pasa por el tema de siempre: OpenIA gasta 700 mil dólares diarios en la operación de ChatGPT, Microsoft doblará la inversión en IA en el próximo año, además de anunciar su interés en hacer plantas de energía nuclear para alimentar sus servicios de IA. Miles de millones de dólares se gastan para llegar a dar con el parámetro correcto y el modelo ideal. La liberación de ese tipo de secretos no tiene buenos antecedentes, como no los tuvo la receta de la Coca Cola, ni los secretos de los motores de Ferrari o Mercedes Benz. Ni hablar de las farmacéuticas.
Así, el mundo de ahora es el más amplio desde siempre, pero algunos se las han arreglado para gozar de lugares muy estrechos. Mientras tanto, profesores como el doctor Combariza, y estudiantes como los del pregrado en Ciencia de Datos, ponen su conocimiento al servicio del bienestar de las personas, de los avances de la tecnología con sentido humano, y lo hacen en países como el nuestro, donde hay escasez de capacidades tecnológicas. Son una especie de peras del olmo, de disidentes, de cisnes negros.
Stefan Zweig, el escritor austriaco, dijo en la biografía que escribió sobre Montaigne que siempre que el espacio se ensancha el alma se tensa. Y sí que tiene tensión nuestro tiempo amplio como ninguno. A pesar de ello, desde espacios como la Universidad, los semilleros y las aulas alivian esa tensión a personas que ponen su trabajo y talento al servicio de un desarrollo tecnológico con sentido humano.
Se prevén más de 35 millones de nuevos casos de cáncer en el año 2050. El tabaco, el alcohol y la obesidad son factores clave del aumento de la incidencia, mientras que la contaminación atmosférica sigue siendo uno de los principales factores de riesgo medioambientales.
ONU Noticias, 5 de febrero de 2024.
Disponible en: https://news.un.org/es/story/2024/02/1527422