§00 · Proyecto de Grado I · UNAB · 2026

Aprendizaje autosupervisadopara lesiones cutáneas en Santander

un puente entre imágenes dermatológicas y diagnóstico asistido por IA

§01 · Introducción

Las lesiones de piel figuran entre las neoplasias de mayor incidencia, y su detección temprana condiciona la supervivencia del paciente.

La doble barrera que limita el diagnóstico oportuno
Barrera 01

Dependencia de la experiencia del especialista

00 %

Rango de precisión del diagnóstico clínico convencional, determinado por la experiencia del especialista.

Barrera 02

Escasez de herramientas tecnológicas adaptadas

Contexto local

Las alternativas confirmatorias resultan invasivas, costosas y lentas para un sistema de salud con recursos limitados.

Consecuencia regional

En Santander la situación se agudiza: la disponibilidad de especialistas se reduce y las herramientas de apoyo diagnóstico no se ajustan a las condiciones del sistema de salud local.

magnitud · doble barrera · consecuencia regional→ §02 planteamiento del problema
§02 · Planteamiento

Lesiones cutáneas · una patología frecuente con diagnóstico desigual.

La Organización Mundial de la Salud reconoce el cáncer de piel entre las neoplasias más frecuentes. La detección depende del especialista, recurso desigual entre territorios.

Clasificación clínica

05 tipos priorizados
benigna
NEV
Nevo melanocítico
benigna
SK
Queratosis seborreica
maligna
MEL
Melanoma
maligna
BCC
Carcinoma basocelular
maligna
SCC
Carcinoma escamocelular

Escalas de incidencia

Hospital → País
Hospital · HUS2016–2023
0
casos

Casos registrados en el HUS Bucaramanga.

País · Colombia2024
0
casos

Cuenta de Alto Costo, tendencia creciente.

Tipo · BasocelularMortalidad melanoma
0,00 %
incidencia regional

Basocelular domina; melanoma origina 80 % de muertes.

Tres barreras estructurales

Experto · economía · tecnología
01

Dependencia del experto

62–80 %precisión

Precisión clínica varía con la experiencia del especialista.

02

Barreras económicas y de acceso

Invasivabiopsia · lenta

Biopsias costosas y lentas en entornos con recursos limitados.

03

Limitación tecnológica

Etiquetasrecurso escaso

IA supervisada exige miles de imágenes anotadas, recurso costoso aquí.

Vista de sistema

Árbol del problema · causas raíz, directas y consecuencias

UNAB · Sustentación 2026
Vol. 02 · Planteamiento
Causas · origen
01

Dependencia de métodos clínicos cuya precisión depende de la experiencia del especialista

Raíz·Escasez de datasets dermatológicos etiquetados por especialistas

02

Uso limitado de herramientas computacionales de apoyo al diagnóstico

Raíz·Alto costo y complejidad de la anotación médica de imágenes

03

Confirmación basada en biopsias invasivas, costosas y de tiempos prolongados

Raíz·Limitaciones de infraestructura para diagnóstico asistido en la región

04

Escasa implementación de modelos de IA en entornos clínicos regionales

Raíz·Brecha en la adopción de IA en el sector salud regional

Problema central

Limitaciones en la detección oportuna de lesiones cutáneas en centros clínicos de Santander

Consecuencias · impacto

Dificultad para identificar tempranamente lesiones malignas

05

Diagnóstico tardío de cáncer de piel·sistémica

Variabilidad diagnóstica según la experiencia del especialista

06

Mayor mortalidad asociada a melanoma·sistémica

Retrasos en la confirmación diagnóstica mediante biopsia

07

Mayores costos en tratamientos por detección tardía·sistémica

Limitaciones en la capacidad de apoyo diagnóstico en centros clínicos

08

Sobrecarga en servicios especializados de dermatología·sistémica

Lesiones cutáneas · Santander · 2026hover encadena · click despliega fuente
clasificación · escala · barreras · cadena causal→ §03 pregunta de investigación
§03 · pregunta de investigaciónUNAB · 2026

¿Cómo diseñar un algoritmo de aprendizaje autosupervisado que apoye la detección de lesiones cutáneas en el contexto clínico de Santander?

Hipótesis · 01

El aprendizaje autosupervisado puede generar representaciones visuales transferibles a partir de imágenes dermatoscópicas, reduciendo la dependencia de grandes volúmenes de imágenes anotadas.

Delimitación del estudio

Alcance · exclusiones
✓ Alcance · qué cubre
  1. 01Aprendizaje autosupervisado sobre datasets dermatoscópicos públicos.
  2. 02Pre-entrenamiento de un encoder visual sin uso de etiquetas.
  3. 03Evaluación cuantitativa en HAM10000, BCN20000 y CO2Wounds-V2.
  4. 04Discusión orientada al contexto clínico santandereano.
✗ Fuera · qué excluye
  1. 01Sustitución del juicio del especialista.
  2. 02Diagnóstico definitivo, biopsia o intervención invasiva.
  3. 03Despliegue en sistemas hospitalarios.
  4. 04Estudios prospectivos con pacientes.

Supuestos del proyecto

S·01 → S·04
01

Acceso a los datasets

Los tres conjuntos de imágenes mantienen acceso público bajo licencias académicas durante el desarrollo del proyecto.

02

Reproducibilidad

Los métodos SSL contrastivos publicados son reproducibles bajo entornos académicos similares a los de los autores originales.

03

Comparabilidad visual

Las lesiones representadas en los datasets internacionales son visualmente comparables a las observadas en población santandereana.

04

Cronograma viable

El cronograma del proyecto permite completar el ciclo de pre-entrenamiento, fine-tuning y evaluación dentro del semestre académico.

pregunta · hipótesis · delimitación · supuestoscontinúa en §04
§04 · justificaciónscroll · revela 5 dimensiones

Fundamentación del proyecto.

Cinco dimensiones de la justificación

scroll · stack
01
Dimensión 01

Relevancia

¿Por qué ahora?

La IA médica supervisada exige grandes volúmenes de imágenes anotadas por especialistas. En Colombia ese recurso no se ha consolidado a la escala que el problema clínico requiere.

NúcleoBrecha estructural de datos anotados.
02
Dimensión 02

Pertinencia

¿A qué responde?

El proyecto atiende una carga clínica documentada (11.064 casos reportados en Colombia 2024) y se inscribe en la agenda nacional de transformación digital en salud.

NúcleoCarga documentada y agenda nacional.
03
Dimensión 03

Valor agregado

¿Qué lo diferencia?

El aprendizaje autosupervisado aprende representaciones a partir de imágenes sin etiquetar. Esta propiedad lo hace aplicable en escenarios donde la anotación experta es escasa o costosa.

NúcleoRepresentaciones sin anotación experta.
04
Dimensión 04

Viabilidad

¿Es realizable?

Tres datasets públicos bajo licencia académica (HAM10000, BCN20000, CO2Wounds-V2) e implementaciones SSL de código abierto hacen el alcance compatible con los tiempos del trabajo de grado.

NúcleoDatasets públicos y código abierto.
05
Dimensión 05

Formación profesional

¿Qué construye?

Consolida competencias en sistemas inteligentes, visión por computador aplicada a imagen médica y métodos de aprendizaje automático con enfoque clínico, dentro del perfil del programa.

NúcleoPerfil técnico con enfoque clínico.

Aprendizaje autosupervisado frente al enfoque supervisado

Estimación cualitativa basada en la literatura revisada.

DimensiónSupervisadoSSL · propuesta
Necesidad de etiquetas expertas
90%
30%
Costo de anotación
85%
25%
Aprovechamiento de imágenes sin anotar
15%
90%
Generalización a dominios cercanos
45%
75%
Replicabilidad regional
30%
80%
5 dimensiones · comparación SSLcontinúa en §05
§05 · objetivos01 general · 04 específicos
◆ Objetivo general · único
UNAB · 2026

Desarrollar un algoritmo de inteligencia artificial basado en aprendizaje autosupervisado para la clasificación de lesiones cutáneas a partir de imágenes dermatológicas, orientado al apoyo del diagnóstico clínico en el contexto del departamento de Santander.

Verbo
Desarrollar
Enfoque
Aprendizaje autosupervisado
Territorio
Santander

Objetivos específicos · cuatro fases metodológicas

datos → SSL → evaluación → validación
01
Fase 01
Preparación de datos
Verbo · analizar

Analizar conjuntos de datos de imágenes dermatológicas representativos de lesiones cutáneas relevantes para el contexto clínico del departamento de Santander.

02
Fase 02
Implementación SSL
Verbo · diseñar

Diseñar un algoritmo de clasificación de lesiones cutáneas basado en aprendizaje autosupervisado utilizando imágenes dermatológicas.

03
Fase 03
Evaluación comparativa
Verbo · evaluar

Evaluar el desempeño del algoritmo propuesto mediante métricas reportadas en la literatura científica para tareas de análisis de imágenes médicas.

04
Fase 04
Validación funcional
Verbo · implementar

Implementar un prototipo de aplicación que integre el algoritmo desarrollado para el apoyo en el análisis de imágenes dermatológicas.

general · 4 específicos · 4 fases metodológicascontinúa en §06
§06 · marco de referenciaclínico · técnico · SSL

Tres frentes teóricos sostienen el modelo.

01Fundamento clínico
02Fundamento técnico
03Self-Supervised Learning
01

Fundamento clínico

Lesiones cutáneas · método ABCDE · melanoma.

El melanoma concentra la mortalidad del cáncer de piel por su capacidad metastásica. La detección temprana es el factor pronóstico determinante.

El método ABCDE sistematiza cinco criterios visuales para diferenciar lesiones benignas de sospechosas. Cada criterio es cuantificable, lo que lo vuelve apto para análisis computacional.

Criterio · A

Asimetría

Una mitad no coincide con la otra. Las lesiones malignas pierden la simetría que conservan las benignas.

02

Fundamento técnico

Redes profundas · convolucionales y transformers.

Las redes profundas aprenden representaciones jerárquicas: las capas tempranas detectan bordes; las profundas capturan estructuras complejas. Dos familias dominan el campo: las convolucionales (ResNet) y los transformers visuales (ViT).

imageConv+BN+ReLUConv+BN+ReLUConv+BN+ReLUConv+BN+ReLU→ featSKIP CONNECTIONSBloques convolucionales con residual: y = F(x) + x
He et al. · 2015

Apila bloques convolucionales con conexiones residuales que permiten profundidad sin degradación. Cada bloque suma entrada y transformación.

Fortalezas
  • ·Bias inductivo para imágenes
  • ·Estable en profundidad
  • ·Eficiente en cómputo
Limitaciones
  • ·Campo receptivo local
  • ·Limitado para relaciones globales
03

Self-Supervised Learning

Sin etiquetas · SimCLR contrastivo · DINO student–teacher.

El aprendizaje autosupervisado define una tarea pretexto a partir de las imágenes mismas, sin etiquetas externas. Las representaciones aprendidas se transfieren después a tareas posteriores con pocas etiquetas.

imgaugaugv₁v₂encoderencoderprojprojz₁z₂simz₁ ≈ z₂
Chen et al. · 2020

Contrastive Learning

Genera dos vistas aumentadas de cada imagen. La pérdida acerca las vistas de la misma imagen y aleja las de imágenes distintas. Requiere batch grande para muestrear negativos.

clínico · técnico · SSLcontinúa en §07
§07 · estado del arteinternacional · nacional · vacío

Una década de avances. Una brecha local.

01

Panorama internacional

Cinco trabajos landmark · supervisado · datasets · SSL.

La clasificación con redes profundas se consolidó tras 2017. La transición al SSL responde a la escasez de etiquetas expertas.

Nature

Esteva et al.

CNN landmark

Inception v3 iguala a 21 dermatólogos sobre 129.450 imágenes.

Sci. Data

Tschandl et al.

Dataset HAM10000

10.015 dermatoscopias multicéntricas. Referencia obligada para evaluar.

CVPR

He et al.

ResNet

Conexiones residuales: profundidad sin degradación.

ICML

Chen et al.

SimCLR · contrastivo

Representaciones sin etiquetas igualan al supervisado en ImageNet.

ICCV

Azizi et al.

SSL médico

SSL contrastivo supera transferencia desde ImageNet en imagen médica.

02

Panorama nacional

Producción colombiana en SSL dermatológico · diagnóstico crítico.

Revisión en SciELO, Redalyc y repositorios institucionales: producción local limitada en SSL dermatológico.

01

Foco fuera de dermatología

La investigación nacional en deep learning médico apunta sobre todo a radiología y patología. Dermatología queda relativamente al margen.

02

Dataset local · dominio cercano

CO2-Wounds-V2 (UIS) aporta imágenes colombianas de heridas crónicas captadas con celulares. Dominio cercano a dermatología, calidad heterogénea frente al estándar dermatoscópico.

03

SSL · producción emergente

El grupo HDSP-UIS (Arguello, Sanchez) ha publicado trabajo en SSL e imagen biomédica regional, pero no constituye aún línea curricular consolidada.

◆ Comparación crítica
Afuera

Representaciones autosupervisadas multimodales sobre HAM10000 e ISIC.

Aquí

Rezago metodológico, sin cohortes locales, sin diálogo clínica–ingeniería.

La brecha es estructural, no sólo técnica.
03

Vacío investigativo

Lo que falta · cómo este proyecto aporta.

◌ Problema central

La literatura revisada no documenta aplicaciones SSL en lesiones pigmentarias / melanoma con foco santandereano. Existe trabajo afín en heridas crónicas (CO2-Wounds-V2, UIS) que valida la viabilidad metodológica regional.

◆ Propuesta del proyecto

Adaptar SSL contrastivo al dominio dermatoscópico usando HAM10000 como base. Medir cómo se comporta al aplicarlo al contexto santandereano.

5 papers · 3 observaciones · 1 vacíocontinúa →
§08 · metodologíaCRISP-DM · cronograma · métricas

CRISP-DM, cuatro fases.

Cada fase del estándar CRISP-DM mapea a un objetivo específico del proyecto.

01DatosOE 102SSLOE 203EvalOE 304PrototipoOE 4CRISP-DMciclo iterativo4 fases · 4 OE
Fase 01 · OE 1

Análisis y preparación de datos

Caracterizar corpus dermatoscópicos

  • Caracterización del problema clínico regional
  • Revisión de literatura · estado del arte
  • Selección de corpus (HAM10000, ISIC)
  • Análisis preliminar de corpus
  • Pipeline de preprocesamiento

Cronograma · febrero a noviembre 2026

hoy · mayo
FebMarAbrMayJunJulAgoSepOctNovFASE 01Análisis y preparación de datosOE 1in progress · 78%FASE 02Diseño del algoritmo SSLOE 2pendingFASE 03Evaluación del desempeñoOE 3pendingFASE 04Implementación del prototipoOE 4pendinghoyen cursoplanificado

Métricas de evaluación

fase 03 · OE 3
Métrica principal

AUC-ROC

Discrimina entre clases en todos los umbrales. Robusta frente a desbalance.

Balance precision/recall

F1-score

Combina precisión y exhaustividad. Relevante cuando las clases están desbalanceadas.

Desagregación clínica

Exactitud por clase

Desempeño individual por tipo de lesión: melanoma, basocelular, nevo.

FP · FN críticos

Matriz de confusión

Atención a falsos positivos por impacto clínico del diagnóstico erróneo.

4 fases · 10 meses · 4 métricascontinúa →
§09 · avances · resultados esperadosTRL 4 · validado en laboratorio
Hoja de ruta · mayo 2026

Avances medibles. Resultados proyectados.

Estado actual del proyecto, hallazgos del análisis exploratorio y horizonte tecnológico esperado en TRL 4.

Universidad Autónoma de Bucaramanga

Estado actual · Fase 1

5/6 actividades · 83%
  • Caracterización del problema clínico regional✓ done
  • Revisión exhaustiva de la literatura✓ done
  • Consolidación del estado del arte✓ done
  • Selección de datasets (HAM10000, BCN20000, CO2Wounds-V2)✓ done
  • Análisis y caracterización preliminar del EDA✓ done
  • Pipeline de preprocesamiento (Actividad 5)in progress

Análisis Exploratorio · 3 datasets caracterizados

click para detalle
HAM10000 · distribución de clases

7 clases · alta inequidad

Shannon H
1,63
Gini
0,64
Imágenes
10.015
nv
Nevus melanocítico
6.70566.95%
mel
Melanoma
1.11311.11%
bkl
Queratosis benigna
1.09910.97%
bcc
Carcinoma basocelular
5145.13%
akiec
Queratosis actínica
3273.27%
vasc
Lesiones vasculares
1421.42%
df
Dermatofibroma
1151.15%
La clase nv domina con 66,95%; las 6 restantes suman 33,05%. Este desbalance motiva el uso de SSL y estrategias de muestreo ponderado.

Hallazgos cruzados del EDA

Figura 1

Composición clínica por dataset

n = 36
HAM10000n = 10.015
81.4%
15.4%
Benigna · 81.4%Maligna · 15.4%Precancerosa · 3.3%
BCN20000n = 18.946
46.8%
46.8%
Benigna · 46.8%Maligna · 46.8%Indeterminada · 6.4%
Figura 1. Distribución de imágenes según naturaleza de la lesión. HAM10000 presenta mayor proporción benigna por la dominancia de la clase nv. BCN20000 muestra balance maligno/benigno cercano a la simetría.
Figura 2

Entropía de Shannon y eficiencia distributiva

n = 36
01234Entropía · bits2.811.63η = 58%HAM100003.322.41η = 73%BCN20000H máx · log₂(k)H observada
Figura 2. Comparación entre la entropía observada y el máximo teórico log₂(k). HAM10000 alcanza una eficiencia distributiva del 58 %; BCN20000 del 73 %, lo que indica una distribución más uniforme entre clases.
Figura 3

Curva de concentración de clases · HAM10000

n = 36
00252550507575100100% acumulado de clases (ordenadas ascendente)% acumulado de imágenesequidad teóricadfvascakiecbccbklmelnvGini = 0,64
Figura 3. Cuatro clases concentran más del 95 % del volumen total. La pendiente acusada en el segmento inferior izquierdo evidencia el desbalance que motiva el uso de muestreo ponderado y SSL en pre-entrenamiento.
Figura 4

Heterogeneidad dimensional inter-dataset

n = 36
DatasetResoluciónUniformidadCapturan
HAM10000600 × 450 px✓ uniformeDermatoscopio clínico10.015
BCN200001024 × 1024 px (mediana)· heterogéneoDermatoscopio multicéntrico18.946
CO2Wounds-V2Variable · smartphone· heterogéneoCámara de teléfono en campo764
Figura 4. Resoluciones nominales reportadas. La comparación dimensional directa entre los tres datasets no es válida sin un protocolo común de redimensionamiento y normalización de canales.

Resultados esperados · cuatro dimensiones

Técnico01

Algoritmo SSL entrenado

Modelo SSL con desempeño comparable o superior a líneas base supervisadas en escenarios de etiquetado limitado.

Comparativo02

Informe contra supervisado

Comparación bajo mismo backbone con métricas AUC-ROC, F1 y matrices de confusión por clase.

Funcional03

Prototipo de apoyo

Sistema que recibe la imagen, genera predicción y muestra explícitamente las métricas de desempeño.

Madurez04

TRL 4 validado en laboratorio

Validación en entorno controlado. TRL 5 como extensión natural si hay articulación clínica posterior.

Madurez tecnológica · TRL 4

meta · entorno laboratorio
1
Principios observados
2
Concepto formulado
3
Prueba experimental
4
Validación en laboratorio
Meta
5
Validación en entorno relevante
6
Demostración entorno relevante
7
Demostración entorno operacional
8
Sistema completo cualificado
9
Sistema probado en operación
fase 1 · 3 datasets · 4 resultados · TRL 4continúa →
§10 · referenciasAPA 7 · 14 fuentes

Bibliografía consultada.

Fuentes citadas en el documento, agrupadas por dominio temático.

2023
Informe
Asociación Colombiana de Dermatología y Cirugía Dermatológica (Asocolderma) (2023).

Panorama de la dermatología en Colombia: Distribución de especialistas y acceso regional

Asocolderma, Bogotá D.C.
URL
2021
Conferencia
Azizi, S., Mustafa, B., Ryan, F., Beaver, Z., Freyberg, J., Deaton, J., Loh, A., Karthikesalingam, A., Kornblith, S., Chen, T., Natarajan, V., & Norouzi, M. (2021).

Big self-supervised models advance medical image classification

Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 3478–3488
DOI · 10.1109/ICCV48922.2021.00346
2025
Informe
Cuenta de Alto Costo (CAC) (2025).

Situación del cáncer en la población adulta atendida en el SGSSS de Colombia 2024

Fondo Colombiano de Enfermedades de Alto Costo, Bogotá D.C.
URL
2021
Conferencia
Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021).

Emerging properties in self-supervised vision transformers

Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660
DOI · 10.1109/ICCV48922.2021.00951
2020
Artículo
Chaturvedi, S. S., Tembhurne, J. V., & Diwan, T. (2020).

A multi-class skin cancer classification using deep convolutional neural networks

Multimedia Tools and Applications, 79(39–40), 28477–28498
DOI · 10.1007/s11042-020-09388-2
2020
Conferencia
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020).

A simple framework for contrastive learning of visual representations

Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 1597–1607
DOI · 10.48550/arXiv.2002.05709
2018
Conferencia
Codella, N. C. F., Gutman, D., Celebi, M. E., Helba, B., Marchetti, M. A., Dusza, S. W., Kalloo, A., Liopyris, K., Mishra, N., Kittler, H., & Halpern, A. (2018).

Skin lesion analysis toward melanoma detection: A challenge at the 2017 International Symposium on Biomedical Imaging (ISBI), hosted by the International Skin Imaging Collaboration (ISIC)

2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI), 168–172
DOI · 10.1109/ISBI.2018.8363547
2021
Conferencia
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021).

An image is worth 16x16 words: Transformers for image recognition at scale

International Conference on Learning Representations (ICLR)
DOI · 10.48550/arXiv.2010.11929
2017
Artículo
Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017).

Dermatologist-level classification of skin cancer with deep neural networks

Nature, 542(7639), 115–118
DOI · 10.1038/nature21056
2016
Conferencia
He, K., Zhang, X., Ren, S., & Sun, J. (2016).

Deep residual learning for image recognition

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–778
DOI · 10.1109/CVPR.2016.90
2022
Artículo
Krishnan, R., Rajpurkar, P., & Topol, E. J. (2022).

Self-supervised learning in medicine and healthcare

Nature Biomedical Engineering, 6(12), 1346–1352
DOI · 10.1038/s41551-022-00914-1
2024
Conferencia
Sánchez, K., Hinojosa, C., Mieles, O., Zhao, C., Ghanem, B., & Arguello, H. (2024).

CO2Wounds-V2: Extended chronic wounds dataset from leprosy patients

2024 IEEE International Conference on Image Processing (ICIP), 2151–2157
DOI · 10.1109/ICIP51287.2024.10647641
2018
Artículo
Tschandl, P., Rosendahl, C., & Kittler, H. (2018).

The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions

Scientific Data, 5, 180161
DOI · 10.1038/sdata.2018.161
2018
Artículo
Uribe, C. J., Osma, S. F., & Herrera, V. M. (2018).

Carcinoma basocelular en el Área Metropolitana de Bucaramanga, Colombia: Incidencia y características clínico-patológicas

Revista de la Asociación Colombiana de Dermatología y Cirugía Dermatológica, 26(1), 22–31
URL
14 fuentes · APA 7fin del documento
◆ Sustentación · Proyecto de Grado I

Gracias por ver.

QR · Acceso al proyecto
Escanea · accede al proyecto