Funcional Complejidad Media 2025

AI/ML

Computer Vision Gesture Controller

Sistema de reconocimiento de gestos en tiempo real para traducir movimientos de mano en acciones de escritorio usando visión por computadora.

Caso

Computer Vision Gesture Controller

Proyecto académico orientado a visión por computadora aplicada.

Notas del caso

La decisión más relevante fue no usar un clasificador entrenado. Construir un pipeline heurístico sobre los 21 landmarks de mano que entrega MediaPipe tiene una ventaja concreta: es interpretable y no requiere datos de entrenamiento. El trade-off es rigidez — las reglas funcionan bien dentro de los gestos definidos, pero no generalizan si el usuario varía postura o iluminación de forma significativa.

El pipeline sigue cuatro etapas. OpenCV captura el frame de la webcam y gestiona el feedback visual sobre el stream. MediaPipe extrae en tiempo real las coordenadas 3D de los 21 landmarks de la mano. Una capa de clasificación propia evalúa el estado de cada dedo (extendido/flexionado) y calcula distancias geométricas entre puntos clave para identificar el gesto activo. PyAutoGUI traduce ese gesto en la acción de sistema correspondiente: navegación, zoom, undo/redo o captura de pantalla.

El proyecto cumple lo que plantea, pero tiene límites claros: sensibilidad a condiciones de iluminación, latencia acumulada en hardware modesto y ausencia de control temporal que evite activaciones accidentales. El siguiente paso natural es introducir un cooldown por gesto y evaluar si un clasificador ligero entrenado sobre los propios landmarks mejora la robustez sin sacrificar la velocidad del pipeline actual.

Puntos clave

  • Seguimiento de landmarks de mano en tiempo real desde webcam con visual feedback sobre el frame.
  • Clasificación de gestos mediante estados de dedos y distancias geométricas entre landmarks.
  • Integración directa con acciones del sistema como navegación, zoom, undo/redo y capturas.

Stack

    Python OpenCV MediaPipe NumPy PyAutoGUI