La decisión más relevante fue no usar un clasificador entrenado. Construir un pipeline heurístico sobre los 21 landmarks de mano que entrega MediaPipe tiene una ventaja concreta: es interpretable y no requiere datos de entrenamiento. El trade-off es rigidez — las reglas funcionan bien dentro de los gestos definidos, pero no generalizan si el usuario varía postura o iluminación de forma significativa.
El pipeline sigue cuatro etapas. OpenCV captura el frame de la webcam y gestiona el feedback visual sobre el stream. MediaPipe extrae en tiempo real las coordenadas 3D de los 21 landmarks de la mano. Una capa de clasificación propia evalúa el estado de cada dedo (extendido/flexionado) y calcula distancias geométricas entre puntos clave para identificar el gesto activo. PyAutoGUI traduce ese gesto en la acción de sistema correspondiente: navegación, zoom, undo/redo o captura de pantalla.
El proyecto cumple lo que plantea, pero tiene límites claros: sensibilidad a condiciones de iluminación, latencia acumulada en hardware modesto y ausencia de control temporal que evite activaciones accidentales. El siguiente paso natural es introducir un cooldown por gesto y evaluar si un clasificador ligero entrenado sobre los propios landmarks mejora la robustez sin sacrificar la velocidad del pipeline actual.