Les cuento lo que supongo que ocurre haciendo una mezcla de lo poco que he encontrado disperso por ahí y de suposiciones razonables.
La pista está cubierta por un conjunto de seis a diez cámaras digitales. Es esencial que todas las líneas de la pista estén cubiertas simultáneamente por varias cámaras, preferiblemente cuatro o más. Aunque no he encontrado ningún esquema de la situación real, es razonable suponer que todas estén altas sobre la pista de forma que la inclinación hacia abajo sea de al menos 20º y que sus campos visuales se superpongan lo más posible.
Las cámaras filman de forma continua a alta velocidad, su posición es fija y conocida y la orientación de su eje focal está bien determinada con relación a un sistema de coordenadas local. Un ejemplo de este tipo de cámaras son las de la serie CamRecord: los modelos 600 y 1000 captan respectivamente 500 y 1000 imágenes por segundo con una resolución de 1280x1024 píxeles. Por dar una idea de los datos, una pelota a 100 km/h se habrá movido en 2 ms (cámara CamRecord 600) unos 55 mm entre dos fotogramas siempre que la trayectoria sea perpendicular al eje focal.
La esencia del proceso es la siguiente:
- una cámara capta una secuencia donde la pelota queda representada por unos pocos píxeles que deben ser reconocidos del resto de la imagen. Esos píxeles cambian de posición en cada "fotograma" debido al movimiento de la pelota. En tiempo real, esos píxeles deben ser detectados y su posición en cada fotograma registrada en el campo de visión de la cámara. Lógicamente, la pelota se "ve" pero no es posible determinar la distancia y el dato no es 3D.
- otra cámara situada en una posición diferente capta el mismo movimiento y lo representa en su plano propio.
- dado que las cámaras están sincronizadas, la posición de la pelota en un momento determinado puede estimarse en ambas cámaras; en cada una de ellas define una semirrecta con origen en la cámara y que pasa por el punto donde se ha localizado la pelota.
- la localización 3D se construye mediante la intersección de las dos trayectorias en el espacio, algo que es posible calcular geométricamente dado que se conoce la posición de cada cámara y su orientación.
Una cámara registra la trayectoria como posiciones discretas calculando un vector para cada fotograma.
Simultáneamente, otra cámara hace lo mismo; obsérvese que hay posiciones cuyos vectores casi coinciden. En este caso esa cámara no será muy útil para discriminar esa parte de la trayectoria.
Simultáneamente, otra cámara hace lo mismo; obsérvese que hay posiciones cuyos vectores casi coinciden. En este caso esa cámara no será muy útil para discriminar esa parte de la trayectoria.
Aunque teóricamente se puede restaurar cada posición 3D y, por tanto, la trayectoria con sólo dos cámaras, la redundancia ayuda a reducir la incertidumbre y a "reparar" los errores de reconocimiento. Es muy deseable tener al menos cuatro secuencias distintas. La intersección de las cuatro trayectorias es mucho más robusta, tanto más porque se pueden introducir restricciones geométricas para garantizar la coherencia de las trayectorias que, por ejemplo, sabemos que deben trazar curvas relativamente suaves con velocidad decreciente.
Las posiciones deben analizarse secuencialmente para localizar el momento del bote, donde la trayectoria cambia bruscamente.
Los momentos "interesantes" son aquellos en los que esa continuidad se rompe, especialmente el momento del saque y los botes en el suelo. El primer caso interesa para estimar la velocidad del servicio pero su localización espacial no es demasiado importante. En cambio, los botes sí deben localizarse de la manera más exacta posible. Para ello, el plano de la pista (otra restricción geométrica más) y las líneas están previamente definidas en el sistema de referencia local lo que permite representarlas a la vez que el bote de la pelota.
El resultado es un gráfico de la trayectoria estimada de la pelota. La huella de la pelota sobre la pista es sólo una estimación, aunque los fabricantes del sistema hablan de errores de alrededor de los 4 mm.