BIG DATA EN EL FÚTBOL: ¿CÓMO Y PARA QUÉ?
Los números en el fútbol (y en casi todas las actividades) nunca han sido tan relevantes como en la actualidad. Pero el debate sobre estos no es nuevo. Hace 45 años ya proponía Panzeri que, por más números que recopilemos, y por más orden o lógica que le tratemos de dar al juego, este se decidirá por la inspiración de los futbolistas en los momentos menos esperados. Y hasta cierto punto, tiene razón. Sin embargo, en un deporte que se ha complejizado exponencialmente en los últimos años, y que se define cada vez más por menores márgenes y por pequeños detalles, la tecnología ha hecho posible que esto sea acompañado por la capacidad de medir y cuantificar más aspectos del juego, para así tratar de reducir estos márgenes.
Para responder la pregunta del título, primero es necesario responder en qué áreas se utiliza el Big Data en el deporte rey. La primera es en el área administrativa, y es donde más tiempo se lleva utilizando el Big Data, ya que el mundo empresarial es pionero en su uso. Se lo utiliza, también, en la preparación física del futbolista. Esto es lógico, ya que es donde es más sencillo medir y cuantificar rendimiento. Sin embargo, las dos áreas que atañen al juego, el scouting y el análisis, son las menos comprendidas. Y en estas dos nos vamos a centrar.
Como mencionaba anteriormente, hay mucho debate alrededor de los números en el fútbol. Creo que si los opositores entendieran cómo se los utiliza, este debate dejaría de existir. No se trata de ver el porcentaje de posesión, o el número de remates al arco, o ver el porcentaje de acierto de pases de tal jugador, y en base a eso sacar conclusiones. No. Primero porque las analíticas disponibles actualmente abarcan infinitamente más aspectos que estos. Y segundo, porque el Big Data no debería reemplazar al análisis, los datos son simplemente una indicación de dónde hay que ver, qué hay que analizar.
Entrando en materia, hablemos primero de donde más se está utilizando actualmente el Big Data en el área deportiva de los clubes: el scouting. En la mayoría de casos, como digo, no se fichan jugadores por los números, pero sí es una indicación de quiénes vale la pena ojear y quiénes no. En un fútbol tan globalizado, donde en Europa miran hacia todo el mundo para fichar, es imposible ver todos los partidos de todas las ligas para buscar el jugador que necesitan. Entonces, con numerosas analíticas, pueden armar listas para que sus ojeadores se fijen en determinados jugadores. En Sudamérica, (y en la mayoría de lugares fuera de las grandes ligas europeas) en cambio, por lo general el número de posibles mercados es menor, pero también lo es el área de scouting, con lo que también es imperativo el uso del Big Data para optimizar los recursos y el tiempo de los ojeadores (que incluso en los clubes importantes, en la mayoría de casos, serán como mucho 2 o 3).
Vamos a un ejemplo específico. Emelec necesita un pivote. Aquí hay dos opciones: puede buscar, directamente, mediante numerosos índices, jugadores que se parezcan a Dixon Arroyo, o puede decidir que necesita algo distinto. El primero es un proceso bastante simple, ya que plataformas como Wyscout o Instat permiten esta búsqueda mediante sencillos pasos. Para el segundo, se necesita decidir que aspectos son importantes para el club. Podríamos decir, que en cuanto aspectos defensivos, por la manera de jugar de Emelec se necesitaría alguien que abarque mucho campo. En este sentido, similar a Arroyo, así que (dependiendo de la plataforma o de la tecnología con la que cuenta el equipo), se pondría como primer parámetro la similitud con el mapa de calor de Arroyo. Además, que tenga un porcentaje de duelos ganados similar al de Dixon (55%, +-10), y el número de duelos defensivos que tiene por partido (8.48, +-1).
Ahora, con el balón en los pies, si Emelec considera que necesita algo más, ¿qué buscaría? Que tenga un mejor porcentaje de acierto que el 63.9 que tiene Arroyo en pases largos, y que intente más que los 13 pases hacia adelante que da por partido y que el porcentaje de aciertos de estos, 76.8, sea mayor. Con todos estos parámetros, sumados a un precio máximo de 1M$ y su nacionalidad, que pusimos que sea sudamericano o panameño (los extranjeros en el país provienen de ahí), nos queda una lista de 31 jugadores. Si, además, Emelec buscara que tenga precio de reventa, podríamos filtrar por edad y poner como edad máxima 26. Con esto, nos queda una lista de 14 jugadores, mucho más manejable para un departamento de Scouting de nuestro continente.
He simplificado mucho el proceso para poder dar una explicación relativamente sencilla aquí. Sin embargo, una vez finalizado este proceso, comienza el ojeo “humano”. Habrá que hacer un seguimiento extensivo de los partidos del jugador, analizar si encaja con el modelo de juego, pedir referencias sobre su vida personal, etc. A partir de aquí, se deberá tener una lista final de unos 5 jugadores, en orden de prioridad, para que el área administrativa tenga margen para negociar y para decidir cuál opción es más conveniente financieramente.

El área del análisis del juego está menos desarrollado, y las diferencias de presupuestos aquí sí hacen que las maneras de trabajar sean muy distintas, ya que no todos tienen acceso a los mismos recursos tecnológicos o humanos para la recopilación de datos manual. Como ejemplo de estas diferencias, tomemos un ejemplo del análisis del rival. Quiero tener un indicio de por dónde apretar al rival. Un club de primer nivel europeo, tendrá empresas o una estructura interna que le permita recopilar las secuencias de pases, encontrar las que más se repitan, que estos datos, en muchos casos graficados, pasen a un analista de datos que lo sepa interpretar, y pasarle un informe al entrenador, con recomendaciones de a quién presionar de inicio, a quién dejar libre, cuándo saltar, etc., para que junto con lo que ve el analista de video, decida. En cambio, en un club con una estructura menor, donde hay uno o dos analistas, tal vez mediante el “taggeo” (etiquetar las acciones) del partido, puedo sacar cuántas veces salen por derecha, cuántas por izquierda, y el porcentaje de éxito en cada uno, pero desde el lado numérico, por un tema de falta de recursos y de optimización del tiempo, poco más se podrá recopilar.
Hoy por hoy, el análisis estadístico del juego, sea propio o del rival, tiene poca incidencia, con contadas excepciones en la élite europea, o clubes que basan su modelo alrededor del Big Data (Midtjylland, Brentford). Es más una herramienta que les dan los analistas a sus entrenadores para convencer a los jugadores de su plan de partido, o para ellos mismos comprobar su análisis.
Hay una métrica que se menciona mucho, sobre todo en análisis de corte periodístico en Twitter: los expected goals (xG). Esta métrica mide las probabilidades que tiene cada remate de acabar en gol, en base a la posición de donde se realiza el remate, tomando en cuenta datos históricos de tiros realizados previamente. Sin embargo, depende del modelo que se utilice, es más o menos certero. Hay unos que toman en cuenta la posición de los rivales y del portero, otros que no. También hay unos modelos que toman en cuenta solamente una liga, otros que toman muchas, y otros que ajustan a la liga que se está analizando. No obstante, y a pesar de lo mucho que escuchamos hablar sobre xG, lo cierto es que para los clubes, es una métrica más. Sirve de poco más que para medir la efectividad de un 9 en el scouting, o medir la calidad de tiros que estamos tomando en el análisis del juego.
En el fútbol no hay verdades absolutas. Los contextos lo son todo, siempre. Y mientras se pueda abarcar más detalles, será siempre mejor. Despreciar el análisis estadístico serio, partiendo de un romanticismo absurdo, es en gran parte en base al desconocimiento. Desconocimiento de que, con poquísimas excepciones, se lo usa como complemento, y que, nunca, pero nunca, en un deporte tan dinámico y con tantos componentes como el fútbol, reemplazará al ojo humano. Si todo esto hace más o menos entretenido el fútbol, es otra cuestión, pero su utilidad es indiscutible.