Hace poco escuché a un comentarista de la tele decir que tal jugador tenía un +/- (estadística que mide para cada jugador el resultado obtenido por el equipo cuando él ha estado en pista) acumulado bastante alto, elogiando de esta forma su rendimiento. Claro, pensé yo, cuando se está en un equipo que gana (y mucho) es fácil tener un +/- positivo. El mérito está en otro lado.
Para hurgar en ese otro lado, voy a usar datos de la Copa del Rey desde la temporada 2011/2012 ya que, tal y como se explica aquí, el +/- no está disponible en las temporadas anteriores.
Inicialmente se cuentan con 2.441 observaciones (no confundir con jugadores, ya que hay jugadores que han jugado más de un partido) y 86 variables. Ahora bien, para que la extensión de este post no se alargue de forma innecesaria, previamente he filtrado la base de datos inicial de forma que se han considerado jugadores que han disputado un mínimo de 10 minutos en el partido (esto supone pasar a 1658 observaciones) y aquellas variables que tienen una correlación lineal simple con el +/- superior (en valor absoluto) a 0.2 y significativamente distinta de cero (lo que supone quedarse con 10 variables).
library(readxl)datos <-read_excel("jugadores.xlsx", sheet ="datos")vistazo =head(datos, 10)library(knitr)kable(vistazo, align ="c", caption ="Visualización de los datos: unas pocas observaciones")
Visualización de los datos: unas pocas observaciones
Temporada
Apodo
Fase
Resultado
Nombre
MasMenos
TCC
TCP
RD
GeneraPTOS
Eficacia
PosFJE
PorcPosFJE
AsisBP
TS
eFG
diferencia
MJ
opcion
opcionA
opcionB
opcionC
opcionD
2012
PP5
Cuartos
1
P. Prigioni
18
5
55.56
6
27
57.69231
15
78.94737
NA
69.70260
66.66667
7
30.10000
1
1
0
0
0
2012
MB11
Cuartos
1
M. Bjelica
7
8
61.54
3
22
61.11111
14
66.66667
0.00
68.40796
65.38462
7
31.15000
1
1
0
0
0
2012
FS19
Cuartos
1
F. San Emeterio
-12
0
0.00
3
2
0.00000
2
18.18182
1.00
0.00000
0.00000
7
23.10000
3
0
0
1
0
2012
BO24
Cuartos
1
B. Oleson
16
4
44.44
1
13
42.85714
9
64.28571
NA
50.00000
50.00000
7
31.75000
1
1
0
0
0
2012
MT33
Cuartos
1
M. Teletovic
19
7
53.85
6
23
47.22222
15
68.18182
3.00
55.92105
61.53846
7
30.33333
1
1
0
0
0
2012
MP5
Cuartos
0
M. Papamakarios
-1
0
0.00
3
4
0.00000
3
60.00000
NA
0.00000
0.00000
-7
19.23333
4
0
0
0
1
2012
AP7
Cuartos
0
A. Panko III
-18
6
37.50
3
14
36.84211
8
40.00000
0.00
43.75000
43.75000
-7
24.51667
4
0
0
0
1
2012
RN8
Cuartos
0
R. Neto
7
4
66.67
0
10
57.14286
7
53.84615
0.25
62.11180
66.66667
-7
23.71667
2
0
1
0
0
2012
SV9
Cuartos
0
S. Vidal
-12
3
37.50
4
15
42.85714
9
47.36842
0.60
53.31754
50.00000
-7
33.53333
4
0
0
0
1
2012
DD13
Cuartos
0
D. Doblas
5
0
0.00
7
8
25.00000
7
77.77778
3.00
27.47253
0.00000
-7
24.51667
2
0
1
0
0
Las 10 variables relacionadas con el +/- son:
TCC: tiros de campo convertidos.
TCP: porcentaje de tiros de campo.
RD: rebotes defensivos capturados.
GeneraPTOS: puntos generados, calculados como los puntos anotados más las asistencias multiplicado por dos (se considera que una asistencia como mínimo son dos puntos).
Eficacia: eficacia en el tiro, calculada como puntos anotados divididos entre los puntos que debería haber anotado con los tiros realizados (calculado como el número de tiros libres intentados más los tiros de dos puntos intentados multiplicado por dos y más el número de tiros de tres intentados).
PosFJE: número de posesiones finalizadas con éxito por un jugador (un jugador finaliza con éxito una posesión cuando convierte un tiro de campo, recibe una falta o da una asistencia).
PorcPosFJE: porcentaje de posesiones finalizadas con éxito por un jugador, calculado como el número de posesiones finalizadas con éxito por un jugador entre el número de posesiones finalizadas por el mismo (un jugador finaliza una posesión cuando realiza un tiro de campo, recibe una falta, pierde un balón o da una asistencia).
AsisBP: número de asistencias por cada balón perdido.
TS: porcentaje real de tiro, calculado como los puntos anotados entre los tiros de campo intentados multiplicados por dos y los tiros libres intentados multiplicados por 0.88.
eFG: efectividad en el tiro, calculado como los tiros de campo convertidos más los tiros de campo de tres convertidos multiplicados por 0.5 y, todo ellos, dividido entre los tiros de campo intentados.
Además, se puede observar que hay otras variables auxiliares que permiten identificar al jugador o el año en el que se disputa el partido, el resultado del mismo (1 en caso de victoria y 0 en el de derrota) y la diferencia por la que se gana o pierde.
Finalmente, se tienen unas variables que reflejan las cuatros situaciones siguientes:
opcion = 1: el jugador tiene un +/- positivo en un partido ganado.
opcion = 2: el jugador tiene un +/- positivo en un partido perdido.
opcion = 3: el jugador tiene un +/- negativo en un partido ganado.
opcion = 4: el jugador tiene un +/- negativo en un partido perdido.
De las cuatro situaciones descritas, las dos intermedias parecen ser (bajo mi punto de vista) las más interesantes.
El resto de variables tipo opción son variables binarias creadas a partir de la anterior.
¿Qué factores influyen en el +/-?
Para responder a la pregunta planteada vamos a plantear un modelo de regresión lineal múltiple donde se consideran las variables anteriores como independientes y el +/- como independientes.
Además, en el siguiente código también se construyen seis subconjutos de datos que diferencian si el partido se ha ganado/perdido o se está en algunas de las cuatro opciones anteriores.
library(dplyr)attach(datos) reg =lm(MasMenos~TCC+TCP+RD+GeneraPTOS+Eficacia+PosFJE+PorcPosFJE+AsisBP+TS+eFG) jugadores_victoria =filter(datos, Resultado==1) # las victorias jugadores_derrota =filter(datos, Resultado==0) # las derrotas jugadores_opcion1 =filter(datos, opcion==1) # +/- positivo en partido ganado jugadores_opcion2 =filter(datos, opcion==2) # +/- positivo o cero en partido perdido (interesante) jugadores_opcion3 =filter(datos, opcion==3) # +/- negativo en partido ganado (interesante) jugadores_opcion4 =filter(datos, opcion==4) # +/- negativo en partido perdidodetach(datos)
Observando los resultados de la estimación del modelo de regresión planteado por Mínimos Cuadrados Ordinarios:
Se tiene (además de que el modelo es válido conjuntamente aunque tenga un coeficiente de determinación bajo) que:
Cuando se captura un rebote defensivo, el +/- aumento en 1.08 unidades.
Cuando se genera un punto, el +/- aumenta en 0.5 unidades.
Cuando se finaliza una jugada con éxito, el +/- disminuye en 0.63 unidades (¿comor!).
Cuando el número de asistencias por cada balón perido aumenta una unidad, el +/- también aumenta en 1.11 unidades.
En principio, todos los resultados son esperables exceptuando el referente al de número de posesiones finalizadas con éxito. Si un jugador toma decisiones correctas, ¿no debería verse esto reflejado en un mayor +/-?
Independientemente de que habría que cotejar que no hay problemas de multicolinealidad o heterocedasticidad (o, incluso, explorar la posibilidad de plantear un modelo de panel), a continuación valos a replicar el modelo lineal considerando sólo partidos en los que se ha ganado y perdido:
Tenemos que todos los modelos son globalmente válidos y:
La captura de rebotes defensivos influye positivamente en los tres casos.
La generación de puntos no inluye en el +/- cuando se gana el partido.
El número de posesiones finalizadas con éxito inluye (también) negativamente cuando el resultado final es la derrota. Lo cual podría explicar el signo negativo estimado con anterioridad no esperado: cuando se pierde, lo normal es que los jugadores tengan un +/- negativo. Si estos jugadores tienen un número de posesiones finalizadas con éxito alto, el signo estimado resulta ser negativo.
El número de asistencias por balón perdido influye en el +/- aumentándolo sólo cuando se gana.
En definitiva, aquellos jugadores que aseguran el rebote defensivo y cuidan el balón siendo generosos con los compañeros sin perder el balón son los que tienen un mayor +/- en, al menos, la Copa del Rey (seguramente en la Liga Endesa pase algo parecido).
Nota: dejo al lector el plantear el modelo de regresión cuando la muestra se limita a las cuatro opciones planteadas en jugadores_opcion1 a jugadores_opcion4. ¿Me contarás lo que sale?
Vamos a darle una vuelta al +/-
Retornemos al origen de este post. ¿Es un mérito tener un +/- positivo cuando se gana o un desmérito tenerlo positivo cuando se pierde? ¿Tener un +/- acumulado cercano a cero es bueno o malo? Pues en un equipo donde se gana mucho será malo y en otro en el que se pierde mucho será bueno, creo yo.
Empezemos por un sencillo diagrama de dispersión (se representa la recta de regresión lineal simple):
plot(datos$diferencia, datos$MasMenos, col="yellow", lwd=2, ylab ="+/-", xlab="Resultado partido") abline(v=0, col="black", lwd=2)abline(h=0, col="black", lwd=2)reg_simple =lm(datos$MasMenos~datos$diferencia)abline(reg_simple, col="blue", lwd=2)text(30, 30, labels="opcion = 1", col="black", cex=1.25) # O1: +/- positivo en partido ganadotext(-30, 30, labels="opcion = 2", col="black", cex=1.25) # O2: +/- positivo en partido perdidotext(30, -30, labels="opcion = 3", col="black", cex=1.25) # O3: +/- negativo en partido ganadotext(-30, -30, labels="opcion = 4", col="black", cex=1.25) # O4: +/- negativo en partido perdidogrid(nx =NULL, ny =NULL, lty =2, col ="gray", lwd =1)
Vemos que se confirma que cuando se gana lo normal es tener un +/- positivo (opcion = 1, primer cuadrante) y cuando se pierde lo normal es tenerlo negativo (opcion = 4, tercer cuadrante).
Lo menos habitual y, quizás lo más interesante, son las restantes opciones, tener un +/- positivo en un partido perdido (opcion = 2, segundo cuadrante) y tener un +/- negativo en un partido ganado (opcion = 3, cuarto cuadrante).
Un jugador en el segundo cuadrante será algo deseable, al contrario de un jugador del cuarto.
¿Pasamos a la acción? A continuación calculo, para cada jugador, cuántas veces está en cada una de las opciones anteriores (tanto en valor abosulo como relativo) así como el +/- acumulado y el número de partidos disputados:
Se observa que estos jugadores se caracterizan por ganar un alto porcentaje de los partidos disputados. Llama especialmente la atención que Jokubaitis ha tenido siempre un +/- positivo aún habiendo perdido en 2 de los 7 partidos disputados en Copa del Rey.
De forma análoga, si se ordena de menor a mayor +/-, se observa que los jugadores con menor +/- se caracterizan por perder un alto porcentaje de los partidos disputados.
Si nos quedamos con los 20 jugadores que más partidos han disputado en la Copa del Rey (desde la temporada 2011/2012), por ejemplo, se tiene que en un 21% de los partidos LLull ha tenido un +/- negativo en un partido perdido o que Dubljevic lo ha tenido positivo en un partido perdido en un 31% de los partidos que ha jugado.
Tenemos sólo dos jugadores en estas circunstancias, el primero ha ganado 7 partidos (O1 + O3) y perdido 4 (O2 + O4), mientras que el segundo 7 y 5, respectivamente.
Oriola parece responder al patrón de tener un +/- positivo cuando su equipo gana y negativo cuando pierde. En cambio, Brizuela presenta algún partido de +/- negativo cuando su equipo ha ganado.
Comentario final: en el ansia (que caracteriza a muchos los analistas de datos) de querer resumir todo en un número, consideré la opción de crear una medida que intentara resumir los datos de las tablas anteriores. Pensé en sumar el +/- del jugador (variable MasMenos) con el resultado final del partido (variable diferencia).
Pero, aparte de que potenciaría mucho a la opción 1 (dando valores muy altos) y perjudicaría a la 4 (dando valores muy bajos), en aquellos casos en los que se compensaría el +/- del jugador y el resultado final de partido (dando valores, próximos a cero) no se tendría claro si el jugador se encuadra en la opción 2 ó 3.
También pensé en el cociente, por ejemplo, dividir el +/- del jugador entre el resultado final del partido, pero surge el problema de que el signo se compensa en la opción 4.