Teoría de la información aplicada a la TV: el programa Alta Tensión

  • Categoría de la entrada:Artículos

En el panel final del concurso Alta Tensión se presenta una pregunta y doce posibles respuestas, de las cuales solo seis son correctas.

Obtenida de Mediaset (enlace)

El concursante puede acercarse al panel y marcar tantas opciones como considere. A unos metros hay un pulsador que le indica cuántos aciertos contiene su selección. Durante un minuto puede modificar su selección las veces que guste, y utilizar el pulsador cuanto necesite. Aquí hay una versión moderna en vídeo, que seguro que queda más claro.

La pregunta del panel final suele ser tan difícil que rara vez sabes qué respuestas marcar. Lo normal es marcarlas al azar y recurrir al pulsador varias veces hasta encontrar la selección correcta. En ese caso, cuando el proceso es aleatorio, ¿cuál es la mejor estrategia para la primera jugada?

Esta selección contiene dos respuestas correctas.

Una estrategia es marcar una única opción y correr al pulsador. En ese caso, sabrás con seguridad si has marcado una respuesta correcta o incorrecta. Otra idea es marcar seis opciones de golpe y correr a comprobarlo: es probable que tu selección incluya más respuestas correctas que antes, pero no sabrás exactamente cuáles son. ¿Cuál es la mejor estrategia? Hoy quiero proponer un enfoque basado en la teoría de la información para resolver esta duda.

Fórmulas básicas y un caso sencillo

Para simplificar, supongamos que el panel consta de cuatro respuestas y que solo dos son correctas. Existen seis maneras distintas de distribuir las respuestas correctas sobre el panel:

Como tenemos seis paneles posibles, necesitaremos \log_2 6 \approx 2.58 preguntas de sí o no para averiguar cuál es el correcto. El panel correcto equivale a 2.58 bits de información. El origen de esta fórmula se justifica en el vídeo que subí hace unos días.

¿Cómo medimos si una estrategia es mejor o peor? Se puede medir como la cantidad de preguntas que nos ha ahorrado usarla. Es decir, si marco solo la primera casilla del panel y el pulsador me dice que tengo una respuesta correcta, solo quedan tres paneles que son compatibles con esta información:

Antes de hacer mi jugada necesitaba \log_2 6 preguntas para averiguar el panel correcto, y ahora solo necesito \log_2 3. Me he ahorrado

\log_2 6-\log_23  = 1 \text{ pregunta.}

En general, podemos medir la calidad de una pregunta como \log_2(A)-\log_2(B), donde A es la cantidad paneles entre los que dudabas antes hacer tu jugada y B los que quedan después. Con las propiedades de los logaritmos, se simplifica a

I=\log_2(A)-\log_2(B) = \log_2\left(A/B\right).

Estrategia de marcar una casilla. Si marco la primera casilla del panel existen dos posibilidades: o bien hay cero respuestas correctas en mi selección, o bien hay una.

  • Si he acertado 0 respuestas, pasaré de seis posibles paneles a solo tres. Me ahorro:
I=\log_2(6/3) = 1
  • Si he acertado 1 respuesta, más de lo mismo: pasaré de seis posibles paneles a solo tres (¡consulta el dibujo!). Te ahorras una pregunta al conocer esta información.

En ambos casos te ahorras una pregunta.

Estrategia de marcar dos casillas. Si marco las dos casillas superiores del panel, existen tres posibilidades: o bien hay cero respuestas correctas en mi selección, o bien hay una, o bien hay dos.

  • Si he acertado 0, sabré que el panel que busco es el que tiene las dos respuestas correctas en la fila de abajo. Solo hay un panel compatible con esta información. Paso de seis candidatos a solo uno. Me aporta:
I=\log_2(6/1) \approx 2.58
  • Si he acertado 1, ahora dudaré entre cuatro paneles distintos (¡consulta el dibujo!). Me ahorra menos preguntas que antes:
I=\log_2(6/4) \approx 0.58
  • Si he acertado 2, habré resuelto el panel. Solo hay un panel compatible con esta información. La información que me aporta es:
I=\log_2(6/1) \approx 2.58

El problema es que la información que nos da cada respuesta del pulsador es diferente, y no sabes cuál será hasta que lo pulses. Por eso lo más sensato es calcular el valor esperado de esta distribución. Es decir: una de cada seis veces acertaremos cero respuestas, cuatro de cada seis veces acertaremos una respuesta, y una de cada seis veces acertaremos las dos.

Al sumar estas contribuciones, de forma ponderada, concluimos que marcar dos casillas nos ahorra, de media, esta cantidad de preguntas:

\frac{1}{6}\log_2(6)+\frac{4}{6}\log_2(6/4)+\frac{1}{6}\log_2(6) \approx 1.25 

En resumen, marcar dos casillas de golpe es, de media, mejor estrategia que la de marcar solo una. Se podría justificar sin utilizar la teoría de la información, claro: algunas veces marcar dos da menos información que marcar una, pero se compensa porque puedes adivinar el panel a la primera por casualidad. Con las fórmulas de la información podemos cuantificar y comparar las dos estrategias.

Quizá el enfoque de la teoría de Shannon no sea el mejor para este problema. Es cierto que acertar o fallar las dos respuestas te aporta la misma información, pero en el último caso tienes que volver al panel a cambiar tu selección, porque solo ganas si el panel está bien resuelto. ¡En fin!

El caso general y la respuesta final

El caso de un panel con doce respuestas, de las que solo seis son correctas, complica los cálculos. La idea es la misma que el apartado anterior, pero con números menos agradables. El número de paneles distintos es

\binom{12}{6} = 924.

Tienes que marcar N casillas del panel (seis como máximo). El pulsador podrá decir que tienes n=0, 1, 2,..., N aciertos en tu selección.

Cada respuesta del contador será compatible con algunos paneles de los 924 que existen. ¿Con cuántos? Es un problema de combinatoria hecho y derecho, cuya solución es

R_n=\binom{N}{n}\binom{12-N}{6-n}.

Cada respuesta n del pulsador te hace pasar de 924 candidatos a solo R_n. El número de preguntas que te ahorra es de

\log_2\left(\frac{924}{R_n}\right)

La media ponderada de las preguntas que nos ahorra seleccionar N casillas del tablero es de

I_N = \sum_n^N \frac{R_n}{924} \log_2\left(\frac{924}{R_n}\right)

La expresión no es tan horrorosa a ojos de mi ordenador, que puede calcular sin problemas los siguientes valores:

\begin{cases}
 I_1= 1.00 \\
I_2= 1.45\\
I_3= 1.68\\
I_4= 1.81\\
I_5= 1.88\\
I_6= 1.90
 \end{cases}

Como era de esperar, marcar una casilla nos ahorra, de media, una pregunta. Marcar seis casillas nos ahorra, de media, casi dos preguntas. Por tanto, lo estratégico es marcar seis casillas desde el principio de la prueba.

Fórmula general

El problema general es como sigue: un panel con T casillas, de las cuales solo la mitad son correctas. La información que te aporta marcar N\in\{1,2,...,T/2\} casillas es de:

I_N = \sum_n^N\frac{\binom{N}{n}\binom{T-N}{T/2-n}}{\binom{T}{T/2}}\log_2\frac{\binom{T}{T/2}}{\binom{N}{n}\binom{T-N}{T/2-n}}

He puesto la fórmula por alardear.

No hay más que ver, dispérsense.