La fòrmula que va ajudar a guanyar la guerra.
El problema del tanc alemany
Introducció
Durant la Segona Guerra Mundial, els Aliats necessitaven estimar quants tancs produïa Alemanya. Les estimacions d'intel·ligència tradicional sovint eren molt imprecises. Una alternativa sorprenent va venir d'un lloc aparentment banal: els números de sèrie dels tancs capturats o destruïts.
El problema del tanc alemany (German Tank Problem) és un dels exemples més fascinants i elegants de com l'estadística pot superar la intuïció humana i resoldre problemes logístics reals.
El context històric
Durant la Segona Guerra Mundial, els Aliats volien saber quants tancs estava produint Alemanya cada mes. Tenien dues fonts d'informació:
- L'espionatge convencional: informes d'intel·ligència, interrogatoris i reconeixement aeri.
- L'anàlisi estadística: Examinar els números de sèrie de les peces dels tancs capturats o destruïts (caixes de canvis, motors, xassís).
Mentre que la intel·ligència deia que Alemanya fabricava uns 1.400 tancs al mes, els estadístics, usant una fórmula simple, van estimar que eren uns 246. Després de la guerra, els registres alemanys van confirmar que la xifra real era de 245. L'estadística havia clavat el resultat.
Els vehicles i peces industrials solen estar numerats per control intern. Si els números són consecutius (1, 2, 3... N), observar-ne uns quants permet deduir fins on arriba la seqüència.
En el cas dels tancs, els Aliats van analitzar números de sèrie de xassís, motors i components. El resultat va ser que l'estimació estadística va aproximar molt bé la producció real, i en alguns períodes va ser més fiable que els informes obtinguts per vies clàssiques.
El funcionament lògic
La premissa és que els alemanys numeraven els seus tancs de forma seqüencial (1, 2, 3, ..., N). Si captures una mostra aleatòria de tancs, el número de sèrie més alt que trobis et donarà una pista sobre el total (N).Si captures 4 tancs i els números són 15, 42, 89, 107, saps segur que hi ha almenys 107 tancs. Però, quants n'hi ha realment?
El model matemàtic
Suposem que existeixen N tancs numerats de l'1 a N. Si en captures k a l'atzar i el número més alt observat és m, pots estimar N amb una fórmula molt simple.
La fórmula estadística
Si:
- k = nombre de tancs observats (mostra)
- m = número de sèrie màxim observat
Aleshores una estimació de freqüència clàssica és:
N ≈ m + (m/k) − 1
Aquesta correcció existeix perquè m, per si sol, tendeix a quedar una mica per sota del màxim real.
Exemple numèric
Suposem que captures 4 tancs i veus aquests números de sèrie:
19, 40, 42, 60
Això dona:
- k = 4
- m = 60
Càlcul:
| Dada | Valor |
|---|---|
| Mostra (k) | 4 |
| Màxim observat (m) | 60 |
| Estimació N | 60 + (60/4) − 1 = 74 |
Resumint: una estimació plausible és que s'han produït aproximadament 74 tancs (en aquell conjunt, lot o període analitzat).
Per què funciona tan bé
El punt fort és que el màxim mostral conté molta informació sobre el límit superior real quan:
- la numeració és consecutiva,
- la mostra és raonablement aleatòria,
- no hi ha "forats" deliberats (sèries saltades) ni re-etiquetatge.
En aquest model, el màxim actua com un resum molt eficient del problema: amb pocs casos ja tens un indicador potent de fins on arriba la sèrie.
Per què és tan potent?
- Intuïció vs. Realitat: La majoria de la gent pensa que si trobes el número 100, el total deu ser molt més gran (com 200 o 300). L'estadística demostra que, amb una mostra aleatòria, el màxim sol estar relativament a prop del total.
- Eficiència: Fins i tot amb una mostra molt petita (només 2 o 3 tancs), l'estimació sol ser molt més precisa que les conjectures dels espies.
On més s'ha utilitzat (i s'utilitza)
Aquest mètode encara s'utilitza avui dia per estimar coses com el nombre de descàrregues d'una app, les vendes d'un producte de la competència o l'abast de certs processos industrials.
Aquesta idea apareix també en aquests altres camps:
Control de qualitat i logística
Si un fabricant numera lots o unitats, una mostra d'ítems distribuïts pot ajudar a estimar:
- volum real d'un lot,
- abast d'una incidència,
- traçabilitat d'una retirada de producte.
Anàlisi forense i criminologia
En armes, components o mercaderies numerades (quan la numeració és fiable), la mostra de confiscacions pot servir per estimar volums reals.
Intel·ligència econòmica i militar
Quan una cadena de subministrament deixa rastre de numeració (peces, motors, lots), la inferència per números de sèrie ajuda a estimar producció, ritmes i canvis industrials.
Cultura "maker" i col·leccionisme
S'ha fet servir per estimar quantitats de productes numerats (edicions limitades, sèries de producció, etc.) quan no hi ha transparència.
Limitacions
Aquest mètode pot fallar si:
- la numeració no comença a 1 (o no se sap on comença),
- hi ha salts sistemàtics o múltiples fàbriques amb sèries diferents,
- la mostra no és aleatòria (per exemple, només captures vehicles d'un front concret),
- els números estan manipulats o no són seqüencials.
Per això, en aplicacions reals sovint es combinen números de sèrie amb altres dades (marques de fàbrica, dates, codis de lot i informació logística).
El cas de l'Alan Turing
El cas de l'Alan Turing i el problema del tanc alemany és una d'aquelles anècdotes delicioses de la història de la ciència on la brillantor acadèmica es troba amb la necessitat de guerra.
Tot i que Turing és famós per desxifrar la màquina Enigma, la seva implicació en l'estimació de la producció alemanya va ser una mena de "divertiment" intel·lectual que va compartir amb els seus col·legues a Bletchley Park.
La "Solució de Turing"
A diferència de l'estimació de freqüències (la fórmula anterior), Turing i el seu equip van abordar el problema des d'una perspectiva bayesiana.
- El context: A Bletchley Park no només llegien missatges, sinó que també rebien dades de peces recuperades. Turing volia saber quants tancs hi havia, però també quina era la probabilitat que la seva estimació fos correcta.
- L'aportació de Turing: Es diu que Turing va utilitzar un mètode basat en la probabilitat a posteriori. Ell deia que cada vegada que apareixia un nou número de sèrie, no només estàvem "omplint buits", sinó actualitzant la nostra creença sobre el total N.
Es diu que Turing feia servir exemples quotidians per explicar estadística complexa als seus col·legues durant el te. Una de les històries que circula és que feia servir el problema per demostrar que la intuïció humana és un desastre amb les probabilitats.
Mentre que els militars pensaven que els números de sèrie eren "només etiquetes", Turing va demostrar que eren dades d'informació comprimida. Ell va argumentar que:
- Si la mostra és petita, el risc de subestimar és alt.
- Però si la mostra és aleatòria, el número màxim observat és un estimador suficient.
Per què és important la seva figura aquí?
Encara que el mèrit de la fórmula final sol atribuir-se a estadístics del Statistical Research Group (SRG) com Abraham Wald, les converses de Turing van ser fonamentals per a:
- Integrar dades d'intel·ligència: Combinar el que deien els espies (el prior) amb el que deien els números de sèrie (l'evidència).
- La criptoanàlisi: El mateix pensament estadístic que servia per comptar tancs servia per desxifrar codis; al cap i a la fi, Enigma no era més que una màquina amb un nombre finit de configuracions que es podien "enumerar".
Conclusió
El problema del tanc alemany és una lliçó de primer ordre: quan el sistema deixa un rastre regular (una seqüència), una mostra petita pot ser suficient per obtenir una estimació útil.
És un exemple perfecte de com l'estadística aplicada no només "resumeix dades", sinó que pot competir amb fonts d'informació aparentment més potents.
Enllaços i recursos (verificats)
Referències web
- German tank problem (Wikipedia, anglès)
- "How a statistical formula won the war" (The Guardian, 2006)
- El problema del tanque alemán
Bibliografia i papers
- Clark, Gonye & Miller (2021). Lessons from the German Tank Problem (arXiv)
- Lee & Miller (2022). Generalizing the German Tank Problem (arXiv)
- Ruggles & Brodie (1947). An Empirical Approach to Economic Intelligence in World War II (JASA)
Vídeos
- Numberphile: "The Clever Way to Count Tanks"
- YouTube: "The German Tank Problem: How the Allies defeated the Nazis with statistics"
- El problema del tanque alemán
- The Seemingly Impossible Math That Helped Win World War 2
- The German Tank Problem: How the Allies defeated the Nazis with statistics
Àudios / podcasts