La fòrmula que va ajudar a guanyar la guerra.

El problema del tanc alemany

colla de tancs

Com van saber els aliats el tancs que fabricaven els alemanys?

Introducció

Durant la Segona Guerra Mundial, els Aliats necessitaven estimar quants tancs produïa Alemanya. Les estimacions d'intel·ligència tradicional sovint eren molt imprecises. Una alternativa sorprenent va venir d'un lloc aparentment banal: els números de sèrie dels tancs capturats o destruïts.

El problema del tanc alemany (German Tank Problem) és un dels exemples més fascinants i elegants de com l'estadística pot superar la intuïció humana i resoldre problemes logístics reals.

El context històric

Durant la Segona Guerra Mundial, els Aliats volien saber quants tancs estava produint Alemanya cada mes. Tenien dues fonts d'informació:

  1. L'espionatge convencional: informes d'intel·ligència, interrogatoris i reconeixement aeri.
  1. L'anàlisi estadística: Examinar els números de sèrie de les peces dels tancs capturats o destruïts (caixes de canvis, motors, xassís).

Mentre que la intel·ligència deia que Alemanya fabricava uns 1.400 tancs al mes, els estadístics, usant una fórmula simple, van estimar que eren uns 246. Després de la guerra, els registres alemanys van confirmar que la xifra real era de 245. L'estadística havia clavat el resultat.

Els vehicles i peces industrials solen estar numerats per control intern. Si els números són consecutius (1, 2, 3... N), observar-ne uns quants permet deduir fins on arriba la seqüència.

En el cas dels tancs, els Aliats van analitzar números de sèrie de xassís, motors i components. El resultat va ser que l'estimació estadística va aproximar molt bé la producció real, i en alguns períodes va ser més fiable que els informes obtinguts per vies clàssiques.

El funcionament lògic

La premissa és que els alemanys numeraven els seus tancs de forma seqüencial (1, 2, 3, ..., N). Si captures una mostra aleatòria de tancs, el número de sèrie més alt que trobis et donarà una pista sobre el total (N).Si captures 4 tancs i els números són 15, 42, 89, 107, saps segur que hi ha almenys 107 tancs. Però, quants n'hi ha realment?

El model matemàtic

Suposem que existeixen N tancs numerats de l'1 a N. Si en captures k a l'atzar i el número més alt observat és m, pots estimar N amb una fórmula molt simple.

La fórmula estadística

Si:

  • k = nombre de tancs observats (mostra)
  • m = número de sèrie màxim observat

Aleshores una estimació de freqüència clàssica és:

N ≈ m + (m/k) − 1

Aquesta correcció existeix perquè m, per si sol, tendeix a quedar una mica per sota del màxim real.

Exemple numèric

Suposem que captures 4 tancs i veus aquests números de sèrie:

19, 40, 42, 60

Això dona:

  • k = 4
  • m = 60

Càlcul:

Dada Valor
Mostra (k) 4
Màxim observat (m) 60
Estimació N 60 + (60/4) − 1 = 74


Resumint: una estimació plausible és que s'han produït aproximadament 74 tancs (en aquell conjunt, lot o període analitzat).

Per què funciona tan bé

El punt fort és que el màxim mostral conté molta informació sobre el límit superior real quan:

  • la numeració és consecutiva,
  • la mostra és raonablement aleatòria,
  • no hi ha "forats" deliberats (sèries saltades) ni re-etiquetatge.

En aquest model, el màxim actua com un resum molt eficient del problema: amb pocs casos ja tens un indicador potent de fins on arriba la sèrie.

Per què és tan potent?

  • Intuïció vs. Realitat: La majoria de la gent pensa que si trobes el número 100, el total deu ser molt més gran (com 200 o 300). L'estadística demostra que, amb una mostra aleatòria, el màxim sol estar relativament a prop del total.
  • Eficiència: Fins i tot amb una mostra molt petita (només 2 o 3 tancs), l'estimació sol ser molt més precisa que les conjectures dels espies.

On més s'ha utilitzat (i s'utilitza)

Aquest mètode encara s'utilitza avui dia per estimar coses com el nombre de descàrregues d'una app, les vendes d'un producte de la competència o l'abast de certs processos industrials.

Aquesta idea apareix també en aquests altres camps:

Control de qualitat i logística

Si un fabricant numera lots o unitats, una mostra d'ítems distribuïts pot ajudar a estimar:

  • volum real d'un lot,
  • abast d'una incidència,
  • traçabilitat d'una retirada de producte.

Anàlisi forense i criminologia

En armes, components o mercaderies numerades (quan la numeració és fiable), la mostra de confiscacions pot servir per estimar volums reals.

Intel·ligència econòmica i militar

Quan una cadena de subministrament deixa rastre de numeració (peces, motors, lots), la inferència per números de sèrie ajuda a estimar producció, ritmes i canvis industrials.

Cultura "maker" i col·leccionisme

S'ha fet servir per estimar quantitats de productes numerats (edicions limitades, sèries de producció, etc.) quan no hi ha transparència.

Limitacions

Aquest mètode pot fallar si:

  • la numeració no comença a 1 (o no se sap on comença),
  • hi ha salts sistemàtics o múltiples fàbriques amb sèries diferents,
  • la mostra no és aleatòria (per exemple, només captures vehicles d'un front concret),
  • els números estan manipulats o no són seqüencials.

Per això, en aplicacions reals sovint es combinen números de sèrie amb altres dades (marques de fàbrica, dates, codis de lot i informació logística).

El cas de l'Alan Turing

El cas de l'Alan Turing i el problema del tanc alemany és una d'aquelles anècdotes delicioses de la història de la ciència on la brillantor acadèmica es troba amb la necessitat de guerra.

Tot i que Turing és famós per desxifrar la màquina Enigma, la seva implicació en l'estimació de la producció alemanya va ser una mena de "divertiment" intel·lectual que va compartir amb els seus col·legues a Bletchley Park.

La "Solució de Turing"

A diferència de l'estimació de freqüències (la fórmula anterior), Turing i el seu equip van abordar el problema des d'una perspectiva bayesiana.

  • El context: A Bletchley Park no només llegien missatges, sinó que també rebien dades de peces recuperades. Turing volia saber quants tancs hi havia, però també quina era la probabilitat que la seva estimació fos correcta.
  • L'aportació de Turing: Es diu que Turing va utilitzar un mètode basat en la probabilitat a posteriori. Ell deia que cada vegada que apareixia un nou número de sèrie, no només estàvem "omplint buits", sinó actualitzant la nostra creença sobre el total N.

Es diu que Turing feia servir exemples quotidians per explicar estadística complexa als seus col·legues durant el te. Una de les històries que circula és que feia servir el problema per demostrar que la intuïció humana és un desastre amb les probabilitats.

Mentre que els militars pensaven que els números de sèrie eren "només etiquetes", Turing va demostrar que eren dades d'informació comprimida. Ell va argumentar que:

  1. Si la mostra és petita, el risc de subestimar és alt.
  2. Però si la mostra és aleatòria, el número màxim observat és un estimador suficient.

Per què és important la seva figura aquí?

Encara que el mèrit de la fórmula final sol atribuir-se a estadístics del Statistical Research Group (SRG) com Abraham Wald, les converses de Turing van ser fonamentals per a:

  • Integrar dades d'intel·ligència: Combinar el que deien els espies (el prior) amb el que deien els números de sèrie (l'evidència).
  • La criptoanàlisi: El mateix pensament estadístic que servia per comptar tancs servia per desxifrar codis; al cap i a la fi, Enigma no era més que una màquina amb un nombre finit de configuracions que es podien "enumerar".

Conclusió

El problema del tanc alemany és una lliçó de primer ordre: quan el sistema deixa un rastre regular (una seqüència), una mostra petita pot ser suficient per obtenir una estimació útil.

És un exemple perfecte de com l'estadística aplicada no només "resumeix dades", sinó que pot competir amb fonts d'informació aparentment més potents.

Enllaços i recursos (verificats)

Referències web

Bibliografia i papers

Vídeos

Àudios / podcasts

Il·lustració d’un tanc panzer
L'estadística assumeix que els "buits" que hi ha entre els números de sèrie són, de mitjana, iguals al buit que hi ha entre el número més alt i el total real.

Etiquetes:

estadística,inferència,màxima versemblança,Segona Guerra Mundial,intel·ligència militar,números de sèrie,mostreig,probabilitat

codi post: 63ca