Krok I
Definice cíle
Máme krabici s 10000 kuličkami neznámých barev. Vytáhneme tři kuličky — všechny jsou modré.
Hledáme optimální tip pro čtvrtou kuličku.
Při ztrátové funkci 0-1 (skóre 1 za správný tip, 0 za špatný) je
optimální strategie zvolit barvu s nejvyšší posteriorní prediktivní pravděpodobností.
Chceme dokázat:
$$P(X_4 = \text{modrá} \mid D) \;\geq\; P(X_4 = c \mid D) \qquad \text{pro každou barvu } c \neq \text{modrá}$$
kde $D = \{\text{modrá, modrá, modrá}\}$.
Krok II
Jediné nutné předpoklady
Protože o obsahu krabice nevíme vůbec nic, potřebujeme jen dva minimální předpoklady:
I. Zaměnitelnost
Výběr je náhodný a pořadí tahů nehraje roli — nezáleží na tom, ve které chvíli jsme vytáhli
první nebo třetí kuličku.
II. Symetrie barev
Při naprosté nevědomosti nemáme žádný důvod favorizovat jednu barvu před jinou.
Přehození nálepek „modrá" a „červená" nic nezmění.
Pozor: Tyto předpoklady nevyžadují znát počet barev, jejich proporce
ani nic jiného o složení krabice.
Krok III
Bayesovský aparát
Označme $\theta_c$ skutečný podíl barvy $c$ v krabici. Z Bayesovy věty:
$$p(\theta \mid D) \;\propto\; \theta_{\text{modrá}}^3 \cdot p(\theta)$$
Posteriorní prediktivní pravděpodobnosti pak jsou:
$$P(X_4 = \text{modrá} \mid D) \;=\; \frac{\displaystyle\int \theta_{\text{modrá}}^4 \cdot p(\theta)\, d\theta}{Z}$$
$$P(X_4 = c \mid D) \;=\; \frac{\displaystyle\int \theta_c \cdot \theta_{\text{modrá}}^3 \cdot p(\theta)\, d\theta}{Z}$$
kde $Z$ je stejná normalizační konstanta pro obě rovnice.
Stačí tedy dokázat, že veličina:
$$A \;=\; \int \theta_{\text{modrá}}^3\bigl(\theta_{\text{modrá}} - \theta_c\bigr)\, p(\theta)\, d\theta \;\geq\; 0$$
Krok IV
Symetrický trik — jádro důkazu
Díky symetrii barev (předpoklad II) lze prohazovat nálepky
„modrá" a $c$ bez změny apriorního rozdělení $p(\theta)$.
Zapišme tedy tutéž veličinu $A$ s prohozenými rolemi:
$$A \;=\; \int \theta_c^3\bigl(\theta_c - \theta_{\text{modrá}}\bigr)\, p(\theta)\, d\theta$$
Sečteme obě vyjádření $A$:
$$2A \;=\; \int \Bigl(\theta_{\text{modrá}}^3 - \theta_c^3\Bigr)\Bigl(\theta_{\text{modrá}} - \theta_c\Bigr)\, p(\theta)\, d\theta$$
Klíčové pozorování: Funkce $f(x) = x^3$ je ostře rostoucí, takže oba činitele
mají vždy
stejné znaménko:
$(\theta_{\text{modrá}}^3 - \theta_c^3)$ a $(\theta_{\text{modrá}} - \theta_c)$
jsou vždy shodně kladné nebo záporné.
Jejich součin je tedy vždy $\geq 0$. Protože navíc $p(\theta) \geq 0$, celý
integrand je nezáporný:
$$2A \;=\; \int \bigl(\theta_{\text{modrá}}^3 - \theta_c^3\bigr)\bigl(\theta_{\text{modrá}} - \theta_c\bigr) \cdot p(\theta)\, d\theta \;\geq\; 0$$
oba závorové výrazy mají vždy stejné znaménko · $p(\theta) \geq 0$
⟹ integrand $\geq 0$
Krok V
Závěr důkazu
Z kroku IV plyne $A \geq 0$, a tedy:
$$P(X_4 = \text{modrá} \mid D) \;\geq\; P(X_4 = c \mid D) \qquad \forall\, c \neq \text{modrá}$$
Nerovnost je ostrá ($>$) všude tam, kde se barvy skutečně liší v podílu,
a rovnost nastane pouze pokud jsou barva modrá a barva $c$ identicky zastoupeny
v každé možné krabici — což je krajní případ.
— ✦ —
Výsledek
„Modrá" je jednoznačně optimální tip
bez ohledu na:
| ✦ | Počet různých barev v krabici |
| ✦ | Skutečné rozdělení barev |
| ✦ | Počet různých krabic ve světě |
Důkaz nevyžaduje konkrétní apriorní rozdělení — stačí symetrie barev a zaměnitelnost.
Vše plyne z elementární algebraické nerovnosti
$$(x^3 - y^3)(x - y) \;\geq\; 0 \quad \forall\, x, y \in \mathbb{R}$$