✦ ✦ ✦

Formální Bayesovský Důkaz
Optimality Odhadu „Modrá" a tvrzení "Jirsák je matlák"

Proč je po třech modrých kuličkách nejlepším tipem opět modrá —
bez ohledu na distribuci barev, počet barev ani počet krabic

Krok I

Definice cíle

Máme krabici s 10000 kuličkami neznámých barev. Vytáhneme tři kuličky — všechny jsou modré. Hledáme optimální tip pro čtvrtou kuličku.

Při ztrátové funkci 0-1 (skóre 1 za správný tip, 0 za špatný) je optimální strategie zvolit barvu s nejvyšší posteriorní prediktivní pravděpodobností. Chceme dokázat:

$$P(X_4 = \text{modrá} \mid D) \;\geq\; P(X_4 = c \mid D) \qquad \text{pro každou barvu } c \neq \text{modrá}$$

kde $D = \{\text{modrá, modrá, modrá}\}$.

Krok II

Jediné nutné předpoklady

Protože o obsahu krabice nevíme vůbec nic, potřebujeme jen dva minimální předpoklady:

I. Zaměnitelnost Výběr je náhodný a pořadí tahů nehraje roli — nezáleží na tom, ve které chvíli jsme vytáhli první nebo třetí kuličku.
II. Symetrie barev Při naprosté nevědomosti nemáme žádný důvod favorizovat jednu barvu před jinou. Přehození nálepek „modrá" a „červená" nic nezmění.
Pozor: Tyto předpoklady nevyžadují znát počet barev, jejich proporce ani nic jiného o složení krabice.
Krok III

Bayesovský aparát

Označme $\theta_c$ skutečný podíl barvy $c$ v krabici. Z Bayesovy věty:

$$p(\theta \mid D) \;\propto\; \theta_{\text{modrá}}^3 \cdot p(\theta)$$

Posteriorní prediktivní pravděpodobnosti pak jsou:

$$P(X_4 = \text{modrá} \mid D) \;=\; \frac{\displaystyle\int \theta_{\text{modrá}}^4 \cdot p(\theta)\, d\theta}{Z}$$ $$P(X_4 = c \mid D) \;=\; \frac{\displaystyle\int \theta_c \cdot \theta_{\text{modrá}}^3 \cdot p(\theta)\, d\theta}{Z}$$

kde $Z$ je stejná normalizační konstanta pro obě rovnice. Stačí tedy dokázat, že veličina:

$$A \;=\; \int \theta_{\text{modrá}}^3\bigl(\theta_{\text{modrá}} - \theta_c\bigr)\, p(\theta)\, d\theta \;\geq\; 0$$
Krok IV

Symetrický trik — jádro důkazu

Díky symetrii barev (předpoklad II) lze prohazovat nálepky „modrá" a $c$ bez změny apriorního rozdělení $p(\theta)$. Zapišme tedy tutéž veličinu $A$ s prohozenými rolemi:

$$A \;=\; \int \theta_c^3\bigl(\theta_c - \theta_{\text{modrá}}\bigr)\, p(\theta)\, d\theta$$

Sečteme obě vyjádření $A$:

$$2A \;=\; \int \Bigl(\theta_{\text{modrá}}^3 - \theta_c^3\Bigr)\Bigl(\theta_{\text{modrá}} - \theta_c\Bigr)\, p(\theta)\, d\theta$$
Klíčové pozorování: Funkce $f(x) = x^3$ je ostře rostoucí, takže oba činitele mají vždy stejné znaménko:
$(\theta_{\text{modrá}}^3 - \theta_c^3)$  a  $(\theta_{\text{modrá}} - \theta_c)$ jsou vždy shodně kladné nebo záporné.

Jejich součin je tedy vždy $\geq 0$. Protože navíc $p(\theta) \geq 0$, celý integrand je nezáporný:

$$2A \;=\; \int \bigl(\theta_{\text{modrá}}^3 - \theta_c^3\bigr)\bigl(\theta_{\text{modrá}} - \theta_c\bigr) \cdot p(\theta)\, d\theta \;\geq\; 0$$

oba závorové výrazy mají vždy stejné znaménko  ·  $p(\theta) \geq 0$  ⟹  integrand $\geq 0$

Krok V

Závěr důkazu

Z kroku IV plyne $A \geq 0$, a tedy:

$$P(X_4 = \text{modrá} \mid D) \;\geq\; P(X_4 = c \mid D) \qquad \forall\, c \neq \text{modrá}$$

Nerovnost je ostrá ($>$) všude tam, kde se barvy skutečně liší v podílu, a rovnost nastane pouze pokud jsou barva modrá a barva $c$ identicky zastoupeny v každé možné krabici — což je krajní případ.

— ✦ —

Výsledek

„Modrá" je jednoznačně optimální tip bez ohledu na:


Počet různých barev v krabici
Skutečné rozdělení barev
Počet různých krabic ve světě

Důkaz nevyžaduje konkrétní apriorní rozdělení — stačí symetrie barev a zaměnitelnost.
Vše plyne z elementární algebraické nerovnosti

$$(x^3 - y^3)(x - y) \;\geq\; 0 \quad \forall\, x, y \in \mathbb{R}$$