Vorlesungsskript: Grundlagen des Entscheidens I

Eckhart Arnold

Inhalt

1 Vorwort

2 Techniken des Entscheidens

3 Zur Theorie der Kollektiven Entscheidungen

4 Wahrscheinlichkeitsrechnung

4.1 Wahrscheinlichkeiten I: Rechentechniken

4.1.1 Einführung

4.1.2 Grundlegende Gesetze der Wahrscheinlichkeitsrechnung

4.1.3 Der Bayes'sche Lehrsatz

4.1.4 Aufgaben

4.2 Wahrscheinlichkeiten II: Interpretationsfragen nicht klausurrelevant!)

5 Neumann-Morgensternsche Nutzentheorie

6 Spieltheorie

7 Kritische Reflexion

8 Beispielklausur

Literaturverzeichnis

4.1.2 Grundlegende Gesetze der Wahrscheinlichkeitsrechnung

Wenn wir in der Entscheidungstheorie von Wahrscheinlichkeiten sprechen, dann sind fast immer die Wahrscheinlichkeiten von Zuständen oder von Zufallsereignissen gemeint. Für die Wahrscheinlichkeit eines Ereignisses $E$ schreibt man: $\begin{eqnarray}P(E) = a \qquad 0 \leq a \leq 1 \end{eqnarray}$

Lies: Die Wahrscheinlichkeit, dass das Ereignis $E$ eintritt beträgt $a$ . Statt über die Wahrscheinlichkeit von Ereignissen zu reden, können wir ebensogut über die Wahrscheinlichkeit der Wahrheit von Aussagen reden, die besagen, dass ein Ereignis eintritt. Wenn $q$ die Aussage ist, dass das Ereignis $E$ eintritt, dann ist mit $\begin{eqnarray}P(q) = a \qquad 0 \leq a \leq 1 \end{eqnarray}$

die Wahrscheinlichkeit beschrieben, dass die Aussage $q$ wahr ist. Da $q$ aussagt, dass E eintritt, ist diese Wahrscheinlichkeit natürlich genau dieselbe wie diejenige, dass E eintritt. Spricht man von den Wahrscheinlichkeiten von Aussagen über Ereignisse, so erlaubt dies ohne weitere Umstände die aussagenlogischen und modallogischen[51] Verknüpfungen von Aussagen anzuwenden und die Wahrscheinlichkeiten von aussagenlogisch verknüpften Aussagen zu bestimmen. Aber im Grunde handelt es sich dabei nur um eine andere Redeweise. Besonders in der mathematischen Literatur zur Wahrscheinlichkeitstheorie ist es darüber hinaus auch üblich den Wahrscheinlichkeitsbegriff in Bezug auf Ereignismengen zu definieren, die die Teilmengen eines Ereignisraums sind, wobei man zusammengesetzte Ereignisse noch einmal von Elementarereignissen unterscheidet (Bosch 1976, S. 1ff.). Der Einfachheit halber beschränken wir uns, Resnik folgend (Resnik 1987, S. 45ff.), hier meist aber auf die Wahrscheinlichkeiten von Ereignissen bzw. Aussagen über Ereignisse.

Die Wahrscheinlichkeitsrechnung wurde 1993 von dem russischen Mathematiker Andrej Nikolajewitsch Kolmogorow axiomatisiert. Seitdem beruht die gesamte Wahrscheinlichkeitsrechnung auf folgenden drei (harmlos wirkenden) Axiomen:

Axiom 1:: Für die Wahrscheinlichkeit $P(p)$ eines Ereignisses $p$ gilt:

$0 \leq P(p) \qquad P(p) \in \mathbb{R}$
Axiom 2:: Wenn $p$ sicher ist, dann gilt:

$P(p) = 1$
Axiom 3:: Wenn die Ereignisse $p$ und $q$ sich ausschließen, dann gilt:

$P(p \vee q) = P(p) + P(q)$

Sofern die Menge möglicher Ereignisse abzählbar unendlich viele Ereignisse enthält, ersetzt man Axiom 3 durch:

Axiom 3':: Seien $p_1, p_2, \ldots$ höchstens abzählbar unendlich viele Ereignisse und paarweise unvereinbar, dann gilt:

$P(\bigvee p_i) = P(p_1 \vee p_2 \vee \ldots) = P(p_1) + P(p_2) + \ldots = \sum P(p_i)$

Es ist bemerkenswert, dass man mit diesen drei Axiomen auskommt, und dass sich alle anderen Gesetze für das Rechnen mit Wahrscheinlichkeiten daraus ableiten lassen. Insbesondere kann man aus diesen Axiomen relativ unmittelbar folgende Corrolarien ableiten:

$P(\neg p) = 1 - P(p) \qquad$ (inverse Wahrscheinlichkeit)
Beweis: Da $p \vee \neg p$ sicher ist, gilt nach Axiom 2: $P(p \vee \neg p) = 1$ . Da $p$ und $\neg p$ sich ausschließen, kann man Axiom 3 anwenden:

$P(p) + P(\neg p) = P(p \vee \neg p) = 1$

Daraus folgt unmittelbar: $P(\neg p) = 1 - P(p) \qquad$
Wenn $q$ unmöglich, dann $P(q) = 0 \qquad$ ( Null-Wahrscheinlichkeit)
Beweis: Wenn $q$ unmöglich ist, dann ist $\neg q$ sicher. Damit ergibt sich aus dem vorhergehenden und Axiom 2:

$P(q) = 1 - P(\neg q) = 1 - 1 = 0$
Wenn p aus q folgt, dann $P(q) \leq P(p) \qquad$ (Monotonie)
Beweis: Wenn $p \leftarrow q$ , dann gilt $p \Leftrightarrow q \vee (\neg q \wedge p)$ . Da aber auch gilt, dass $q$ und $(\neg q \wedge p)$ sich ausschließen, ist die Voraussetzung von Axiom 3 erfüllt und wir können folgern, dass:

$P(p) = P(q) + P(\neg q \wedge p)$

Da wegen Axiom 1 sowohl $P(q) \geq 0$ als auch $P(\neg q \wedge p) \geq 0$ , können wir daraus folgern, dass $P(q) \leq P(p)$ . (Da es nicht strikt ausgeschlossen ist, dass $\neg q \wedge p$ wahr ist, kann es in der Tat auch Fälle geben in denen $<$ also echt kleiner gilt.)
$P(p) \leq 1$ (obere Grenze der Wahrscheinlichkeit)
Beweis: Logisch betrachtet folgt ein sicheres Ereignis q aus jedem Ereignis p. (Da q als sicheres Ereignis immer gilt, gilt es insbesondere auch wenn p gilt.) Für jedes Ereignis p gilt also $P(p) \leq P(q)$ , wenn q sicher ist. Da nach dem 2. Axiom $P(q) = 1$ , folgt die Behauptung.
$P(q \vee p) = P(q) + P(p) - P(q \wedge p) \qquad$ ( oder-verknüpfte Ereignisse)
Beweis: Da $q \vee p$ äquivalent ist mit $q \vee (\neg q \wedge p)$ und $q$ und $\neg q \wedge p$ sich ausschließen, gilt nach Axiom 3:

$P(q \vee p) = P(q \vee (\neg q \wedge p)) = P(q) + P(\neg q \wedge p)$

Da aber weiterhin $p \Leftrightarrow (q \wedge p) \vee (\neg q \wedge p)$ und auch $q \wedge p$ und $\neg q \wedge p$ sich ausschließen, gilt wiederum nach Axiom 3:

$P(p) = P((q \wedge p) \vee (\neg q \wedge p)) = P(q \wedge p) + P(\neg q \wedge p)$

Dies lässt sich umformen zu:

$P(\neg q \wedge p) = P(p) - P(q \wedge p)$

Indem wir den Term $P(\neg q \wedge p)$ in der ersten Gleichung durch diesen Ausdruck ersetzen erhalten wir die Behauptung.

Der „Sinn“ der meisten dieser Corrolarien drüfte relativ einleuchtend sein. Etwas verblüffend könnte höchstens die Monotoniebedingung (3.) erscheinen. Wenn p aus q folgt ( $q \rightarrow p$ ), warum gilt dann, dass die Wahrscheinlichkeit von q kleiner ist als die von p ( $P(q) \leq P(p)$ ) und nicht umgekehrt? Man kann sich das folgendermaßen klar machen: q ist eine hinreichende, aber keine notwendige Voraussetzung von p. Immer wenn q gegeben ist, ist damit auch p gegeben. Aber umgekehrt kann p auch gegeben sein, ohne dass q gegeben ist. So gesehen ist p wahrscheinlicher als q.

Alle oben aufgeführten Gesetzmäßigkeiten betreffen unbedingte Wahrscheinlichkeiten. Als nächstes ist der Begriff der bedingen Wahrscheinlichkeit einzuführen. Mit

$P(p|q)$

bezeichnen wir die Wahrscheinlichkeit eines Ereignisses p unter der Bedingungen, dass das Ereignis q eingetreten ist.

Mathematisch kann die bedingte Wahrscheinlichkeit $P(p|q)$ durch folgende Definition eingeführt werden:

$P(p|q) := \frac{P(p \wedge q)}{P(q)} \qquad P(q) > 0$

In Umgangssprache übertragen bedeutet dies, dass die bedingte Wahrscheinlichkeit als die Wahrscheinlichkeit definiert ist, mit der beide Ereignisse (das Bedingte und das Bedingende) eintreten, geteilt durch die Wahrscheinlichkeit, dass die Bedingung eintritt. Für den Fall, dass $P(q)=0$ , setzt man üblicherweise $P(p|q) := 0$ . Diese Festsetzung ist möglich und sinnvoll, weil damit immer noch das unten angegebene Multiplikationsgesetz erfüllt ist.

Wenn es sich dabei um die „Definition“ bedingter Wahrscheinlichkeit handelt, dann könnte man die Frage aufwerfen, warum man die bedingte Wahrscheinlichkeit gerade so definieren soll und ob man sie nicht auch anders definieren könnte. Betrachtet man die Wahrscheinlichkeitsrechnung nicht allein als eine rein mathematische Disziplin, in welchem Falle die Definition in der Tat willkürlich wäre, solange sie nicht den voher (ebenso willkürlich) festgelegten Axiomen widerspricht, dann muss der Rechtfertigungsgrund für diese Definition genauso wie für die vorhergehenden Kolmogorowschen Axiome in letzter Instanz ein empirischer sein: Die Axiome und Definitionen der Wahrscheinlichkeitsrechnung sind gültig, insofern sich damit Gesetzmäßigkeiten empirischer Wahrscheinlichkeitsphänomene richtig erfassen lassen. Andernfalls wären sie nicht mathematisch falsch aber empirisch unanwendbar. (Dasselbe gilt übrigens für alle Bereiche der Mathematik, sogar für das Rechnen mit natürlichen Zahlen. Empirisch betrachtet, ist $2+2=4$ , weil zwei Äpfel und noch zwei Äpfel vier Äpfel sind und weil zwei Häuser und noch zwei Häuser vier Häuser sind, usf. Gäbe es irgendeinen Planeten auf dem zwei Äpfel und noch zwei Äpfel fünf statt vier Äpfel sind, dann wäre damit nicht die Mathematik natürlicher Zahlen widerlegt, aber sie wäre auf diesem Planeten unanwendbar. Wem das Beispiel zu abwegig vorkommt, der mag sich überlegen, dass die einfache Additivität schon bei Volumengrößen nicht gegeben ist. Wenn man 1 Liter Alkohol und 1 Liter Wasser mischt, dann bekommt man nicht etwa $1+1=2$ Liter Alkohol-Wasser-Gemisch, sondern etwas weniger als 2 Liter! Ob und worauf sich die Gesetze der Addition, Subtraktion, Multiplikation etc. anwenden lassen ist also eine rein empirische Frage. A priori lässt sich nur beweisen, dass $1+1=2$ ,[52] aber nicht dass eine Mengeneinheit von irgendetwas (z.B. Flüssigkeit) plus noch eine Mengeneinheit von irgendetwas zwei Mengeneinheiten von irgendetwas sind.)

Um nun aber die oben aufgeführte Definition der bedingten Wahrscheinlichkeit noch etwas besser zu motivieren, kann man darauf hinweisen, dass sich aus ihr unmittelbar das uns schon zuvor bekannte (oder wie man riskanterweise auch manchmal behauptet: das uns intuitiv einleuchtende) Gesetz für die Multiplikation der Wahrscheinlichkeiten von und-verknüpften Ereignissen ergibt:

$P(p \wedge q) = P(p)\cdot P(q|p)$

Wegen der Kommutativität des logischen und-Operators „ $\wedge$ “ ergibt sich daraus unmittelbar auch:

$P(p \wedge q) = P(q \wedge p) = P(q)\cdot P(p|q)$

Beim Gesetz der Multiplikation von Wahrscheinlichkeiten ist zu beachten, dass die Wahrscheinlichkeit des einen Ereignisses die unbedingte Wahrscheinlichkeit ist, die des anderen Ereignisses aber stets die Wahrscheinlichkeit unter der Bedingung, dass das eine Ereignis eingetreten ist.

Dieser Zusammenhang wird bei empirischen Beispielen manchmal verdeckt. Berechnet man beispielsweise die Wahrscheinlichkeit, dass man bei zwei Münzwürfen beidemale hintereinander Zahl erhält, so würde man 1/2 mal 1/2 rechnen, also scheinbar $P(p)\cdot P(q)$ rechnen, wenn mit p die Aussage „Beim ersten Wurf lag die Zahl oben“ und mit q die Aussage „Beim zweiten Wurf lag die Zahl oben“ gemeint ist. Aber auch hier muss man Korrekterweise $P(p)\cdot P(q|p)$ rechnen, nur sind beim Münzwurf die Ereignisse p und q unabhängig, so dass - wiederum per Definition für unabhängige Ereignisse (siehe unten) - gilt $P(q|p) = P(q)$ , womit die Rechnung $P(p)\cdot P(q|p)$ , wenn man Zahlen einsetzt, eben genauso aussieht wie die Rechnung $P(p)\cdot P(q)$ . In Wirklichkeit ist es aber eine andere Rechnung.

Deutlicher wird dies an einem zweiten Beispiel: Zu berechnen sei die Wahrscheinlichkeit, dass ein Unternehmen U eine Gewinnwarnung ausgibt und der Aktienkurs von U dennoch steigt. Wenn $q$ die Aussage ist „U gibt eine Gewinnwarnung aus“ und p die Aussage „Der Aktienkurs von U steigt“ und $p|q$ die Aussage „Der Aktienkurs von U steigt, nachdem eine Gewinnwarnung ausgegeben wurde“, dann ist recht offensichtlich, dass man, um die Wahrscheinlichkeit zu bestimmen, dass eine Gewinnwarnung ausgegeben wird und der Aktienkurs steigt, rechnen muss $P(p \wedge q) = P(q)\cdot P(p|q)$ . Denn wenn schon einmal eine Gewinnwarnung ausgegeben wurde, dann ist die Wahrscheinlichkeit, dass der Aktienkurs trotzdem steigt, natürlich eine ganz andere als die, dass der Aktienkurs einfach so steigt.

Aus dem Gesetz der Multiplikation von Wahrscheinlichkeiten und-verknüpfter Ereignisse ergibt sich eine naheliegende Definition für die Unabhängigkeit von Ereignissen. Zwei Ereignisse p und q sind statistisch unabhängig, wenn:

$P(p \wedge q) = P(p)\cdot P(q)$

Da das Gesetz der Multiplikation von Wahrscheinlichkeiten bereits besagt, dass $P(p \wedge q) = P(p)\cdot P(q|p) = P(q)\cdot P(p|q)$ , so folgt für unabhängige Ereignisse unmittelbar:

$P(p|q) = P(p) \qquad \mbox{und} \qquad P(q|p) = P(q)$

In Worte gefasst sind zwei Ereignisse also dann statistisch unabhängig voneinander, wenn sie als Bedingung des anderen keinen Einfluss auf die Größe von dessen Wahrscheinlichkeit ausüben. Wenn man mit $p|q$ das Ereignis $p$ unter der Bedingung von $q$ darstellt, so ist damit noch nicht ausgeschlossen, dass das Ereignis p unabhängig von der Bedingung $q$ ist. (Umgangssprachlich würden wir freilich nur von den Bedingungen eines Ereignisses sprechen, wenn das Ereignis gerade nicht unabhängig davon ist. Andernfalls würden wir den Ausdruck „Bedingung“ wahrscheinlich nicht verwenden. Die Fachsprache deckt sich hier, wie so oft, nicht mit der Umgangssprache!)

Sind $p$ und $q$ statistisch unabhängig von einander, dann gilt auch, dass $p$ und $\neg q$ statistisch unabhängig sind.

Beweis:

$p \Leftrightarrow (p \wedge q) \vee (p \wedge \neg q)$

Da $(p \wedge q)$ und $(p \wedge \neg q)$ einander ausschließen, gilt nach Axiom 3:

$P(p) = P((p \wedge q) \vee (p \wedge \neg q)) = P(p \wedge q) + P(p \wedge \neg q)$

Das lässt sich umformen zu:

$P(p \wedge \neg q) = P(p) - P(p \wedge q)$

Da nach Voraussetzung $p$ und $q$ statistisch unabhängig sind, gilt: $P(p \wedge q) = P(p)\cdot P(q)$ . In der vorhergehenden Gleichung dürfen wir also $P(p \wedge q)$ durch $P(p)P(q)$ ersetzen und erhalten:

$P(p \wedge \neg q) = P(p) - P(p)P(q) = P(p)\cdot (1 - P(q))$

Nach Corrolar 1 ist aber $1 - P(q) = P(\neg q)$ . Somit erhalten wir:

$P(p \wedge \neg q) = P(p)P(\neg q)$

Also sind nach der Definition der statistischen Unabhängigkeit auch $p$ und $\neg q$ voneinander unabhängig. q.e.d.

Dementsprechend gilt: Wenn $p$ statistisch unabhängig von $q$ ist, dann ist nicht nur $P(p|q) = P(p)$ sondern auch $P(p|\neg q) = P(p)$ . Kurz, wenn $p$ unabhängig von $q$ ist, dann ändert sich die Wahrscheinlichkeit von $p$ nicht durch irgendwelche Informationen hinsichtlich der Frage, ob $q$ eingetreten ist oder nicht. (Aber genauso würden wir es von unabhängigen Ereignissen ja auch erwarten, oder?)

Bei mehr als zwei Ereignissen legt man wie bei der Unvereinbarkeit üblicherweise die paarweise Unabhängigkeit zu Grunde. Ähnlich wie bei paarweise unvereinbaren Ereignissen die Wahrscheinlichkeit, dass mindestens eins davon eintritt (oder-Verknüpfung!), der Summe der Wahrscheinlichkeiten der einzelnen Ereignisse entspricht, so ist die Wahrscheinlichkeit, dass alle Ereignisse einer Menge von paarweise unabhängigen Ereignissen eintreten, gleich dem Produkt der Wahrscheinlichkeiten der Einzelereignisse.

Der Umgang mit bedingten Wahrscheinlichkeiten ist nicht immer vollkommen intuitiv. Einige Dinge sollte man im Auge behalten: Durch das Hinzufügen von Bedingungen kann die Wahrscheinlichkeit eines Ereignisses größer oder auch kleiner werden oder auch gleich bleiben. (Es ist also nicht wahr, dass irgendein Grundsatz der Art: „Je mehr Bedingungen, desto unwahrscheinlicher ein Ereignis“ gelten würde.) Beispiel: Angenommen, auf Grund historischer Erfahrungswerte weiß man, dass die Wahrscheinlichkeit, dass die Aktienkurse eines großen Gartenbauunternehmens im Frühjahr mit einer bestimmten Wahrscheinlichkeit $w$ steigen. Dann wird die Wahrscheinlichkeit, dass sie steigen, wenn das Gartenbauunternehmen im ersten Quartal Gewinne ausweisen konnte, sicher größer sein als $w$ , während sie unter der Bedingung, dass es Verluste melden musste, wahrscheinlich kleiner sein wird.

Schließlich ist noch auf eine Verwechselungsmöglichkeit aufmerksam zu machen. Die Wahrscheinlichkeit, dass „ $q$ unter der Bedingung, dass $p$ “ eintritt (also $P(q|p)$ ) ist nicht zu verwechseln mit der Wahrscheinlichkeit von „ $q$ wenn $p$ “ ( $P(p \rightarrow q)$ ). Ein Beispiel: Die Wahrscheinlichkeit aus einem Stapel von Karten eine Karte mit Herz zu ziehen ( $q$ ) beträgt $1/4$ . Wenn man aber vorher alle schwarzen Karten aus dem Stapel entfernt, dann ist die Bedingung gegeben ist, dass die gezogene Karte eine rote Karte ist ( $p$ ), und die Wahrscheinlichkeit, dass die Karte unter dieser Bedingung Herz ist, beträgt $P(q|p) = 1/2$ . Andererseits aber beträgt die Wahrscheinlichkeit, dass es wahr ist, dass „wenn eine rote Karte gezogen wird, dann ist es eine Herz-Karte“ $P(p \rightarrow q) = 3/4$ , denn die Aussage ist auch dann wahr, wenn überhaupt keine rote Karte gezogen wird, was bereits in der Hälfte aller Fälle gilt. Die Bedingungsaussage $q|p$ ist also nicht zu verwechseln mit der Implikationsaussage $p \rightarrow q$ . Der Unterschied ist der zwischen der bedingten Behauptung des Folgeglieds einer Implikation und der Behauptung der Gültigkeit einer Implikationsbeziehung selbst, ein subtiler aber wichtiger Unterschied!

[51] Während die Aussagenlogik nur die Wahrheit und Falschheit von Aussagen einbezieht, behandelt die Modallogik auch solche Eigenschaften wie die Möglichkeit und Notwendigkeit von Aussagen. So ergibt sich in der Modallogik z.B. dass die Negation einer Aussage, die unmöglich wahr sein kann, notwendig wahr ist.

[52] Dergleichen lässt sich tatsächlich beweisen. Näheres dazu auf: us.metamath.org/mpegif/mmset.html\#trivia. Ich bin Matthias Brinkmann für den Hinweis auf diese Webseite dankbar!