Univ.-Doz. Erich Neuwirth VO 405009
1997-10-21 Einführung
1997-11-04 Grafische Darstellung
(1997-11-12 Übung: Principles of Graphical Excellence)
1998-03-26 (Statistik 2)
sunsite.univie.ac.at/spreadsite/: Tabellen für Pensionsberechnung usw.
(Es gibt Wissenschaften, die sich mit einem bestimmten Thema auseinandersetzen; andere beschäftigen sich mit bestimmten Methoden; Statistik ist eine Methodenwissenschaft.)
Denksportaufgabe: Nehmen wir an, es gäbe eine sehr leicht übertragbare Krankheit. Es gäbe einen Test dafür. Jeder medizinische Test hat eine Fehlerquote; dieser hat eine Quote von 1 % (1 % der "kranken" sind gesund, 1 % der "gesunden" sind krank).
Die Grundgesamtheit muß genau definiert sein, z.B. "alle ÖsterreicherInnen": StaatsbürgerInnen? In Österreich lebende? Es muß gewährleistet werden, daß jede einzelne Person eindeutig (ja/nein) zugeordnet werden kann.
Die Merkmale der MerkmalsträgerInnen liefern uns die Daten.
Erhoben werden die Werte von Merkmalen, genannt Merkmalsausprägungen, an den MerkmalsträgerInnen.
Beispiel: Haarfarbe ist ein Merkmal, Herr Maier ist ein Merkmalsträger, blond ist "seine" Merkmalsausprägung des Merkmals Haarfarbe.
Skalen sind charakterisiert durch zulässige Transformationen (Transformationen, die die Daten nicht verfälschen):
Fehlerquelle bei Klasseneinteilung: Ungenaue Spezifikation der Grenzen; Achtung bei Klassenmittelpunkt (Gut: Klassengrenzen zwischen gerundete Ausprägungen, z.B. 139,5-144,5 cm)
In beiden Fällen werden Häufigkeiten gezählt
Achtung, in der Regel sind Anzahl der möglichen Werte und tatsächliche Anzahl der Werte verschieden (oft mit k und n bezeichnet).
Wenn Daten gerundet werden sollen, bietet sich als Methode das
Werfen einer Münze an 8-).
Verfahren, um self-report-Daten zu verifizieren (wenn keine wahrheitsgemäßen Antworten zu erwarten sind): Personen werfen eine Münze. Wenn (z.B.) Kopf herausgekommen ist, wird die Frage wahrheitsgemäß beantwortet (natürlich auf einem anonymen Fragebogen). Alle werfen nocheinmal; diejenigen, die beim ersten Wurf Zahl geworfen haben, schreiben das Ergebnis dieses Wurfes als Antwort. Auf diese Weise kann niemandem eine Antwort zugeordnet werden, aber StatistikerInnen
Wenn Häufigkeiten von Daten dargestellt werden, wird ein Histogramm verwendet.
Wenn die Daten stetig sind, sollte für die optische Darstellung kein Abstand zwischen den Balken gemacht werden.
Excel-Funktion FREQUENCY (englisch) = HÄUFIGKEIT (deutsch): rechnet aus, wie viele Daten in eine Kategorie fallen.
Streuung von Daten (läßt sich gut aus einem Histogramm ablesen): nicht nur der Mittelwert interessiert uns, sondern auch die Unterschiede "links" und "rechts".
z.B. Mann/Frau, RaucherIn/NichtraucherIn
Stetige Merkmale: Wir zeichnen Punkte und verbinden sie linear
Bei diskreten Merkmalen werden die Punkte nicht verbunden, sondern waagrechte Linien gezeichnet. (die "Funktion" ist unstetig)
Die Funktion ist bei kumulierten Häufigkeiten monoton steigend, müssen aber nicht streng monoton sein (z.B. wo keine Daten liegen).
typisch: "S-Gestalt"
Kleiner-gleich ist einfach abzulesen; Größer-gleich kann mit 1 - Kleiner-gleich ausgerechnet werden (bei stetigen Merkmalen spielt die Doppelzuordnung der Grenze keine Rolle). Bei a < x < b rechnen wir f(b) - f(a).
Die Verteilungsfunktion liefert einen Prozentwert, wenn wir als Parameter die Merkmalsausprägung angeben.
Die Umkehrfunktion F-1 zu F läßt auch die umgekehrte Ablesung (Merkmalswert => Häufigkeit) zu.
Jener Wert, wo rechts und links gleich viele Daten liegen. Er ist nicht dem arithmetischen Mittel gleichzusetzen!
"Median", aber nicht mit 50%:50%, sondern die "linken 25 %" oder die "rechten 25 %"
10- oder 100-basiert
ganz allgemein: z ist a-Quantil von
F, falls F(z)=a.
z Median falls F(z) >= 1/2 und 1-F(z) >= 1/2 (eigentlich mit limes)
xi-1+(xi-xi-1)*(a-F(xi-1))/(F(xi)-F(xi-1))
Es wird nicht auf die herkömmliche Art in Klassen eingeteilt, sondern für "jeden" Wert wird gezählt, wie viele Werte innerhalb eines Abstandes liegen.
gleitendes Histogramm, indem die "Fensterbreite" durch eine Formel (z.B. Dreieckskern) ersetzt wird.
Gini-Maß: (S(1<=i<j<=n)|xi-xj|)/(n(n-1)/2)
Spannweite: max - min
Semiinterquartilsdistanz: (3. Quartil - 1. Quartil)/2
Standardabweichung:
Alternative:
Variationskoeffizient:
Formel für den Fall, daß wir die Varianz sn
und noch einen Datenpunkt xn+1 kennen:
Herfindahl-Index:
(Summe
der Quadrate der Anteile (an der Gesamtsumme)). Bei gleicher Verteilung
1/n, bei sehr ungleicher Verteilung (eineR hat alles, alle anderen
nichts) 1.
Wenn Nullwerte dazukommen, ändert sich der Herfindahl-Index nicht (Lorenz-Münzner schon).
Herfindahl: Maßzahl für absolute Konzentration, Lorenz-Münzner: Maßzahl für relative K.
: Weitere Konzentrationsmaßzahl.
Beobachtungsgröße für Preisentwicklung. (Zeitreihen)
Wichtige Eigenschaft von Zeitreihen: Aufhebung der Unabhängigkeit, die wir bei den Zufallsvariablen hatten.
qi: Menge der Güter pi: Preis eines Guts. Summe pi*qi: Monatsausgabe der Durchschnittsfamilie.
qi(0): Menge im ersten Jahr.
U(0)=Summe pi(0)qi(0) ... Umsatz im Jahr "0"
Laspeyres-Index: Früherer Bezugszeitpunkt, Mengen aus Jahr "0" ("Basisperiode"):
PL =
Paasche-Index: Späterer Bezugszeitpunkt, Mengen aus Jahr "1" ("Beobachtungsperiode"):
PP =
Problem beim Paasche-Index: Jedes Jahr muß der Warenkorb neu erhoben werden.
Indifferenzkurve: Eine Maßzahl wird berechnet und andere mögliche Datenreihen werden gesucht, die die selbe Maßzahl ergeben (z.B. arithmetisches Mittel des Einkommens einer Gruppe => Mögliche andere Verteilungen, die das selbe Mittel ergeben).
Zu einem vorgegebenen Zeitpunkt einen vorgegebenen Wert erzwingen (z.B. verschiedene Indizes "zusammenfügen": "Verketteter Index").
Dazu wird die ganze Reihe mit einer Konstanten multipliziert:
alte Reihe: I(0), I(1)
Wir wollen: I(k)=C
Neue Reihe: cI(0), cI(1)...
mit c=C/I(k)
Zwei ähnliche Reihen zu einer fiktiven gemeinsamen Reihe zusammensetzen. Dazu wird zu einem bestimmten Zeitpunkt (oft Start der zweiten Reihe) ein Wert der zweiten durch Umbasieren dem entsprechenden Wert der ersten Reihe angeglichen.
Es werden immer Zusammenhänge zwischen mehreren Variablen gesucht. Beispiel:
Kovarianz ist "skalenempfindlich".
Invariant unter linearer Transformation der Daten.
(xi, yi) sind Datenpunkte.
Welche Gerade paßt am besten durch all diese Datenpunkte?
Früher konnte die Gerade nur linear berechnet werden, seit es Computer gibt, gibt es auch andere Möglichkeiten.
;
(L2-Regressionsgerade)
L1-Regressionsgerade: nicht die Quadrate, sondern die Abweichungen werden minimiert. Es gibt keine geschlossene Formel, aber mit Computereinsatz läßt sich diese Gerade ausrechnen.
Regressionsgerade mit ortogonalen Abständen: die genauen Abstände (anstelle der x- oder y-Abstände) werden berechnet.
Prüfungen immer mündlich, Voranmeldung, nach Möglichkeit in Dreier-Vierergruppen.
Es geht darum, aus unvollständiger Information sinnvolle Schlüsse zu ziehen.
"Gütefunktion": Irrtumswahrscheinlichkeit möglichst klein bei einem Test, der möglichst "gut" ist. Nötig, um Stichprobenumfänge bei Untersuchungen zu berechnen.
Buchempfehlung: Berk, Carey: Data analysis with Microsoft Excel (Duxbury Verlag)
Fehler 1. Art (Alpha-Fehler, Ablehnungswahrscheinlichkeit): Alarm, obwohl Bedingung nicht erfüllt. (z.B. 50%-Münze wird für schlecht gehalten)
Fehler 2. Art (Beta-Fehler): Kein Alarm, obwohl Bedingung erfüllt. (z.B. 60%-Münze wird für gut gehalten)
"Trennscharfer" Test: sagt sicherer, ob der Test gut ist.
Erwartungswert: n*p, Varianz: n*p(1-p)
Erwartungswert: n*(M/N), Varianz:
Bei großen Grundgesamtheiten nähern sich die Binomial- und die Hypergeometrische Verteilung stark an.
Erwartungswert: l, Varianz: l
Stetige Verteilungen sind durch eine stetige Verteilungsfunktion charakterisiert, die folgendes erfüllen sollte:
Dichte(funktion): theoretisches Äquivalent zum Histogramm. Die Fläche unter der Kurve ergibt die Wahrscheinlichkeit. In der Statistik werden Verteilungen üblicherweise durch die Dichtefunktion beschrieben.
Erwartungswert einer stetigen Verteilung:
Varianz:
Alle Fälle sind gleich wahrscheinlich (aber die Wahrscheinlichkeit ist 0 8-)).
Gleichverteilung zwischen 0 und 1: Die Wahrscheinlichkeit eines Intervalls ist die Länge des Intervalls.
Höhe: 1/(b-a), Erwartungswert: (a+b)/2
Varianz: (b-a)2/12
mit Erwartungswert m
und Varianz s2.
Standardnormalverteilung:
mit Erwartungswert
0 und Varianz 1.
Die nächsten drei Funktionen kommen "in der Natur" nicht vor, sind aber für die Statistik wichtig. Sie sind aus der Normalverteilung abgeleitet.
Entsteht als Summe der Quadrate unabhängiger standardnormalverteilter Zufallsvariablen.
Entsteht als Quotient einer Standardnormalverteilung im Zähler und der Quadratwurzel des Mittelwerts quadrierter Standardnormalverteilungen im Nenner (alle voneinander unabhängig).
Entsteht als Quotient modifizierter unabhängiger Chi-Quadrat-Verteilungen.
Gammafunktion: analytische Interpolation der Faktorielle. ("Faktorielle für reele Zahlen")
Wenn wir unabhängige Wiederholungen desselben Experiments immer wieder durchführen, dann konvergieren die relativen empirischen Häufigkeiten gegen die Wahrscheinlichkeiten.
Wenn wir ein Experiment, das einer Zufallsvariable X folgt, oft und in unabhängigen Versuchen wiederholen, dann konvergiert das arithmetische Mittel der Versuchsausgänge gegen den Erwartungswert der Zufallsvariablen.
Die Summe sehr vieler unabhängiger Zufallsvariablen mit gleicher
Verteilung ist annähernd normalverteilt.