Umfragen und Scheinzusammenhänge

Exkurs der Seniorenuni I

Im Blog einmal ein paar Gedanken zum Auswerten von Umfragedaten, und nicht nur zu den angebotenen Möglichkeiten eines Webauftritts. Das methodische Wissen kann nützlich sein in der partizipativen Forschung, wo jede Seniorin und jeder Senior selber etwas beitragen kann. Der Blog-Beitrag beruht auf einem ZInfo-Artikel der Zentralen Informatik der UZH (Universität Zürich) aus dem Jahr 2001. — Ferner zeigt der Beitrag, wie im WordPress-Editor gewisse Sonderzeichen wie χ² angesteuert werden.

Kreuztabellen

Normalerweise handelt es sich bei Umfragedaten nicht um gemessene Daten mit festen Einheiten (Intervalldaten), sondern um sog. Nominal- oder Ordinaldaten. Beispiel für Nominaldaten: „ja = 1“, „eher nicht = 2“, „überhaupt nicht = 3“. Der Abstand zwischen 1 und 2 ist nicht unbedingt gleich gross wie zwischen 2 und 3. Eine typische Variable von ordinalem Niveau ist die Ausbildung:

Primarschule
= 1
Berufslehre
= 2
Fachhochschule
= 3
Hochschule/Universität
= 4

Sozialwissenschaftler bezeichnen Ordinaldaten auch als Rangdaten. Dies bedeutet, dass viele statistische Methoden entfallen, z.B. Regression oder r-Korrelation, weil dort von Intervalldaten ausgegangen wird. Was als Methode übrig bleibt, ist die Kreuztabellenanalyse mit Prozentvergleichen und diversen Kontingenzkoeffizienten, Bsp. Chi-Quadrat, auch χ² geschrieben. Was macht der Chi-Quadrat-Test? Er macht eigentlich nichts anderes als die erwarteten und die tatsächlichen Zellenfrequenzen zu vergleichen. Beispiel einer Kreuztabelle:

                  aeltere Leser   juengere Leser

Vorliebe
fuer den               40 (66.6%)       10      
Lokalteil 

Vorliebe      
fuer den inter-        20               30 (75%)
nationalen Teil 

Total                  60               40

Abb. 1: Leserbefragung: Kreuztabelle mit vier Zellen

Das Alter ist die unabhängige Variable (X), während die Präferenz die abhängige Variable (Y) bildet. Stichprobengrösse: N=100 Leser der Tageszeitung. Die Aussage lautet: zwei Drittel der älteren Leser bevorzugen den Lokalteil, aber drei Viertel der jüngeren Leser bevorzugen den internationalen Teil. Die Zahlen spiegeln einen hochsignifikanten Zusammenhang (errechnetes Signifikanzniveau unter 1%). Erwartet wären im Beispiel je 30 – 20.

Zum Vergleich jetzt die erwarteten Zellfrequenzen – ohne einen Zusammenhang, weil die Probanden absolut gleichmässig über die Kreuztabelle verteilt sind:

                  aeltere Leser   juengere Leser

Vorliebe
fuer den               30               20      
Lokalteil 

Vorliebe      
fuer den inter-        30               20 
nationalen Teil 

Total                  60               40

Abb. 1e: Leserbefragung: erwartete Zellfrequenzen

Die erwarteten Werte bilden die Basis zur Berechnung von χ². In der ersten Zelle von Abb. 1e erwarten wir 30 Leser, finden tatsächlich aber 40; eine erhebliche Differenz! Vereinfacht gesagt summiert Chi-Quadrat die Differenzen zwischen den tatsächlichen und den erwarteten Zellfrequenzen. Je grösser Chi-Quadrat, desto stärker ist ein Zusammenhang. Chi-Quadrat ist die einfachste Kennziffer, die sich für ü65-Einsteiger eignet, aber es gibt noch andere wie z.B. Gamma-Test, auch γ geschrieben. Wir unterscheiden Tests für nominale und ordinale Daten. So kann der Chi-Quadrat-Test zur Analyse von nominalen und ordinalen Daten dienen, dagegen ist die Rangkorrelation γ nur bei ordinalen Daten (Rangdaten) sinnvoll.

Scheinzusammenhänge

Zuerst ein illustratives Beispiel für einen Scheinzusammenhang: Je grösser die Zahl der bei einem Brand anwesenden Feuerwehrautos, um so grösser der Schaden. Natürlich ist das eine Scheinkorrelation. In Wirklichkeit ist es die Grösse des Feuers (X), die sowohl die Zahl der Feuerwehrautos als auch die Grösse des Schadens (Y) bestimmt. Ein zweites Beispiel: Glacéverbrauch und Sonnenbrand-Häufigkeit haben dieselbe Ursache – doch sie beeinflussen sich nicht gegenseitig.

Ein ganz typisches Zahlenbeispiel gibt Elisabeth Noelle (Umfragen in der Massengesellschaft, 1968): „Zunächst stellt man fest: Frauen schlafen schwerer ein als Männer. Nun ist bekannt, dass es aus mehreren Gründen unter den Frauen mehr ältere Menschen gibt, und wir wissen bereits, dass ältere Menschen schwerer einschlafen. Erklärt sich vielleicht aus dem stärkeren Anteil der älteren Jahrgänge, dass Frauen durchschnittlich schwerer einschlafen als Männer? — Zu der unabhängigen Variablen der Tabelle (Geschlecht) und der abhängigen Variablen (Einschlafen) ist nun noch ein dritter Faktor, die Test-Variable, das Alter, getreten.“

Eine wichtige Faustregel: wo immer zwei Verhaltensmerkmale zueinander in Beziehung gesetzt werden, ist zu prüfen, ob es sich dabei nicht um einen Scheinzusammenhang handeln könnte. Vor Jahrzehnten wurde einmal festgestellt, dass Leute, die politische Randparteien bevorzugen, unregelmässig zur Urne gehen. Dieser Zusammenhang entpuppte sich grossenteils als Scheinbeziehung, da das Alter der Befragten sowohl für die Parteipräferenz wie auch für die Regelmässigkeit des Urnenganges verantwortlich war. In den Jahren 1968 und folgende herrschte unter den Jugendlichen eine allgemeine Stimmung, die sich gegen die Ansichten der Elterngenerationen richtete. Noch ein Beispiel: Eltern leben länger als Kinderlose. Die Eltern leben nicht länger, weil sie Kinder haben, sondern man riskiert vielleicht weniger unsinnige Sachen, wenn man Kinder hat.

Das Ziel einer Kreuztabellenanalyse ist meiner Meinung nach die Falsifikation von wissenschaftlichen Hypothesen, indem auf sogenannte Scheinzusammenhänge getestet wird.

             X  

 	   a   b 
   Y	         
           c   d 

      Gamma=0.7 (signifikant)

Abb. 2: Ausgangshypothese mit Kreuztabelle

Die direkte Bestätigung einer Arbeitshypothese — Bsp. Einfluss von Bildung (X) auf Verhalten und politische Einstellungen (Y) — ist nicht möglich, da vielleicht ein Scheinzusammenhang vorliegt; es könnte etwa sein, dass der soziale Status gleichzeitig sowohl das Bildungsniveau als auch politische Einstellungen beeinflusst.

   unabh.                    abhaengige         
   Variable (X)              Variable (Y)       
   Bildung        =====>     politische Einstellungen
      ^                       ^                 
       \                     /                  
        \                   /                   
         \                 /                    
          Einkommen, Status                     
          Kontroll/Testvariable                 

Abb. 3: Analyse: Einfluss von X auf Y bestätigt?

Es geht also darum, möglichst viele Faktoren — man spricht von Kontroll- oder Testvariablen — zu identifizieren, die einen Zusammenhang zum Verschwinden bringen. Die Methode: die unabhängige Kontrollvariable konstant halten und beobachten, ob die Korrelation verschwindet (gamma γ geht gegen 0). Falls unsere Datenbasis genügend gross ist, bilden wir z.B. separate Kreuztabellen für drei Statusgruppen. Drei mögliche Kategorien: Einkommen bis 50’000.-, Einkommen zwischen 50’000.- und 100’000.-, Einkommen über 100’000.- (in Franken, Euro oder was auch immer).

Status       Status        Status
  I            II           III  

 a1 b1	     a2 b2         a3 b3 
 c1 d1	     c2 d2         c3 d3 

Abb. 4: Separate Kreuztabellen für drei Statusgruppen

Falls nun ein Kontingenzkoeffizient auch innerhalb der Untergruppen (in den drei separaten Kreuztabellen) gleich bleibt, sind wir einen Schritt weiter: unsere Arbeitshypothese konnte nicht verworfen werden, weil kein Scheinzusammenhang vorliegt. Allerdings können wir nie ausschliessen, dass es noch andere unabhängige Kontrollvariablen gibt, die unseren Zusammenhang zum Verschwinden bringen, z.B. soziale oder psychologische Faktoren. Das Ideal ist natürlich, möglichst viele Scheinzusammenhänge zu testen. Dafür haben wir ja den Computer! Allerdings gibt es eine Einschränkung: die Datenbasis oder die Stichprobengrösse.

Stichprobengrösse

Die bekannteste Stichprobe ist die Zufallsauswahl. Eine Zufallsstichprobe von 100 Befragten reicht zwar aus, um eine signifikante Aussage betreffend einer einfachen Verteilung zu machen, z.B. 41% aller Senioren gehen weihnachts zur Kirche (schweizweit). Aber wenn wir diese Kreuztabelle separat für Männer und Frauen sehen und analysieren möchten, werden die Zahlen bereits knapp. Müssten wir eine Aussage nur für Katholiken oder Muslime machen, ist das völlig unmöglich. Die Stichprobengrösse ist also so zu planen, dass möglichst interessante Untergruppen beobachtet werden können. Eine zusätzliche Möglichkeit ist die disproportional geschichtete Stichprobe, bei der gewisse Untergruppen eine grössere Auswahlwahrscheinlichkeit erhalten, oder eine Quota-Stichprobe mit einer fixen Anzahl Probanden der Gruppe A etc. Bei einer Quota-Stichprobe suchen wir einfach Probanden, die bestimmte Merkmale zeigen, z.B. Senioren mit einer bestimmten Ausbildung oder bestimmten Berufsgruppen. Eine genügende Datenbasis bildet die Voraussetzung dafür, Scheinzusammenhänge zu erkennen, um dadurch Arbeitshypothesen verwerfen zu können.

Der Untergang der Titanic (1912) und χ²

Bei der Auswertung von Umfragedaten stehen also die Kreuztabellenanalyse und andere nichtparametrische Methoden im Vordergrund. Parametrische Tests kommen nur in Frage, wenn die Daten auf dem Intervall-Messniveau liegen. In allen anderen Fällen der Sozialforschung sollte man sich mit nichtparametrischen Tests, z.B. Gamma-Koeffizient oder Chi-Quadrat, begnügen, welche an die Daten in Bezug auf das Messniveau nicht so hohe Anforderungen stellen.

Unser tägliches Brot ist somit die Kreuztabelle wie in Abb. 1. Für Einsteiger in die Sozialforschung wird der Chi-Quadrat-Test empfohlen. -> Chi-Quadrat-Test

Am Beispiel des Schiffsunglücks der Titanic soll untersucht werden, ob das Geschlecht einen Einfluss auf das Überleben des Unglücks hatte. Von 1731 Männern überlebten nur 367, von 470 Frauen jedoch 344. Der berechnete Wert für χ² liegt über 450, ist daher statistisch hochsignifikant. Aber schon ein Wert über 10 wäre signifikant gewesen (Signifikanzniveau 1%).

Link: Interpretation von statistischen Daten


Anmerkung zum WordPress-Editor und den Sonderzeichen

Die mathematischen Sonderzeichen wie χ² oder können mit dem visuellen WordPress-Editor problemlos eingegeben werden. Der Knopf der Kommandoleiste ist mit Ω angeschrieben (in der zweiten Kommandozeile). Einige Senioren erinnern sich noch an die Anfangszeiten des World Wide Web, als man einen Handstand machen musste, um ein Sonderzeichen oder einen Umlaut anzusteuern oder zu programmieren. Wir „durften“ uns oft mit Zeichensatz-Problemen beschäftigen. Immer wieder hatten amerikanische Programme die Sonderzeichen verstümmelt und die Buchstaben „ä ö ü“ etwa als „? ? ?“ oder „{ ¦ [“ ausgegeben. Heute unterstützt WordPress auch Zeichensätze wie den griechischen.

 

Advertisements

Über petervollenweider

Winterthurer der 68er Generation. Kurs: "Eine eigene Homepage mit WordPress"
Dieser Beitrag wurde unter Buch-Projekt, Kurs abgelegt und mit , , , , , , , , , , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

2 Antworten zu Umfragen und Scheinzusammenhänge

  1. Pingback: Computerkurs: Eigene Homepage mit WordPress | Kurs für Senioren

  2. Pingback: Interpretation von statistischen Daten | Kurs für Senioren

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s