SRG SSR
Team: Lukas Golder Martina Mousson
Gemäss Ausschreibung vom 19. Oktober 2015 suchte die SRG SSR einen Anbieter für Forschungsdienstleistungen im Bereich der Wahl- und Abstimmungsforschung.
Die SRG SSR will qualitativ hochstehende Berichterstattungen und Analysen von politischen Inhalten leisten und ihre führende Rolle in der politischen Berichterstattung der Schweiz behaupten. Zielsetzung der „SRG-Trendumfragen vor Abstimmungen“ ist es, anhand von Trendumfragen die Berichterstattung zu Abstimmungen mit aktuellen Umfragewerten zu verschiedenen Zeitpunkten zu bereichern.
Das Projekt „Abstimmungsvorbefragungen und Trendberichterstattung für die SRG-SSR-Medien“, welches das Forschungsinstitut gfs.bern für eidgenössische Abstimmungsvorlagen vornimmt, besteht aus zwei Befragungen pro Abstimmungstermin bei einem jeweils repräsentativ ausgewählten Querschnitt der stimmberechtigten Schweizer Bevölkerung. Die Befragungsdaten werden per Telefon und online erhoben und mittels statistischer Datenanalyse ausgewertet.
Interpretiert werden die Befunde im Rahmen des Dispositionsansatzes. Dabei steht nicht die Prognose des Abstimmungsergebnisses im Sinne der Punktgenauigkeit im Vordergrund, sondern es geht vielmehr darum, eine gesicherte Systematik zu Meinungsverläufen unter Einwirkung des Abstimmungskampfes zu entwickeln.
Das Forschungsdesign bei den SRG-Befragungen ist so angelegt, dass wir die Ausgangslage und den Trend in der Meinungsbildung bestimmen können. Ersteres geschieht mit der ersten der beiden Befragungswellen, Zweiteres mit dem Vergleich aus der ersten und zweiten.
Hauptgrund für dieses Forschungsdesign ist die Vorgabe des SWISS INSIGHTS-Verbands, dem das Forschungsinstitut gfs.bern angehört. Diese lautet, dass in den letzten zehn Tagen vor einer Volksentscheidung keine neuen Umfragen mehr publiziert werden dürfen. Mit der Zeit, die für die Durchführung, Analyse, Berichterstattung und journalistische Umsetzung nötig sind, ist hierfür ein mittlerer Befragungstag 15-20 Tage vor dem Abstimmungssonntag nötig.
Die SRG-Trendstudien basieren im Kern auf telefonisch erhobenen Interviews von Stimmbürger*innen, welche einer der drei (Haupt-)Landessprachen mächtig sind.
Seit dem Herbst 2018 wird im Rahmen des SRG-Trend-Mandats die telefonische Umfrage durch eine Online-Befragung von Stimmberechtigen ergänzt, mit dem Ziel, die Stichprobengrösse in der französisch- und italienischsprachigen Schweiz zu erhöhen
Der Fragebogen
Kernbestandteile jeder Befragung im Rahmen der SRG-Trendbefragungen sind:
1. Klärung der Stimmberechtigung
2. Klärung der Teilnahme- respektive Stimmabsichten (Sonntagsfragen)
3. Klärung der Zustimmung/Ablehnung mit je zwei oder drei Kernargumenten der Pro- respektive Contra-Seite
4. Klärung der Personen- und Ortsmerkmale (Geschlecht, Alter, Schulabschluss, Haushaltseinkommen, Siedlungsart [Stadt/Land], Sprachregion).
Es werden die vom Verband SWISS INSIGHTS respektive von uns entwickelten und standardisierten Fragen verwendet. Dies gilt insbesondere für den obigen Punkt zwei. So wird die Vergleichbarkeit erhöht, was wiederum die Interpretationssicherheit – wie sie bei Wahlen besteht, bei Abstimmungen aber erst in Entwicklung begriffen ist – steigert.
Die Formulierungen des Fragebogens der telefonischen Umfrage wurden minim angepasst, damit sie auch in einer Online-Version funktionieren.
Stichprobenbildung
CATI
Telefonisch befragt werden Personen mit Wohnsitz in der Schweiz. Auslandschweizer*innen werden nicht berücksichtigt, da ihre Erreichbarkeit aufgrund spezifischer Datenschutzbestimmungen des Bundes mit CATI-Befragungen nicht sichergestellt werden kann. Zur Grundgesamtheit zählen Personen, die der deutschen, französischen oder italienischen Sprache mächtig sind.
Da die Erreichbarkeit von Personen in Mehrpersonenhaushalten beispielsweise nach Geschlecht und Alter nicht ganz identisch ist, wird dies mit Vorgaben zu Maximalquoten für Befragte mit entsprechenden Merkmalen kontrolliert.
Es werden pro Welle jeweils minimal 1200 Personen befragt. Die Zahl der Befragten in den Sprachminderheiten ist bewusst zu hoch, denn das verringert die Unsicherheiten. Für gesamtschweizerische Aussagen wird diese mit einer Designgewichtung rückgängig gemacht, das heisst die Ergebnisse in den Sprachregionen fliessen in der korrekten Proportion in das gesamtschweizerische Resultat mit ein.
Gesichert wird die Datenqualität durch fünffache Kontaktversuche zu verschiedenen Tageszeiten zwischen 8 Uhr und 20 Uhr. Zudem wird seit August 2016 ein RDD/Dual-Frame-Verfahren der Stichprobenziehung eingesetzt.
Dieses Verfahren begegnet mit Random Digit Dialing (RDD) dem Problem nicht-eingetragener Nummern (Fixnet und Mobile). Das Grundprinzip von RDD beruht darauf, dass nicht eine Liste von bekannten Nummern (z.B. Telefonbuch) abtelefoniert wird, sondern die Ziffern einer Telefonnummer zufällig gewählt werden. Die Grundgesamtheit wird so durch einen gfs.bern-eigenen statistisch konstruierten Nummernraum abgebildet.
Dem Problem des anwachsenden Verzichts auf einen Festnetzanschluss zu Gunsten von Mobile-Abonnements wird durch Anwendung eines Dual-Frame-Ansatzes begegnet. Einige Personen sind nur über das Festnetz erreichbar („fixnet only“), andere nur über ihr Handy („mobile only“), die meisten jedoch über beide Kanäle („dual use“). Um Repräsentativität bei zwei sich überlappenden Stichproben zu gewährleisten, stellt der Dual-Frame-Ansatz die Chancengleichheit der Vertretung in der Stichprobe ex post über eine Gewichtung sicher.
Online-opt-in-Befragung
Der Online-Teil wird als opt-in-Befragung (Mitmachbefragung) über die Webportale der SRG SSR Medien realisiert.
Die Stichprobenzusammenstellung erfolgt somit nicht zufällig, und die resultierende Stichprobe ist nicht repräsentativ für die Grundgesamtheit. Es nehmen beispielsweise weniger Pensionierte als Jüngere an Online-Umfragen teil, mehr Männer als Frauen, und auch nach politischen Grössen finden sich Verzerrungen in der Online-Stichprobe.
Nach der Bereinigung und Kontrolle der Daten, konnten jeweils die Angaben von 8’000 bis 20’000 Stimmberechtigten für die Auswertung verwendet werden.
Diese Daten werden mittels Gewichtungen an die realen Verhältnisse der Stimmberechtigten angenähert. Es werden dabei räumliche aber auch soziodemografische und politische Gewichtungsfaktoren eingesetzt. Durch diese Gewichtung wird die Repräsentativität des Samples optimiert.
Aussagekraft
Die Aussagegenauigkeit wird üblicherweise mit dem Stichprobenfehler bestimmt. Dieser besagt, in welchem Masse effektiv eine Abweichung von einem gemessenen Wert der Fall ist. Die Unsicherheit hängt zuerst von der Stichprobengrösse ab, dann von der Wahrscheinlichkeit, mit der man eine Aussage machen will.
Hier eine Übersicht zum Stichprobefehler der Stichprobe sowohl insgesamt wie auch nach Sprachregionen separat ausgewiesen. Wir stützen uns einzig auf den Stichprobenfehle der telefonischen Erhebung, da Opt-in-Umfragen das Kriterium der Zufälligkeit verletzten.
Befragungsarbeit
Die telefonische Befragung wird vom gfs-Befragungsdienst durchgeführt. Dieser ist eine gemeinsame Tochtergesellschaft von gfs.bern und gfs-zürich. Die Interviewer*innen arbeiten nach einer zentralen Schulung dabei wahlweise von einem Heimarbeitsplatz oder vom zentralen Telefonlabor in Zürich aus. Nach der erfolgten Schulung werden die neu instruierten Personen intensiv überprüft und unmittelbar kontrolliert.
Der Online-Teil wird als über die Webportale der SRG SSR Medien realisiert.
Definitionen
Ergebnisse aus Abstimmungsumfragen sind per se Momentaufnahmen, keine Prognosen. Zu viele unbekannte Faktoren verhindern, dass sie direkt als Vorhersage verwendet werden können. Der Dispositionsansatz hilft jedoch dabei, die Entwicklung der Meinungsbildung aufgrund differenzierter Ausgangslagen verständlich zu machen. Solche Prognosen gelingen heute in qualitativer Hinsicht gut, während sie in quantitativer Hinsicht noch zu ungenau sind. Vor allem kann man – ohne Kenntnisse des spezifischen Kommunikationsmomentes im Abstimmungskampf – das Mass der Entwicklungen zwischen den Umfragen, aber auch nach der zweiten Welle nicht hinreichend genau schätzen.
In unseren Berichten hat es sich eingebürgert, in diesem Zusammenhang folgende Begriffe zu verwenden:
Momentaufnahme: Messung des Standes der Dinge zu einem bestimmten Zeitpunkt
Trendumfragen: fortgesetzte Messung des Standes der Dinge
Projektionen: Annahmen zur Verteilung von Unentschiedenen in Momentaufnahmen oder Trendumfragen
Prognosen: Annahmen zur weiteren Entwicklung der Meinungsbildung, namentlich in Trendumfragen, die rund zwei Wochen vor der Abstimmung durchgeführt werden müssen.
Modellierungen
Unsere Befragungen für die SRG sind demnach ab der zweiten Welle Trendumfragen, also zwar mehr als Momentaufnahmen, aber weniger als Prognosen. Falsch ist es, sie direkt als Vorhersagen zu verwenden, insbesondere als (vermeintlich) punktegenaue Prognosen.
Im Verlauf der letzten Legislatur haben wir versucht, die Umfragen sowohl nach der ersten wie auch nach der zweiten Welle für Vorhersagen zu verwenden, und zwar aufgrund der Parolen einerseits wie auch der bisherigen Umfragewerte andererseits. Das Verfahren verbesserte zwar die Aussagen zum effektiven Abstimmungsausgang, beinhaltet aber nach wie vor Probleme. Könnte man rechtzeitig und vollständig über Medieninhaltsanalysen sowie Werbeuntersuchungen verfügen, wäre dies für die Genauigkeit der Einschätzungen hilfreich. Da dies vorerst nicht machbar ist, haben wir diesen Pfad zwischenzeitlich wieder verlassen.
Vielmehr haben wir Extrapolationsmodelle aus beiden Umfragen entwickelt. Diese Daten liegen rechtzeitig vor. Dabei haben wir zwischen Volksinitiativen und Behördenvorlagen unterschieden, wie das auch hier der Fall war. Dabei hat sich das Vorgehen als sinnvoll erwiesen, die Initiativen linker und rechter Herkunft separat anzuschauen.
Wichtigste Eigenschaft aller Extrapolationen ist, dass sie von einer dynamischen Meinungsbildung ausgehen, wie das der Dispositionsansatz nahelegt. Mit anderen Worten: Minimal nötig für sinnvolle Vorhersagen sind zwei vergleichbare Umfragen. Eine allein reicht nicht, weil sie letztlich von einer statischen Meinungsbildung ausgeht, was bei Volksabstimmungen – anders als bei Wahlen – irreführend ist.
Wenn man von Trendumfragen ausgeht, stellt sich die Frage, ob man besser auf den Ja- oder Nein-Anteil abstellen soll. Dabei ist offensichtlich, dass die Trends zum Ja bessere Vorhersagen liefern als die zum Nein. Allerdings sind solche Trendumfragen nicht frei von Tücken, und zwar abhängig vom Vorlagentyp. Deshalb haben wir ein optimiertes Modell entwickelt, das mehrheitlich vom Ja- und minderheitlich vom Nein-Trend ausgeht.
Zuletzt unterscheiden wir zwischen qualitativen und quantitativen Vorhersagen. Bei ersterem Verfahren geht es nur um die Bestimmung der Mehrheit, beim zweiten auch um die Bestimmung des Ergebnisses in Prozent. Die Modellrechnungen lassen nach der zweiten Trendbefragung eine Extrapolation auf den voraussichtlichen Endwert zu. Zum Einsatz kommen qualitative Projektionen mit „wird angenommen/abgelehnt“.
Schätzungen aufgrund von Extrapolationen
Berücksichtigte man bei Behördenvorlagen nur die erste Befragungswelle, dürfte man die Abstimmungsmehrheit in 65 Prozent der Fälle kennen. Das ist eindeutig zu wenig, um eine zuverlässige Einschätzung vorzunehmen. Mit der zweiten Befragungswelle steigert sich der Vergleichswert auf 77 Prozent. Bezieht man auch die Extrapolation von Trends ein, kommt man auf einen Wert von 94 Prozent. Wird nach Vorlagentypen differenziert, können wir festhalten: Qualitative Vorhersagen im Sinne von Annahme oder Ablehnung sind nach der zweiten Messwelle bei Volksinitiativen eher bei linken und weniger bei rechten Volksinitiativen zuverlässig machbar. Bei Behördenvorlagen reicht das nicht aus. Hauptgrund ist hier der Anteil Unentschiedener, der selbst bei Projektionen stabil bleibt.
Modelliert man die Ergebnisse quantitativ, verbessert sich vor allem die Vorhersage von Behördenvorlagen. Linke Initiativen sind so in aller Regel ebenfalls gut vorhersehbar. Konkret: Bei Initiativen mit linker Urheberschaft liegt die mittlere Abweichung bei der zweiten Befragungswelle bei 5.6 ppt. Mittels der Extrapolation von Trends kommen wir auf eine Differenz von 4.7 ppt. Bei Initiativen aus dem rechten Lager liegen beide Werte höher, nämlich bei 7.0 respektive 7.3 ppt. Bei Behördenvorlagen kommt die zweite Befragungswelle auf 7.2 ppt an das Endergebnis heran. Mit der Extrapolation ergibt sich eine Verbesserung auf 4.4 Prozent.
Mit anderen Worten: Dank einer Extrapolation der Trends aus beiden Befragungen kommen wir sehr wohl in den Bereich, der bei Stichprobenerhebungen erwartet werden darf.
Bilanz
Verbleiben Ungenauigkeiten in den Schätzergebnissen des Abstimmungsausgangs, hat das nicht mit der oft behaupteten Mess(-un-)genauigkeit von Befragungen zu tun, sondern liegt in der Sache selbst begründet – das heisst in der Dynamik der Meinungsbildung, die nicht unabhängig vom Zeitpunkt und vom konkreten Verlauf ermittelt werden kann.
Dabei spielt die Karenzfrist zur Publikation von abstimmungsbezogenen Umfragen, die sich der Branchenverband auf Wunsch der Politik selbst auferlegt hat, eine wichtige Rolle. Sie führt dazu, dass die letztmögliche Befragung vor dem Abstimmungstag meist zwischen zwei und drei Wochen alt ist. Im Vergleich zu Wahlen sind die Effekte bei Abstimmungen deutlich höher, sodass Schlussfolgerungen mit der gebotenen Vorsicht gezogen werden sollten.
Um die Sicherheit qualitativer Einschätzungen dennoch etwas zu erhöhen, verwenden wir ergänzend weitere Indikatoren der Meinungsbildung. Zu den gebräuchlichsten gehören das Abstimmungsergebnis im Parlament oder der Parolenspiegel der Parteien. Bezogen auf Befragungen können nebst der Stimmabsicht auch die indexierten argumentativen Haltungen oder der bevölkerungsseitig erwartete Abstimmungsausgang beigezogen werden.
Schliesslich bieten die Modellierungen der Trendverläufe gemäss Dispositionsansatz Anhaltspunkte, um qualitative Prognosen vorzunehmen.