2: Messung der Wahlwahrscheinlichkeit

Die Umfrageliteratur hat lange gezeigt, dass mehr Befragte sagen, dass sie abstimmen wollen, als tatsächlich eine Stimme abzugeben (z. B. Bernstein et al. 2001; Silver et al. 1986). Darüber hinaus sagen einige Leute, dass sie nicht erwarten zu wählen, sondern tatsächlich, vielleicht weil sie von einer Kampagne oder einem Freund kurz vor dem Wahltag kontaktiert werden und überredet werden, sich herauszustellen. Diese Situationen führen möglicherweise zu Fehlern in den Wahlprognosen, da sich diese Stealth-Wähler und Nichtwähler häufig in ihren Partisanenpräferenzen unterscheiden. Im Allgemeinen stellen sich Republikaner eher als Demokraten heraus, obwohl sie ungefähr genauso wahrscheinlich sagen, dass sie beabsichtigen zu wählen. Infolgedessen verlassen sich Umfrageteilnehmer nicht nur auf die erklärte Absicht eines Befragten, wenn sie eine Person als stimmberechtigt einstufen oder nicht. Stattdessen stellen die meisten mehrere Fragen, die zusammen verwendet werden können, um die Wahrscheinlichkeit einer Stimmabgabe einer Person abzuschätzen. Die Fragen messen die Wahlabsicht, das vergangene Abstimmungsverhalten, das Wissen über den Abstimmungsprozess und das Interesse an der Kampagne.


Diese Studie untersucht verschiedene Möglichkeiten, sieben Standardfragen und manchmal auch andere Informationen zu verwenden, um ein Modell der wahrscheinlichen Wählerschaft zu erstellen. Die Fragen wurden ursprünglich in den 1950er und 1960er Jahren vom Wahlumfragepionier Paul Perry aus Gallup entwickelt und - in verschiedenen Kombinationen und mit einigen Änderungen - vom Pew Research Center, Gallup und anderen Organisationen in ihren Vorwahlumfragen verwendet (Perry 1960) 1979). Die hier getesteten Fragen umfassen Folgendes (die Kategorien, die einem Befragten einen Punkt im Perry-Gallup-Index geben, der im folgenden Abschnitt erörtert wird, befinden sich inFett gedruckt):

  • Wie viel haben Sie über die kommenden Wahlen im November nachgedacht?Sehr viel, manche,nur ein bisschen, keine
  • Haben Sie jemals in Ihrem Bezirk oder Wahlbezirk gewählt?Ja,Nein
  • Würden Sie sagen, dass Sie verfolgen, was in Regierungs- und öffentlichen Angelegenheiten vor sich geht?die meiste Zeit, manchmal,nur ab und zu kaum?
  • Wie oft würdest du sagen, dass du abstimmst?Immer, fast immer,Teil der Zeit, selten
  • Wie wahrscheinlich ist es, dass Sie bei den allgemeinen Wahlen im November abstimmen?Wird definitiv abstimmen, wird wahrscheinlich abstimmen,wird wahrscheinlich nicht wählen, wird definitiv nicht wählen
  • Sind bei den Präsidentschaftswahlen 2012 zwischen Barack Obama und Mitt Romney Dinge aufgetaucht, die Sie von der Abstimmung abgehalten haben, oder haben Sie zufällig gewählt?Ja, abgestimmt;Nein
  • Bitte bewerten Sie Ihre Wahlchance im November auf einer Skala von 10 zu 1.0-8,9, 10

Einige Meinungsforscher haben andere Arten von Variablen in ihren wahrscheinlichen Wählermodellen verwendet, einschließlich demografischer Merkmale, Parteilichkeit und Ideologie. Im Folgenden bewerten wir Modelle, die diese Art von Maßnahmen ebenfalls verwenden.


Zwei weitere Arten von Maßnahmen, die hier getestet wurden, stammen aus einer nationalen Wählerakte. Dazu gehören Indikatoren für vergangene Abstimmungen (2012 und 2010) und eine prognostizierte Wahlbeteiligung, die das vergangene Abstimmungsverhalten und andere Faktoren zusammenfasst, um eine geschätzte Wahrscheinlichkeit für Abstimmungen zu erhalten. Diese Maßnahmen sind stark mit der Wahlbeteiligung verbunden. Eine detaillierte Analyse all dieser Einzelmaßnahmen und wie eng jede mit der Wahlbeteiligung und der Wahl der Stimmen korreliert, finden Sie in Anhang A dieses Berichts.

Zwei breite Ansätze werden verwendet, um eine Vorhersage der Abstimmung mit Informationen vor den Wahlen wie den Perry-Gallup-Fragen oder der selbst berichteten Vergangenheit der Abstimmung zu erstellen (Burden 1997).DeterministischMethoden verwenden die Informationen, um jeden Umfrageteilnehmer als wahrscheinlichen Wähler oder Nichtwähler zu kategorisieren. Dabei werden Wähler und Nichtwähler in der Regel anhand eines Schwellenwerts oder „Cutoffs“ aufgeteilt, der der prognostizierten Wahlbeteiligungsquote bei den Wahlen entspricht.ProbabilistischMethoden verwenden dieselben Informationen, um die Wahrscheinlichkeit zu berechnen, mit der jeder Befragte abstimmt. Wahrscheinlichkeiten können verwendet werden, um die Befragten nach ihrer Abstimmungswahrscheinlichkeit zu gewichten, oder sie können als Grundlage für die Einstufung der Befragten für einen Cutoff-Ansatz verwendet werden. Diese Analyse untersucht die Wirksamkeit beider Ansätze.

Der Perry-Gallup wahrscheinlich Wählerindex

Was ist, wenn an der Umfrage zu viele politisch engagierte Personen teilnehmen?

Eine Komplikation bei der Anwendung einer Wahlbeteiligungsschätzung auf die Umfragestichprobe ist die Tatsache, dass Wahlumfragen dazu neigen, politisch engagierte Personen zu überrepräsentieren. Es kann erforderlich sein, eine höhere Wahlbeteiligungsschwelle zu verwenden, um die Tatsache zu berücksichtigen, dass ein höherer Prozentsatz der Befragten als der Mitglieder der allgemeinen Öffentlichkeit tatsächlich abstimmen kann. Leider gibt es keine vereinbarte Methode, um diese Anpassung vorzunehmen, da das Ausmaß, in dem die Umfrage die politisch Engagierten überrepräsentiert oder sogar das Verhalten der Befragten ändert (z. B. indem sie ihr Interesse an den Wahlen erhöhen), von Studie zu Studie variieren kann studieren und ist schwer abzuschätzen.



Die hier verwendeten Daten umfassen nur diejenigen, die zur Abstimmung registriert sind; Folglich sollte die angemessene Wahlbeteiligungsschätzung in dieser Stichprobe erheblich höher sein als in der Öffentlichkeit. Für viele der in diesem Bericht vorgestellten Simulationen haben wir geschätzt, dass 60% der registrierten Wähler ausfallen würden. Unter der Annahme, dass 70% der Erwachsenen registriert sind, um zu wählen, würde dies einer Prognose von 42% der Wahlbeteiligung der Öffentlichkeit entsprechen.5

In diesen Daten bedeutete eine Erwartung von 60% Wahlbeteiligung, dass alle Befragten, die eine 7 auf der Skala erzielten (48% der Gesamtzahl), als wahrscheinliche Wähler eingestuft wurden, zusammen mit einem gewichteten Anteil derjenigen, die 6 erzielten (die 15% waren) von der Gesamtmenge).


Nach der ursprünglichen Methode von Paul Perry kombiniert das Pew Research Center die einzelnen Umfrageelemente zu einer Skala, anhand derer die Befragten als wahrscheinliche Wähler oder Nichtwähler eingestuft werden. Für jede der sieben Fragen erhält ein Befragter 1 Punkt für die Auswahl bestimmter Antwortkategorien. Zum Beispiel eine Antwort mit 'Ja' auf die Frage 'Haben Sie jemals in Ihrem Bezirk oder Wahlbezirk gewählt?' bekommt 1 Punkt auf der Skala. Jüngere Befragte erhalten zusätzliche Punkte, um ihre Wahlunfähigkeit in der Vergangenheit zu erklären (Befragte im Alter von 20 bis 21 Jahren erhalten 1 zusätzlichen Punkt und Befragte im Alter von 18 bis 19 Jahren erhalten 2 zusätzliche Punkte).6Darüber hinaus werden diejenigen, die sagen, dass sie definitiv nicht abstimmen werden oder nicht registriert sind, um abzustimmen, automatisch als Null auf der Skala codiert. Wie hier getestet, führt das Verfahren zu einem Index mit Werten zwischen 0 und 7, wobei die höchsten Werte diejenigen darstellen, die die größte Wahrscheinlichkeit für eine Abstimmung haben.

Der nächste Schritt besteht darin, eine Schätzung des Prozentsatzes der berechtigten Erwachsenen vorzunehmen, die voraussichtlich an der Wahl teilnehmen werden. Dies basiert in der Regel auf einer Überprüfung der Wahlbeteiligung in der Vergangenheit bei ähnlichen Wahlen, bereinigt um Urteile über das offensichtliche Interesse der Wähler an der aktuellen Kampagne, die Wettbewerbsfähigkeit der Rassen und den Grad der laufenden Mobilisierung der Wähler. Die Schätzung wird verwendet, um einen „Cutoff“ auf der wahrscheinlichen Wählerskala zu erzielen, wobei die Befragten mit der höchsten Punktzahl basierend auf der erwarteten Wahlbeteiligung bei den kommenden Wahlen ausgewählt werden. Wenn wir beispielsweise erwarten würden, dass 40% der wahlberechtigten Bevölkerung wählen würden (eine typische Wahlbeteiligung für eine Zwischenwahl), würden wir unsere Umfrageschätzungen auf die 40% der wahlberechtigten Öffentlichkeit stützen, die die höchsten Indexwerte erhalten.7In Wirklichkeit stellten sich 2014 36% der berechtigten erwachsenen Bevölkerung heraus. Die Wahl einer Wahlbeteiligungsschwelle ist eine sehr wichtige Entscheidung, da die Ansichten von Wählern und Nichtwählern oft sehr unterschiedlich sind, wie dies 2014 der Fall war. (Siehe Anhang C für Daten darüber, wie die Wahl eines Wahlbeteiligungsziels wichtig ist.)8

Der Perry-Gallup-IndexDeterministische (oder Cutoff-) Methoden wie diese lassen viele tatsächliche Wähler aus. Während diejenigen, die auf der Skala mit 6 und 7 kodiert sind, sehr wahrscheinlich wählen (63% bzw. 83% jeder Gruppe wurden als stimmberechtigt bestätigt), gibt es auch viele tatsächliche Wähler unter denen, die unter 6 Punkte erzielt haben: Ungefähr ein Fünftel (22) %) aller verifizierten Wähler, die zwischen 0 und 5 bewertet wurden. Natürlich besteht das Ziel des Modells nicht darin, jeden Befragten zu klassifizieren, sondern eine genaue Aggregation der Stimmen zu erstellen. Wenn jedoch die Verteilung der korrekt klassifizierten Personen nicht mit der der tatsächlichen Wähler übereinstimmt, ist die Wahlprognose falsch.


In Übereinstimmung mit den allgemeinen Mustern, die bei früheren Wahlen dieser Art beobachtet wurden, bevorzugen Befragte, die auf der Skala eine 7 erzielten, Republikaner gegenüber demokratischen Kandidaten (mit einem Vorsprung von 50% bis 44%). Die Mehrheit der Personen in den Kategorien 5 und 6 bevorzugt demokratische Kandidaten. Wie bei den meisten Wahlen hängt die Partisanenverteilung der vorhergesagten Stimmen stark davon ab, wo die Grenze auf der wahrscheinlichen Wählerskala gezogen wird. Durch die Einbeziehung von mehr Wählern wird die Gesamtstichprobe in der Regel demokratischer, insbesondere bei Wahlen außerhalb des Jahres. Aus diesem Grund sind Entscheidungen darüber, wo der Cutoff angewendet werden soll, für die Genauigkeit der Methode von entscheidender Bedeutung.

Probabilistische Modelle

Dieselben individuellen Umfragefragen können auch verwendet werden, um ein statistisches Modell zu erstellen, das jedem Befragten eine vorhergesagte Abstimmungswahrscheinlichkeit zuweist, zusammen mit Koeffizienten, die messen, wie gut jedes Element mit der Wahlbeteiligung korreliert. Diese Koeffizienten können dann bei anderen Wahlen mit Umfragen verwendet werden, bei denen dieselben Fragen gestellt werden, um eine prognostizierte Abstimmungswahrscheinlichkeit für jeden Befragten zu erstellen, basierend auf der Annahme, dass Interessenbekundungen, Verhalten in der Vergangenheit und Absichten unabhängig von der Wahl alle die gleichen Auswirkungen haben. Alle Antwortoptionen für jedes Element können im Modell verwendet oder wie bei der Perry-Gallup-Methode codiert werden. Unabhängig von der Form der Eingaben ist das Ergebnis eine Verteilung, wobei jedem Befragten eine Punktzahl auf einer Skala zugewiesen wird, die der Wahrscheinlichkeit entspricht, mit der er oder sie abstimmen wird. Wenn jemand als 0,30 eingestuft wird, wird angenommen, dass dieser Befragte eine 30% ige Wahlchance hat.

Ein potenzieller Vorteil dieser Methode besteht darin, dass mehr der in der Umfrage enthaltenen Informationen verwendet werden können (alle Antwortkategorien in jeder Frage und nicht nur eine oder zwei ausgewählte). Dies gibt auch Befragten, die möglicherweise eine geringere Wahrscheinlichkeit haben zu wählen - sei es aufgrund ihres Alters, mangelnden Interesses an der Wahl oder einfach einer vergangenen Wahl verpasst - die Möglichkeit, das Ergebnis zu beeinflussen, da wir wissen, dass viele, die weniger Punkte erzielen Die Skala stimmt tatsächlich ab. Diese Befragten werden gezählt, solange sie eine Wahlchance von mehr als Null haben. Sie erhalten in der Analyse lediglich ein geringeres Gewicht als andere mit einer höheren Wahrscheinlichkeit der Stimmabgabe.

Ein möglicher Nachteil dieser Methode besteht darin, dass ein bei einer früheren Wahl entwickeltes Modell auf eine aktuelle Wahl angewendet wird, basierend auf der Annahme, dass die Beziehungen zwischen der Wahlbeteiligung und den wichtigsten Prädiktoren bei allen Wahlen gleich sind. In dieser Studie werden unsere Modelle unter Verwendung von Wählerbeteiligungsdaten aus den Wahlen 2014 erstellt, und die resultierenden Gewichte werden rückwirkend angewendet, um Umfrageschätzungen der wahrscheinlichen Abstimmung 2014 zu erstellen. Daher können wir nicht testen, wie gut diese Modelle bei künftigen Wahlen abschneiden würden. Das von CBS News verwendete wahrscheinliche Wählermodell, das seit Jahrzehnten eine Variation dieser Methode anwendet, legt nahe, dass solche Annahmen vernünftig sind. Unser Ziel ist es vielmehr, die Unterschiede zwischen probabilistischen und deterministischen Ansätzen zur Modellierung der Wahlbeteiligung zu untersuchen und herauszufinden, um wie viel diese Modelle verbessert werden, wenn wir Informationen zum vorherigen Wahlverhalten aus der Wählerdatei aufnehmen.


Bei unseren Bewertungen probabilistischer Modelle haben wir auch ein 'Küchenspülen' -Modell getestet, das die sieben Perry-Gallup-Maßnahmen sowie eine Reihe demografischer und politischer Variablen umfasst, darunter Alter, Bildung, Einkommen, Rasse / ethnische Zugehörigkeit, Parteizugehörigkeit, ideologische Konsistenz, Wohneigentum und Dauer der Amtszeit am derzeitigen Wohnsitz - alle Faktoren, von denen bekannt ist, dass sie mit der Wahlbeteiligung korrelieren.

Beim Testen probabilistischer Ansätze haben wir zwei Methoden zur Erstellung vorhergesagter Wahrscheinlichkeiten untersucht: die logistische Regression, ein gängiges Modellierungswerkzeug und eine maschinelle Lerntechnik, die als 'Random Forest' bezeichnet wird.

Zusätzlich zur Verwendung der vorhergesagten Wahrscheinlichkeiten als Gewicht können sie auch mit einem Cutoff verwendet werden. Wie bei der Perry-Gallup-Skala würde die Cutoff-Methode die Befragten mit der höchsten Punktzahl als wahrscheinliche Wähler zählen und die anderen ignorieren. Unter der Annahme, dass 60% der registrierten Wähler ausfallen werden, würden die Modelle beispielsweise nur die besten 60% der Befragten einschließen, die nach ihren vorhergesagten Wahlwahrscheinlichkeiten geordnet sind.

Logistische Regression

Um ein Modell zu erstellen, das mit der Perry-Gallup-Skala mit sieben Punkten vergleichbar ist, wurden dieselben sieben Fragen zum Wahlengagement, zum Wahlverhalten in der Vergangenheit, zur Wahlabsicht und zum Wissen darüber, wo gewählt werden soll, verwendet. (Das Modell 'Küchenspüle' verwendete diese Elemente zusammen mit demografischen und politischen Variablen.) Die Fragen wurden als Prädiktoren in das Modell eingegeben, ohne Kategorien zu kombinieren oder zu reduzieren. Die Variablen wurden neu skaliert, um zwischen 0 und 1 zu variieren, wobei die Antworten 'Weiß nicht' als Null codiert sind.

Eine logistische Regression wurde unter Verwendung einer verifizierten Abstimmung aus der Wählerdatei als abhängige Variable durchgeführt. Die Regression erzeugt eine vorhergesagte Wahrscheinlichkeit der Abstimmung für jeden Befragten und Koeffizienten für jede Maßnahme. Die Wahrscheinlichkeiten werden dann auf verschiedene Arten verwendet, wie nachstehend beschrieben, um ein Modell der Wählerschaft für die Vorhersage zu erstellen. Bei nachfolgenden Wahlen können die aus diesen Modellen abgeleiteten Koeffizienten mit den Antworten der Befragten in aktuellen Umfragen verwendet werden, um eine Wahrscheinlichkeit für die Abstimmung für jede Person zu erhalten. Wie beim Perry-Gallup-Ansatz wird bei dieser Methode davon ausgegangen, dass die in der Studie verwendeten Maßnahmen für die Unterscheidung von Wählern und Nichtwählern bei einer Vielzahl von Wahlen gleichermaßen relevant sind.

Entscheidungsbäume und zufällige Wälder

Ein weiterer probabilistischer Ansatz besteht in der Verwendung von „Entscheidungsbäumen“, um die beste Konfiguration von Variablen zur Vorhersage eines bestimmten Ergebnisses zu ermitteln - in diesem Fall Abstimmung und Nichtabstimmung. Die typische Entscheidungsbaumanalyse identifiziert verschiedene Möglichkeiten zum Aufteilen eines Datasets in separate Pfade oder Zweige, basierend auf den Optionen für jede Variable. Der Entscheidungsbaumansatz kann mithilfe einer maschinellen Lerntechnik verbessert werden, die als 'zufällige Wälder' bekannt ist. Zufällige Wälder verwenden eine große Anzahl von Bäumen, die an zufällige Teilstichproben der Daten angepasst sind, um genauere Vorhersagen zu liefern, als dies durch Anpassen eines einzelnen Baums an alle Daten möglich wäre. Im Gegensatz zu klassischen Methoden zur Schätzung von Wahrscheinlichkeiten wie der logistischen Regression funktionieren zufällige Wälder mit einer großen Anzahl von Prädiktorvariablen und bei Vorhandensein komplexer Wechselwirkungen gut. Wir haben die Random-Forest-Methode auf die Berechnung der Abstimmungswahrscheinlichkeiten angewendet, beginnend mit denselben Variablen, die in den anderen zuvor beschriebenen Methoden verwendet wurden.

Wenn ein einzelner Entscheidungsbaum an einen Datensatz angepasst wird, sucht der Algorithmus zunächst nach dem Wert unter den Prädiktorvariablen, mit denen der Datensatz in zwei Gruppen aufgeteilt werden kann, die in Bezug auf die Ergebnisvariable am homogensten sind, in diesem Fall ob oder Bei den Wahlen 2014 hat nicht jemand gewählt. Diese Untergruppen werden als Knoten bezeichnet, und der Entscheidungsbaumalgorithmus teilt jeden Knoten in zunehmend homogenere Gruppen auf, bis ein Stoppkriterium erreicht ist. Eine Sache, die die Zufallswaldtechnik einzigartig macht, ist, dass der Algorithmus vor dem Aufteilen jedes Knotens eine zufällige Teilmenge der Prädiktorvariablen auswählt, die als Kandidaten für das Aufteilen der Daten verwendet werden sollen. Dies hat den Effekt, dass die Korrelation zwischen einzelnen Bäumen verringert wird, was die Varianz der Vorhersagen weiter verringert.

Bei der Verwendung statistischer Modelle zur Vorhersage ist es wichtig, die Möglichkeit zu berücksichtigen, dass die Modelle die Daten überanpassen - Muster in Daten zu finden, die eher zufälliges Rauschen als ein aussagekräftiges Signal widerspiegeln -, was ihre Genauigkeit verringert, wenn sie auf andere Datensätze angewendet werden. Dies ist weniger ein Problem für die logistische Regression, die wahrscheinlich nicht überpasst, wenn die Stichprobengröße im Verhältnis zur Anzahl der unabhängigen Variablen groß ist (wie hier der Fall). Aber esistein Anliegen für leistungsfähige Methoden des maschinellen Lernens wie zufällige Wälder, die aktiv nach Mustern in Daten suchen. Ein Vorteil von zufälligen Wäldern in dieser Hinsicht ist die Tatsache, dass jeder Baum unter Verwendung einer anderen zufälligen Teilstichprobe der Daten erstellt wird. In unserer Analyse basieren die vorhergesagten Wahrscheinlichkeiten für einen Fall nur auf den Bäumen, die unter Verwendung von Teilstichproben erstellt wurden, bei denen dieser Fall ausgeschlossen wurde. Das Ergebnis ist, dass eine Überanpassung, die beim Erstellen von Bäumen auftritt, nicht auf die Bewertungen übertragen wird, die auf jeden Fall angewendet werden.

Eine letzte auf Regression basierende Methode, die hier getestet wird, besteht darin, eine vom Anbieter der Wählerdatei erstellte Wahlbeteiligungswahrscheinlichkeit als Prädiktor oder Gewicht zu verwenden. Die TargetSmart-Wählerdatei enthält eine von Clarity Campaign Labs entwickelte Wahlbeteiligungsbewertung für 2014. Diese Punktzahl reicht von 0 bis 1 und kann als Wahlwahrscheinlichkeit bei den allgemeinen Wahlen 2014 interpretiert werden.

Die im nächsten Abschnitt gemeldete statistische Analyse verwendet die verifizierte Abstimmung als Maß für die Wahlbeteiligung. Unter den registrierten Wählern in der Stichprobe haben 63% eine Wählerakte, aus der hervorgeht, dass sie 2014 gewählt haben. Selbstberichtete Abstimmungen waren häufiger; 75% der registrierten Wähler gaben an, dass sie sich herausstellten. In Anhang B werden die Vor- und Nachteile der Verwendung verifizierter Stimmen im Vergleich zu selbst gemeldeten Stimmen erörtert.