Evaluation
1 Evaluation
Dieser Bericht prüft den im Visualisierungsdesign entwickelten Prototypen gegen die Ziele und Erfolgskriterien aus der Projekt Charta.
1.1 Evaluations-Setup
1.1.1 Ziele
Die Evaluation beantwortet, ob die vier in der Charta definierten Erfolgskriterien erreicht sind. Wir ordnen sie den drei Wertdimensionen nach van Wijk [1] zu:
- Kognitiv und analytisch: Falsifizierbarkeit der Hypothese, klarer roter Faden.
- Kommunikativ: Allgemeinverständlichkeit für eine nicht-fachliche Zielgruppe.
- Erlebnis und Vertrauen: Reproduzierbarkeit der Pipeline, transparente Methodik.
1.1.2 Methode
Die Evaluation basiert auf drei Bausteinen:
- Heuristische Selbstprüfung des Teams entlang etablierter Designprinzipien (Marks-and-Channels-Hierarchie, overview first, details on demand) sowie der Charta-Kriterien [2], [3].
- Vergleichsbenchmark gegen bestehende Berichterstattung: Wir vergleichen unsere Befunde mit publizierten Auswertungen zur gleichen Frage (siehe Abschnitt Section 1.2.2).
- Coaching-Feedback aus den Sessions mit Manuel Dömer (technisch) und Wibke Weber (visuelle Kommunikation).
1.1.3 Beteiligte
- Christian Bosshard und Enea D. Fedel (Entwicklungsteam, Selbstbewertung).
- Manuel Dömer und Wibke Weber (ZHAW-Coaches, Feedback in begleitenden Sessions).
1.2 Ergebnisse
1.2.1 Bewertung pro Erfolgskriterium
| Erfolgskriterium | Wertdimension | Status | Belege |
|---|---|---|---|
| Falsifizierbarkeit der Hypothese | kognitiv | Erfüllt | Hypothese „Politiker werden immer älter” mit Daten klar widerlegt; NR-Median 2020er liegt unter dem Niveau der 1950er. |
| Klarer roter Faden | kognitiv | Erfüllt | Vier Seiten, vier Teilfragen, lineare Navigation Headline–Aufschlüsselung–Mechanismus–Personen. |
| Allgemeinverständlichkeit | kommunikativ | Voraussichtlich erfüllt | Konzepte Alter, Eintrittsalter, Mandatsdauer kommen ohne Fachjargon aus. Bestätigung steht aus (keine Nutzer:innen-Tests). |
| Reproduzierbarkeit | Erlebnis und Vertrauen | Erfüllt | Vollständige Pipeline in Python (uv, pandas, pyarrow); Quellcode auf GitHub; Deployment via GitHub Actions; alle Schritte in eda/ und deployment/ versioniert. |
1.2.2 Einordnung in bestehende Berichterstattung
Im Oktober 2019 berichtete Keystone-SDA für SWI swissinfo.ch [4] auf Basis von BFS-Daten, der neu gewählte Nationalrat sei mit einem Durchschnittsalter von 49.0 Jahren so jung wie nie zuvor (gegenüber 50.3 Jahren vier Jahre zuvor). Unsere Auswertung kommt qualitativ zum gleichen Schluss, mit drei methodischen Unterschieden, die einen direkten Zahlenvergleich erschweren:
- Datengrundlage: BFS-Statistiken zur 51. Legislaturperiode (Swissinfo) gegenüber OpenParlData-Export der parlament.ch Biografien (wir).
- Stichtag: Swissinfo misst unmittelbar nach den Wahlen vom 20. Oktober 2019. Unser Snapshot misst am 1. Juli. Für 2019 zeigt unser Mittelwert deshalb 53.1 Jahre (alter Bestand), für 2020 dagegen 50.1 Jahre (erster Juli mit dem neu gewählten Rat). Die Befunde stimmen überein, sobald der Stichtag berücksichtigt ist.
- Statistik: Swissinfo verwendet den arithmetischen Mittelwert, wir den robusteren Median.
Unsere Analyse erweitert die Berichterstattung in zwei Dimensionen. Der historische Vergleich reicht bis 1850 zurück und zeigt, dass der heutige Tiefstand nur im Kontext der letzten 100 Jahre tief ist; gegenüber dem 19. Jahrhundert ist die Bundesversammlung deutlich älter geworden. Zweitens decken wir mit dem Ständerat eine Kammer ab, die in der Wahlberichterstattung typischerweise weniger Beachtung findet.
1.2.3 Kernbefunde
- Die Alltagsthese “Politiker werden immer älter” ist falsch (zumindest für den Nationalrat). Median-Alter 2020er bei 51.6 Jahren, so tief wie seit 100 Jahren nicht mehr.
- Die Alterung passierte hauptsächlich im 19. Jahrhundert: Median NR von 44 (1850) auf 55 (1900).
- Der Ständerat ist konstant älter als der Nationalrat; aktueller Abstand rund 8 Jahre.
- Eintrittsalter ist seit 1880 stabil bei 46 bis 49 Jahren.
- Mediane Mandatsdauer beträgt rund 9 Jahre; Karrieren über 30 Jahre sind sehr seltene Ausnahmen.
1.3 Diskussion
Was funktioniert hat. Die Eingrenzung auf eine einzige falsifizierbare Hypothese mit einem universell verständlichen Konzept (Alter) ist die wichtigste Designentscheidung des Projekts. Das Headline-Diagramm beantwortet die Frage unmittelbar. Der kontraintuitive Befund (“stimmt nicht”) trägt den narrativen Bogen wesentlich besser als eine reine Bestätigung der Alltagsthese das könnte.
Wo das Design Grenzen hat. Die kommunikative Wirkung auf Persona Marco (mobiler Nutzer, geringe Datenkompetenz) ist nicht empirisch belegt. Auch wenn die Streamlit-Defaults responsive sind, bleibt die Sidebar-Navigation auf einem Smartphone gedrungen, und die Plotly-Tooltips sind auf Touch-Geräten weniger zugänglich als mit Maus.
Trade-offs zwischen den Wertdimensionen. Wir haben bewusst auf eine globale Filterleiste verzichtet, um die Aussagekraft der dokumentierten Stichtags-Zahlen nicht durch beliebige User-Filter zu verwässern. Das stärkt die kommunikative Wertdimension auf Kosten der experimentellen Erkundbarkeit. Für Persona Sarah (Datenjournalistin) ist das vertretbar, weil sie zitierbare Zahlen sucht aber für eine Power-User-Erweiterung wäre eine optionale Filterleiste denkbar.
Limitierungen der Evaluation selbst.
- Heuristische Bewertung ist anfällig für Bestätigungsbias des Designteams.
- Der Vergleich mit Swissinfo prüft den analytischen Befund, nicht das User-Erleben.
Bekannte Datenlimitierungen (siehe auch Datenbericht):
- Rund 7% der Bundespolitiker:innen haben kein erfasstes Geburtsdatum, betrifft v. a. historische Datensätze.
total_tenure_yearskann minimal negative Werte annehmen, wenn Begin- und Enddatum am selben Tag liegen; Effekt auf die Verteilung ist vernachlässigbar.age_todayberücksichtigt dasdeathday-Feld nicht und überschätzt das Alter längst verstorbener Personen. In den Visualisierungen wird dies durch Filterung aufcurrently_activeumgangen.
1.4 Checkpoint-Entscheidung
Entscheidung: Proceed to Deployment, mit kleineren Nacharbeiten.
Der Prototyp erfüllt drei der vier Erfolgskriterien zweifelsfrei. Die Allgemeinverständlichkeit gilt als plausibel, aber nicht empirisch belegt. Die offenen Punkte (siehe nächster Abschnitt) sind nicht blockierend für die Abgabe.
Entscheidungstragende: Christian Bosshard, Enea D. Fedel, mit Rückendeckung der Coaches Manuel Dömer und Wibke Weber. Datum der Entscheidung: Ende Mai 2026
1.5 Zusätzliche Anforderungen und Deployment-Planung
Folgende Punkte werden in die Deployment-Phase mitgenommen oder bewusst zurückgestellt:
- ETL-Korrektur: Negative
total_tenure_yearsclampen auf 0,age_todayaufmin(today, deathday)setzen. Aufwand gering, kann vor der Abgabe noch erfolgen. - Mobile Iteration: Smartphone-Walkthrough manuell prüfen, Sidebar gegebenenfalls per
st.sidebar.collapsed=Trueals Default für mobile Viewports konfigurieren. Zurückgestellt auf nach der Abgabe. - Screenshots in der Dokumentation: Für die Präsentationsfolien werden statische Screenshots der vier Seiten benötigt. Ablage unter
docs/pics/. - Nutzer:innen-Test als Folgeprojekt: Eine task-basierte Evaluation mit drei bis fünf Vertretungen pro Persona wäre der natürliche nächste Schritt, würde aber den Semesterrahmen sprengen.