- The Working Woman
- Posts
- The Working Woman 29.09.2025
The Working Woman 29.09.2025
🏅 Wie gut ist die KI in deinem Job? 💬 20 Tipps für bessere Meetings 🧭 6 Fragen zur Karriere-Halbzeit

Guten Morgen, Working Woman! ☕️
GPTs vs. Menschen: Wer macht den besseren Job?
Letzte Woche gab es gleich zwei spannende Veröffentlichungen zur Frage, wie KI unsere Arbeitswelt verschlimmbessert ändert.
Einerseits veröffentlichte die Harvard Business Review eine interessante Analyse darüber, warum KI im Alltag vieler Firmen derzeit eher Produktivitätskiller als -booster ist. Der Grund: sogenannter Workslop, also KI-generierte Inhalte, die zwar polished aussehen, aber keinerlei Substanz haben und die eigentliche Arbeit auf andere abwälzen. Du weißt wovon die Rede ist: schlampige Reports, nichtssagende One-Click-Präsentationen, …
Laut der Studie kostet jede dieser „Workslop“-Artefakte Firmen im Schnitt 1 Stunde 56 Minuten an Nacharbeit (oder rund 9 Mio. $ pro Jahr bei 10.000 Mitarbeitenden)! 40 % der Befragten gaben zu, regelmäßig solchen Pseudo-Content zu erhalten. Und: Kolleg:innen, die Workslop verschicken, gelten danach als weniger kompetent, kreativ und vertrauenswürdig. Just don’t!
Hier kommt die zweite spannende Veröffentlichung ins Spiel: Die neue GDPval-Studie von OpenAI.
GDPval ist der erste Benchmark, der KI nicht an Multiple-Choice-Fragen misst, sondern an echten Business-Deliverables: PowerPoint-Decks, Excel-Analysen, Policy-Memos, Investment-Pitches. Alles Aufgaben, wie sie täglich in Unternehmen erledigt werden.
Die Studie umfasst:
1.320 Aufgaben von Expert:innen aus 44 Berufen
alle in den 9 wichtigsten Sektoren der US-Wirtschaft
Aufgaben basieren auf realer Arbeit von Profis mit durchschnittlich 14 Jahren Erfahrung (im Schnitt brauchte ein Mensch 7 Stunden zur Bearbeitung)
Bewertet wurde, ob GPT-Modelle wie GPT-5 oder Claude Opus die Qualität von echten Menschen erreichen oder übertreffen - von den Branchenexpert:innen anonym verglichen.
Die spannendsten Ergebnisse aus GDPval:
KI ist (noch) kein Ersatz (aber ein:e ziemlich gute:r Assistent:in)
Claude Opus 4.1 (Anthropic) schnitt am besten ab: In 47,6 % der Fälle war die KI-Ausgabe gleich gut oder besser als die des Menschen. Ein überraschend knappes Ergebnis zugunsten der KI!
GPT-5 punktete besonders in Sachen Genauigkeit, Claude eher bei Design und Ästhetik (z. B. bei Slides oder PDFs).
Außerdem: GPT-5 konnte mit zusätzlichem Prompting und “Scaffolding” (Herunterbrechen des Tasks) noch mal um +5 Prozentpunkte in der Bewertung zulegen.

Quelle: OpenAI
Zeit und Geld sparen? Jaein
Wenn Profis KI zuerst probieren und nur eingreifen, wenn das Ergebnis nicht passt, lassen sich laut Studie:
bis zu 39 % der Arbeitszeit
und 63 % der Kosten einsparen (am Beispiel von GPT-5).
Aber: Nicht komplett ohne Review! Im Durchschnitt dauert es 109 Minuten, um ein KI-Ergebnis richtig zu bewerten. Das ist nicht trivial.
Warum die meisten KIs (noch) scheitern
Der häufigste Grund, warum KI-Ergebnisse von Expert:innen abgelehnt wurden: Anweisungen wurden nicht exakt befolgt, Formatierungsfehler, Ignorieren von Referenzdaten und zu viel oder zu wenig Kontextverständnis.
Welche Jobs & Aufgaben meistert KI besonders gut und wo floppt sie?
Ich persönlich fand aber den Blick auf die unterschiedlichen Beurfsgruppen am interessantesten - denn da gibt es durchaus große Unterschiede.
Top-Performer: Aufgaben mit klarer Struktur und Datenbezug
KI-Modelle wie GPT-5 oder Claude schnitten besonders gut ab bei Aufgaben, die:
klar definierte Deliverables hatten (z. B. Excel-Reports, PDFs, Slides)
strukturierte Datenanalyse beinhalteten
oder ästhetische Präsentation erforderten
Wie zum Beispiel:
Controller:in: Forecast mit Diagrammen erstellen
Marketing Manager:in: PowerPoint mit Text & Design (v.a. Claude schnitt gut ab)
Data Analyst: Umfragedaten analysieren mit Executive Summary
GPT-5 konnte bei manchen Aufgaben sogar besser rechnen als menschliche Profis, insbesondere bei komplizierten Excel-Formeln oder Datenvisualisierungen.
KI-Flop (aka Workslop): Aufgaben mit Ambiguität, Nuancen oder rechtlichem Kontext
Modelle versagten auffällig oft, wenn es:
unpräzise oder mehrdeutige Anweisungen gab
mehrstufiges Nachdenken über Stakeholder-Interessen erforderte
oder rechtliche, ethische oder zwischenmenschliche Feinfühligkeit nötig war
Beispiele:
Juristin: Rechtliches Memo mit Risikoabwägung (fehlender Tiefgang & rechtliche Präzision)
Kommunikationsleitung: Heikle interne E-Mail (war tonal daneben, wirkte distanziert oder flach)
UX-Designerin: User-Feedback interpretieren (Kontext wurde oft falsch verstanden oder ignoriert)
Claude neigte bei sensiblen Aufgaben zu zu viel „Fluff“, während GPT-5 manchmal ins Kalte abrutschte - der menschliche Feinsinn fehlt einfach noch.
Take-away: KI kann viel - aber (noch) nicht das Denken für dich übernehmen
GPTs sind Stand heute gute Assistent:innen für strukturierte Aufgaben und sparen Zeit, wenn du sie richtig einsetzt. Aber sobald es um Kontext oder zwischenmenschliche Nuancen geht, kann es schnell zu Workslop abdriften - und das lässt dich schlecht aussehen. Es lohnt sich ein Blick darauf, welches KI-Modell in deiner Branche das bessere ist und erwarte, dass das Ergebnis immer nochmal überarbeitet werden muss. Für Privatdetektive und einige andere Berufsgruppen sieht es jetzt schon schlecht aus…
Und noch ein spannendes Stanford-Paper über die Auswirkungen von KI auf den Arbeitsmarkt.
20 No Bullshit-Tipps für bessere Meetings
Slack, E-Mail, Google Docs und Zoom-Meetings, viele Meetings. Überall kursieren Memes über Zoom-Fatigue und „Das hätte auch eine E-Mail sein können“, aber fest steht: Gute Meetings bringen uns voran, motivieren, schaffen Verbundenheit und Klarheit, schlechte Meetings versauen uns einfach nur den Tag. Sei kein Thomas, der Anderen schlechte Meetings aufzwingt und probiere einige dieser 20 Tipps mit deinem Team aus. [Weiterlesen…]
Karriere-Halbzeit? Diese 6 Fragen solltest du dir stellen
Viele erleben zur Halbzeit ihrer Karriere eine Ambivalenz zwischen ihren Erfolgen, ihrem Ehrgeiz und der Realität. Die erste Hälfte des Berufslebens steht im Zeichen des Anhäufens von Erfahrungen und Wissen und dem Erklimmen der Karriereleiter. Jetzt ist es an der Zeit, herauszufinden, was für dich wirklich zählt.
Hier sind drei von sechs zentralen Fragen:
Was werde ich in 10 Jahren bereuen, nicht getan zu haben?
Wie möchte ich meine Tage gestalten?
Welche Kompromisse bin ich bereit einzugehen?
Brain Snacks

LinkedIn nutzt all deine Daten und Beiträge, um seine KI zu trainieren. Du kannst dem teils widersprechen.
Ein großer Schritt für weibliche Astronautinnen der NASA.
Das Aachener Startup Cylib, mitgegründet von Dr. Lilian Schwich, entwickelt nachhaltige Batterierecycling-Technologie und erhielt dafür nun 26,1 Mio. EUR Fördermittel.
Lücke im Lebenslauf? So kannst du damit im Vorstellungsgespräch punkten.
So funktionieren LinkedIn Job Scams.
Neue Glassdoor-Studie: Daran erkennst du ein wirtschaftlich instabiles Unternehmen bevor du zusagst.
Der wissenschaftliche Beweis, dass WFH glücklicher macht! Natürlich gibt’s einen Haken.
How To: Mit der 2-7-30-Regel dein Erinnerungsvermögen massiv verbessern.
Matilda Djerf, die Influencerin, die letztes Jahr aufgrund eines toxischen Arbeitsumfeldes gecancellt wurde, ist wieder zurück.
Deine Führungskraft ist also ein:e Mikromanager:in…
Xoxo, Maria von The Working Woman
Du willst The Working Woman unterstützen?
👯♀️ Schick den Newsletter einer Freundin weiter!
💌 Schreib mir - für Tipps, Themenideen oder Feedback!
Wie haben dir die Themen heute gefallen? |
Login oder Abonnieren um an umfragen teilzunehmen. |
Reply