The Working Woman 29.09.2025

🏅 Wie gut ist die KI in deinem Job? 💬 20 Tipps für bessere Meetings 🧭 6 Fragen zur Karriere-Halbzeit

Guten Morgen, Working Woman! ☕️

GPTs vs. Menschen: Wer macht den besseren Job?

Letzte Woche gab es gleich zwei spannende Veröffentlichungen zur Frage, wie KI unsere Arbeitswelt verschlimmbessert ändert.

Einerseits veröffentlichte die Harvard Business Review eine interessante Analyse darüber, warum KI im Alltag vieler Firmen derzeit eher Produktivitätskiller als -booster ist. Der Grund: sogenannter Workslop, also KI-generierte Inhalte, die zwar polished aussehen, aber keinerlei Substanz haben und die eigentliche Arbeit auf andere abwälzen. Du weißt wovon die Rede ist: schlampige Reports, nichtssagende One-Click-Präsentationen, …

Laut der Studie kostet jede dieser „Workslop“-Artefakte Firmen im Schnitt 1 Stunde 56 Minuten an Nacharbeit (oder rund 9 Mio. $ pro Jahr bei 10.000 Mitarbeitenden)! 40 % der Befragten gaben zu, regelmäßig solchen Pseudo-Content zu erhalten. Und: Kolleg:innen, die Workslop verschicken, gelten danach als weniger kompetent, kreativ und vertrauenswürdig. Just don’t!

Hier kommt die zweite spannende Veröffentlichung ins Spiel: Die neue GDPval-Studie von OpenAI.

GDPval ist der erste Benchmark, der KI nicht an Multiple-Choice-Fragen misst, sondern an echten Business-Deliverables: PowerPoint-Decks, Excel-Analysen, Policy-Memos, Investment-Pitches. Alles Aufgaben, wie sie täglich in Unternehmen erledigt werden.

Die Studie umfasst:

  • 1.320 Aufgaben von Expert:innen aus 44 Berufen

  • alle in den 9 wichtigsten Sektoren der US-Wirtschaft

  • Aufgaben basieren auf realer Arbeit von Profis mit durchschnittlich 14 Jahren Erfahrung (im Schnitt brauchte ein Mensch 7 Stunden zur Bearbeitung)

Bewertet wurde, ob GPT-Modelle wie GPT-5 oder Claude Opus die Qualität von echten Menschen erreichen oder übertreffen - von den Branchenexpert:innen anonym verglichen.

Die spannendsten Ergebnisse aus GDPval:

  1. KI ist (noch) kein Ersatz (aber ein:e ziemlich gute:r Assistent:in)

Claude Opus 4.1 (Anthropic) schnitt am besten ab: In 47,6 % der Fälle war die KI-Ausgabe gleich gut oder besser als die des Menschen. Ein überraschend knappes Ergebnis zugunsten der KI!

GPT-5 punktete besonders in Sachen Genauigkeit, Claude eher bei Design und Ästhetik (z. B. bei Slides oder PDFs).

Außerdem: GPT-5 konnte mit zusätzlichem Prompting und “Scaffolding” (Herunterbrechen des Tasks) noch mal um +5 Prozentpunkte in der Bewertung zulegen.

Quelle: OpenAI

  1. Zeit und Geld sparen? Jaein

Wenn Profis KI zuerst probieren und nur eingreifen, wenn das Ergebnis nicht passt, lassen sich laut Studie:

  • bis zu 39 % der Arbeitszeit

  • und 63 % der Kosten einsparen (am Beispiel von GPT-5).

Aber: Nicht komplett ohne Review! Im Durchschnitt dauert es 109 Minuten, um ein KI-Ergebnis richtig zu bewerten. Das ist nicht trivial.

  1. Warum die meisten KIs (noch) scheitern

Der häufigste Grund, warum KI-Ergebnisse von Expert:innen abgelehnt wurden: Anweisungen wurden nicht exakt befolgt, Formatierungsfehler, Ignorieren von Referenzdaten und zu viel oder zu wenig Kontextverständnis.

Welche Jobs & Aufgaben meistert KI besonders gut und wo floppt sie?

Ich persönlich fand aber den Blick auf die unterschiedlichen Beurfsgruppen am interessantesten - denn da gibt es durchaus große Unterschiede.

Top-Performer: Aufgaben mit klarer Struktur und Datenbezug

KI-Modelle wie GPT-5 oder Claude schnitten besonders gut ab bei Aufgaben, die:

  • klar definierte Deliverables hatten (z. B. Excel-Reports, PDFs, Slides)

  • strukturierte Datenanalyse beinhalteten

  • oder ästhetische Präsentation erforderten

Wie zum Beispiel:

  • Controller:in: Forecast mit Diagrammen erstellen

  • Marketing Manager:in: PowerPoint mit Text & Design (v.a. Claude schnitt gut ab)

  • Data Analyst: Umfragedaten analysieren mit Executive Summary

GPT-5 konnte bei manchen Aufgaben sogar besser rechnen als menschliche Profis, insbesondere bei komplizierten Excel-Formeln oder Datenvisualisierungen.

KI-Flop (aka Workslop): Aufgaben mit Ambiguität, Nuancen oder rechtlichem Kontext

Modelle versagten auffällig oft, wenn es:

  • unpräzise oder mehrdeutige Anweisungen gab

  • mehrstufiges Nachdenken über Stakeholder-Interessen erforderte

  • oder rechtliche, ethische oder zwischenmenschliche Feinfühligkeit nötig war

Beispiele:

  • Juristin: Rechtliches Memo mit Risikoabwägung (fehlender Tiefgang & rechtliche Präzision)

  • Kommunikationsleitung: Heikle interne E-Mail (war tonal daneben, wirkte distanziert oder flach)

  • UX-Designerin: User-Feedback interpretieren (Kontext wurde oft falsch verstanden oder ignoriert)

Claude neigte bei sensiblen Aufgaben zu zu viel „Fluff“, während GPT-5 manchmal ins Kalte abrutschte - der menschliche Feinsinn fehlt einfach noch.

Take-away: KI kann viel - aber (noch) nicht das Denken für dich übernehmen

GPTs sind Stand heute gute Assistent:innen für strukturierte Aufgaben und sparen Zeit, wenn du sie richtig einsetzt. Aber sobald es um Kontext oder zwischenmenschliche Nuancen geht, kann es schnell zu Workslop abdriften - und das lässt dich schlecht aussehen. Es lohnt sich ein Blick darauf, welches KI-Modell in deiner Branche das bessere ist und erwarte, dass das Ergebnis immer nochmal überarbeitet werden muss. Für Privatdetektive und einige andere Berufsgruppen sieht es jetzt schon schlecht aus…

Und noch ein spannendes Stanford-Paper über die Auswirkungen von KI auf den Arbeitsmarkt.

20 No Bullshit-Tipps für bessere Meetings

Slack, E-Mail, Google Docs und Zoom-Meetings, viele Meetings. Überall kursieren Memes über Zoom-Fatigue und „Das hätte auch eine E-Mail sein können“, aber fest steht: Gute Meetings bringen uns voran, motivieren, schaffen Verbundenheit und Klarheit, schlechte Meetings versauen uns einfach nur den Tag. Sei kein Thomas, der Anderen schlechte Meetings aufzwingt und probiere einige dieser 20 Tipps mit deinem Team aus. [Weiterlesen…]

Karriere-Halbzeit? Diese 6 Fragen solltest du dir stellen

Viele erleben zur Halbzeit ihrer Karriere eine Ambivalenz zwischen ihren Erfolgen, ihrem Ehrgeiz und der Realität. Die erste Hälfte des Berufslebens steht im Zeichen des Anhäufens von Erfahrungen und Wissen und dem Erklimmen der Karriereleiter. Jetzt ist es an der Zeit, herauszufinden, was für dich wirklich zählt.

Hier sind drei von sechs zentralen Fragen:

  1. Was werde ich in 10 Jahren bereuen, nicht getan zu haben?

  2. Wie möchte ich meine Tage gestalten?

  3. Welche Kompromisse bin ich bereit einzugehen?

Brain Snacks

Xoxo, Maria von The Working Woman

Du willst The Working Woman unterstützen?

👯‍♀️ Schick den Newsletter einer Freundin weiter!
💌 Schreib mir - für Tipps, Themenideen oder Feedback!

Wie haben dir die Themen heute gefallen?

Login oder Abonnieren um an umfragen teilzunehmen.

Reply

or to participate.