DE · EN
Erstgespräch
← Zurück zu Insights Methodik · 2026

Wie bestimmt man das KI-Potenzial von Tätigkeiten im Nachhaltigkeitsmanagement?

In den letzten Monaten sind zahlreiche Studien zur KI-Exposure von Tätigkeiten, Jobs und ganzen Berufsgruppen erschienen. Eine einheitliche Methodik gibt es jedoch nicht. Die Ansätze unterscheiden sich deutlich — in ihrer Logik, Granularität und praktischen Anwendbarkeit.

Wir haben diese Ansätze systematisch ausgewertet und daraus ein eigenes Vorgehen für Nachhaltigkeitsarbeit entwickelt: speziell für Workflows wie Doppelte Wesentlichkeitsanalyse, THG-Bilanz, CSRD-Berichterstattung oder Lieferketten-Sorgfalt.


Sektion 1Bestehende Ansätze im Überblick

Es gibt verschiedene Wege, sich der Frage nach dem Automatisierungspotenzial von Arbeit zu nähern.

Eloundou et al. (OpenAI/NBER, 2023) zerlegen Berufe in viele kleine Tätigkeiten. Der Beruf „Tax Preparer" enthält zum Beispiel Tätigkeiten wie „Compute taxes owed by following tax code." Für jede Tätigkeit wird gefragt: Könnte KI diese Aufgabe bei gleicher Qualität mindestens doppelt so schnell erledigen? Diese Einschätzung erfolgt teils durch Expertinnen und Experten, teils durch GPT-4 selbst, und wird anschließend auf Berufsebene aggregiert.

Webb (Stanford, 2019/2020) geht anders vor. Er analysiert neu erschienene KI-Patente — etwa „Automated visual inspection of welds" — und legt sie über Job-Beschreibungen. Wenn eine Tätigkeit aus einem KI-Patent in einer Job-Beschreibung vorkommt, gilt das als Indiz für Automatisierungspotenzial. Die Logik: Jemand hat bereits investiert, um genau diese Tätigkeit automatisierbar zu machen.

Felten, Raj, Seamans (NBER, 2018–2024) starten bei den Fähigkeiten der KI — etwa „Image Recognition", „Translation" oder „Language Modeling" — und vergleichen diese mit Tätigkeitsanforderungen aus der O*NET-Datenbank, der US-Job-Datenbank mit über 800 Berufen und ihren Einzeltätigkeiten. Wenn eine KI-Fähigkeit mit einer Tätigkeitsanforderung übereinstimmt, gilt diese Tätigkeit als KI-exposed. Je mehr Übereinstimmungen, desto höher die Exposure.

McKinsey (MGI, 2017 / GenAI-Update 2023) kombiniert beide Richtungen. Rund 800 Berufe werden in etwa 2.000 Work Activities zerlegt und gegen 18 Fähigkeiten bewertet — darunter Sensorik, Logik, natürliche Sprache, sozial-emotionale Fähigkeiten und physische Fähigkeiten. Jede Fähigkeit wird auf vier Performance-Leveln bewertet: 0 = nicht erforderlich, 3 = Top-Quartil menschlicher Leistung. Eine Activity gilt als technisch automatisierbar, wenn aktuelle Technologie auf allen erforderlichen Fähigkeiten das nötige Level erreicht. Im GenAI-Update 2023 kommt McKinsey zu dem Ergebnis, dass bis zu 70 % der Arbeitsstunden technisch automatisierbar sein könnten.

Charakteristika der Aufgabe selbst

Eine andere Denkschule fragt nicht zuerst nach Berufen oder KI-Fähigkeiten, sondern nach den Eigenschaften der Aufgabe selbst: Gibt es bestimmte Aufgabenmerkmale, die Automatisierung besonders begünstigen?

Einen frühen systematischen Ansatz lieferten Brynjolfsson, Mitchell und Rock am MIT mit ihrer „Suitability for Machine Learning"-Rubrik. Sie formulierten acht Kriterien, darunter klar definierte Inputs und Outputs sowie verfügbare Trainingsdaten. Besonders prägend wurde der Gedanke der Strukturiertheit: Je klarer und strukturierter eine Aufgabe, desto eher kann KI sie übernehmen.

Diesen Ansatz führen BCG und Bain weiter. BCG nennt fünf Kriterien, darunter „keine signifikante physische Präsenz" und „regelbasiert nachvollziehbares Ergebnis". Bain erweitert dies um sechs „Agentic Automation Feasibility Factors", darunter Output-Verifizierbarkeit — also die Frage, ob ein Ergebnis günstig geprüft werden kann — und Integration & Orchestrierung, also die Frage, wie viele Systeme KI miteinander verbinden muss. Damit betrachtet Bain nicht nur die Aufgabe selbst, sondern auch Aspekte der praktischen Umsetzung: Ein KI-System muss eine Aufgabe nicht nur theoretisch lösen können, sondern sie auch in der realen Tool-Landschaft eines Unternehmens zuverlässig bewältigen.

Diesen Ansatz führen wir weiter und passen ihn auf Nachhaltigkeitsmanagement an. Er eignet sich besonders gut, weil er auf beliebige Aufgaben angewendet werden kann — und damit hilft, unterschiedliche Workflows im Nachhaltigkeitsmanagement systematisch zu bewerten.

Sektion 2Eine vollständigere Bewertungsbasis

BCGs fünf Kriterien und Bains sechs Feasibility Factors bilden einen starken Kern. Für Sustainability-Arbeit erweitern wir ihn um weitere gleichberechtigte Dimensionen — auf Basis einer intensiven Recherche über 41 Institutionen aus Wissenschaft, KI-Laboren, Standardsetzung, Beratung, Recht und internationalen Organisationen.

Daraus sind 17 Aufgaben-Eigenschaften entstanden, jeweils mit klarer Quellenkette in der Forschung.

Zu den erweiterten Dimensionen gehören unter anderem:

Atypizität. Hat das Modell vergleichbares Material bereits gesehen? Eine Bewertung in einem etablierten Sektor mit ausgereiften Reporting-Mustern hat eine niedrige Atypizität: Die Trainingsdaten enthalten wahrscheinlich verwandte Beispiele. Eine Bewertung unter frisch erlassener Regulatorik — etwa den Revised ESRS vom Mai 2026 oder in der CSDDD-Implementierungsphase — hat dagegen eine hohe Atypizität, weil das Material erst entsteht und im Training kaum vorhanden ist. Quellen: Cambridge ADeLe, MIT Brynjolfsson SML, METR Time-Horizon-Studien, NBER, OECD AI Capability Indicators.

Kognitive Last. Wie viele Denkschritte sind nötig, bis eine belastbare Antwort entsteht? Eine Emissionsfaktor-Zuordnung ist meist ein einzelner Schritt. Eine integrierte Risiko- und Chancenbewertung über mehrere Wertschöpfungsstufen hinweg erfordert dagegen viele verschachtelte Schritte. Aktuelle Frontier-Modelle verlieren typischerweise nach mehreren verketteten Reasoning-Schritten an Verlässlichkeit. Quellen: Cambridge ADeLe, METR Time-Horizon, MIT SML, OECD AI Capability Indicators, Stanford HAI.

Wissenstiefe. Wie viel Fachwissen ist nötig? Ein Topic-Screening braucht ESRS-Grundkenntnisse — gut abgedeckt durch öffentliche Dokumentation und Guidance. Eine Schwellenwert-Definition braucht zusätzlich Branchenerfahrung, Assurance-Perspektive und Audit-Standards — und ist damit deutlich schwerer aus öffentlichen Quellen zu rekonstruieren. Quellen: Cambridge ADeLe, OECD AI Capability Indicators, MIT, Stanford HAI.

Insgesamt umfasst die Methodik 17 TASK-Dimensionen.

Zusammenfassung

Wie Eloundou et al. zerlegen wir Workflows — etwa eine Doppelte Wesentlichkeitsanalyse — in einzelne Aufgaben. Wir wählen dabei jedoch eine praktikable Granularität: fein genug, um Unterschiede sichtbar zu machen, aber nicht so fein, dass die Bewertung unhandlich wird.

Anschließend bewerten wir jede Aufgabe anhand der aus Forschung und Anwendung synthetisierten Dimensionen. So lässt sich das Automatisierungspotenzial konkret einordnen. Pro Workflow entsteht ein aggregiertes Bild.

Das Ergebnis ist keine pauschale Prozent-Angabe, sondern ein differenzierter Blick: In welchen Teilschritten lohnt sich KI? Welche Aufgabenmerkmale begünstigen Automatisierung? Welche verhindern sie? Damit lassen sich Workflows bewusst so gestalten, dass Mensch und Maschine sinnvoll zusammenspielen — und das Risiko sinkt, in isolierten Piloten steckenzubleiben.


Sektion 3Kriterien, die entscheiden, ob das Potenzial realisiert wird

Selbst wenn eine Aufgabe ihrer Natur nach automatisierbar ist, bestimmen drei weitere Kriterien-Familien, ob Automatisierung in der Praxis funktioniert:

  1. die Fähigkeiten aktueller Modelle,
  2. die Voraussetzungen innerhalb der Organisation, in der KI eingesetzt werden soll,
  3. die Governance-Anforderungen.

Fähigkeiten der Modelle

Wenn aktuelle Modelle nicht über die Fähigkeiten verfügen, die eine Aufgabe erfordert, werden die Ergebnisse unzuverlässig. Diese Fähigkeiten entwickeln sich kontinuierlich weiter. Deshalb aktualisieren wir diese Dimension vierteljährlich. Was heute noch an Grenzen stößt, kann in einem Jahr bereits deutlich robuster funktionieren.

Wir nutzen 9 Kriterien für die Modell-Fähigkeit. Die verständlichsten Beispiele:

Voraussetzungen in der Organisation

Darüber hinaus spielen die Voraussetzungen im Unternehmen eine entscheidende Rolle. Liegen digitale Daten vor? Wie hoch ist die Domänenkompetenz im Team? Welche Tools sind verfügbar? Wie gut sind Daten, Systeme und Verantwortlichkeiten miteinander verbunden?

Diese Ebene bewerten wir mit 6 Dimensionen.

Das entspricht auch der Logik von Bain und dem Cambridge Bennett Institute: Technisch automatisierbar bedeutet nicht automatisch praktisch nutzbar. Coyles UK-Studie zeigt, dass nur ein kleiner Teil der Unternehmen KI tatsächlich in messbare Produktivität übersetzt — nicht primär wegen der Aufgaben selbst, sondern wegen organisationaler Reibungen.

In unserer Methodik gehen wir zunächst von einem Standardwert aus: einem typischen mittelständischen Unternehmen mit CSRD-Pflicht. Für eine genaue Einschätzung muss dieser Wert an die konkreten Voraussetzungen des jeweiligen Unternehmens angepasst werden.

Bereits hier entstehen Insights jenseits einer Kennzahl

An diesem Punkt wissen wir, ob eine Aufgabe ihrer Natur nach automatisierbar ist, ob aktuelle Modelle die nötigen Fähigkeiten mitbringen und ob die organisationalen Voraussetzungen passen.

Daraus entstehen konkrete Hinweise: Welche Lücken muss das Unternehmen schließen, um KI-Potenziale zu realisieren? Wo stoßen heutige Modelle noch an Grenzen? Welche Aufgaben sind technisch attraktiv, aber praktisch noch schwer umsetzbar?

Eine reine Prozentzahl würde diese Unterschiede verschütten.

Governance — der praktische Unterschied

Ein weiterer Faktor entscheidet in der Praxis oft darüber, ob KI tatsächlich eingesetzt werden kann: angemessene Kontrollen.

Deshalb berücksichtigen wir hier 9 weitere Dimensionen — etwa EU AI Act, ESRS-Audit-Pflichten, DSGVO, IAASB-Anforderungen und professionelle Skepsis.

Das Ergebnis dieser Stufe ist nicht zwingend ein Hard Stop. Häufig zeigt sie vielmehr, welche Kontrollmechanismen an welchen Stellen erforderlich sind — zum Beispiel 4-Augen-Review, Audit-Trail, dokumentierte Quellenbasis oder eine Fundamental Rights Impact Assessment.


Sektion 4Daraus folgt unsere Methodologie

Wir arbeiten in fünf Stufen. Eine Aufgabe ist erst dann sinnvoll KI-tauglich, wenn alle vier Bewertungsstufen sie als geeignet markieren — und wenn Stage 0, also die Operationalisierung, sauber durchgeführt wurde.

Stage 0Setup
Operationalisierung pro Teilaufgabe. Setup-Workshop. Workflow in saubere Teilaufgaben zerlegen — in praktikabler Granularität.
Stage 1Task
Aufgaben-Bewertung (17 TASK-Dimensionen). Ist die Aufgabe ihrer Natur nach automatisierbar?
Stage 2Capab
Modell-Fähigkeit (9 CAPAB-Dimensionen). Können aktuelle Modelle die nötigen Fähigkeiten?
Stage 3Deploy
Organisationale Voraussetzungen (6 Dimensionen). Sind Daten, Tools und Skills im Unternehmen da?
Stage 4Gov
Governance (9 GOV-Dimensionen). Welche Kontrollen sind erforderlich?
Output Empfehlung pro Teilaufgabe + Range im Kontext + Liste erforderlicher Kontrollen
Kernsatz: Eine Aufgabe ist erst dann sinnvoll KI-tauglich, wenn alle vier Bewertungsstufen sie als geeignet markieren — und wenn Stage 0 sauber durchgeführt wurde.

Die 41 Institutionen, die unsere Methodik gestützt haben

Die vollständige Quellenliste findet sich unten.


Das Ergebnis: ein funktionierender Workflow

Am Ende steht nicht nur ein Score, sondern eine belastbare Antwort auf eine der schwierigsten Fragen beim KI-Einsatz:

Wie baue ich einen funktionierenden Workflow im Regelbetrieb?

Die Methodik zeigt, wo Automatisierung sinnvoll ist, wo sie nicht sinnvoll ist, welche Voraussetzungen erfüllt sein müssen und welche Kontrollen erforderlich sind.

Worked Example · DMA
Doppelte Wesentlichkeits­analyse — KI-Potenzial bewertet
Acht Teilaufgaben, vier Bewertungs-Perspektiven, eine Empfehlung pro Schritt. Aggregat: Mittel bis Hoch · 50–65 % Zeitersparnis.
Bewertung ansehen →
Worked Example · THG-Bilanz
THG-Bilanz (Scope 1+2+3) — KI-Potenzial bewertet
Acht Teilaufgaben entlang GHG Protocol. Aggregat: Sehr hoch · 60–85 % Zeitersparnis · Collaborator-Band. Erstes Expert-Level-Verdikt der Methodik bei T3+T4.
Bewertung ansehen →

Quellen — 41 Institutionen in sechs Gruppen

Die Dimensionen wurden aus bestehender Literatur synthetisiert. Eine Dimension wird nur dann in das kanonische Set aufgenommen, wenn sie entweder von mehreren Institutionen genannt wird oder aufgrund ihrer besonderen Erklärungskraft ein starkes Signal für KI-Potenzial bildet.

GruppenTop-Institutionen
Wissenschaft7MIT Brynjolfsson (SML), NBER Eloundou, Harvard HBS (Jagged Frontier), Cambridge ADeLe, Stanford HAI (HELM/FMTI), Oxford Frey & Osborne, Brookings
KI-Labore7Anthropic (Economic Index + Agent Evals + RSP), OpenAI (Model Spec, GDPval), Google DeepMind (Levels of AGI, FSF), METR (Time-Horizon, Messiness), Microsoft Research (Tomlinson), ARC Evals, Epoch AI
Standardisierung6NIST (AI RMF MAP, GenAI Profile), ISO (42001, 23894, 25059), COSO, IAASB (ISSA 5000), IFAC, IIA
Beratung11Bain (Feasibility Factors), BCG (Reshape, Jagged Frontier), McKinsey (MGI 18×4), Deloitte, EY (AAA, 9 RAI), KPMG (10 Pillars), PwC, Accenture, Oliver Wyman, Strategy&, Kearney
Recht5Linklaters (LinksAI Benchmark), Clifford Chance, Allen & Overy, Freshfields, Latham & Watkins
International5OECD (AI Capability Indicators), WEF (Jobs of Tomorrow, AI Governance Alliance), ILO (WP140), RAND (Bioweapons Uplift), UC Berkeley (ABC, BASALT, CHAI)

Tier-Rangliste nach methodischer Strenge:


Quellenverzeichnis — Primärquellen pro Institution

Die folgende Liste nennt die wichtigsten Primärquellen, die in die kanonischen Dimensionen eingeflossen sind — gruppiert nach sechs Institutions-Kategorien und innerhalb jeder Gruppe alphabetisch. Pro Institution sind ein bis drei Schlüsseldokumente verlinkt. Die vollständige Quellensammlung pro Institution liegt im internen Methodik-Register. Sekundärliteratur, Presse-Coverage und Kommentar-Beiträge sind bewusst ausgespart.

Wissenschaft (Akademia) · 7 Institutionen

Brookings (Center for Technology Innovation, Metro)

  • Muro, Whiton, Maxim (2019) — „What Jobs Are Affected by AI?" — Brookings
  • Kinder, de Souza Briggs, Muro, Liu (2023) — „Generative AI, the American Worker, and the Future of Work" — Brookings

Cambridge (CFI, CSER, Judge Business School, ai@cam)

  • Hernandez-Orallo et al. (2026) — „General Scales Unlock AI Evaluation with Explanatory and Predictive Power" — Nature
  • Burden, Voudouris, Tesic, Hernandez-Orallo — „Measurement Layout Framework" — CSER
  • Coyle et al. (2024) — „Determinants of Firms' Decision to Adopt AI" — SSRN

Harvard (HBS, D^3, Berkman Klein, LISH)

  • Dell'Acqua et al. (2026) — „Navigating the Jagged Technological Frontier" — Organization Science
  • Randazzo, Lifshitz-Assaf et al. (2024) — „Cyborgs, Centaurs and Self-Automators" — SSRN

MIT (MIT FutureTech, Sloan, IDE, MIT-IBM Watson AI Lab)

  • Brynjolfsson, Mitchell & Rock (2018) — „What Can Machines Learn, and What Does It Mean for Occupations?" — AEA Papers & Proceedings
  • Svanberg, Li, Fleming, Goehring & Thompson (2024) — „Beyond AI Exposure: Which Tasks Are Cost-Effective to Automate?" — MIT FutureTech
  • Acemoglu (2024) — „The Simple Macroeconomics of AI" — MIT Economics

NBER (Eloundou/Manning/Mishkin/Rock, Felten/Raj/Seamans, Acemoglu/Restrepo)

  • Eloundou, Manning, Mishkin, Rock (2023) — „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models" — arXiv
  • Felten, Raj, Seamans (2021) — „Occupational, Industry, and Geographic Exposure to AI" — SSRN / Strategic Management Journal
  • Brynjolfsson, Li, Raymond (2023) — „Generative AI at Work" — NBER w31161

Oxford (Oxford Martin Programme on Technology and Employment, GovAI)

  • Frey & Osborne (2013/2017) — „The Future of Employment: How Susceptible Are Jobs to Computerisation?" — Oxford Martin
  • Wood, Graham, Lehdonvirta, Hjorth (2019) — „Good Gig, Bad Gig" — Work, Employment and Society

Stanford HAI (CRFM, Digital Economy Lab, HAI Policy)

  • Liang et al. (2022) — „Holistic Evaluation of Language Models (HELM)" — arXiv
  • Bommasani et al. — „Foundation Model Transparency Index (FMTI)" — CRFM Stanford
  • Stanford HAI (2026) — „AI Index Report 2026" — HAI
KI-Labore · 7 Institutionen

Anthropic (Economic Index, Responsible Scaling Policy, Agent Evals)

  • Anthropic (2026) — „Anthropic Economic Index — January 2026 Report" — Anthropic
  • Handa et al. (2025) — „Which Economic Tasks are Performed with AI?" — Anthropic PDF
  • Anthropic (2026) — „Responsible Scaling Policy v3.0" — Anthropic

ARC Evals (Alignment Research Center Evaluations Team, jetzt METR)

  • Kinniment et al. (2023) — „Evaluating Language-Model Agents on Realistic Autonomous Tasks" — arXiv
  • ARC Evals (2023) — „Responsible Scaling Policies" — evals.alignment.org

Epoch AI (Benchmarks, Forecasting, Gradient Updates)

  • Glazer et al. (2024) — „FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI" — arXiv
  • Epoch AI — „GATE: General AI Capability Evaluation" — arXiv
  • Epoch AI — „Most AI Value Will Come From Broad Automation, Not From R&D" — Epoch AI

Google DeepMind (Frontier Safety Framework, Levels of AGI)

  • Morris et al. (2023) — „Levels of AGI: Operationalizing Progress on the Path to AGI" — arXiv
  • Google DeepMind (2026) — „Frontier Safety Framework v3.1" — DeepMind PDF
  • Weidinger et al. (2023) — „Sociotechnical Safety Evaluation of Generative AI Systems" — arXiv

METR (Model Evaluation & Threat Research)

  • METR (2025) — „Measuring AI Ability to Complete Long Tasks" — arXiv
  • METR (2025) — „HCAST: Human-Calibrated Autonomy Software Tasks" — arXiv
  • METR — „Autonomy Evaluation Resources" — METR

Microsoft Research (Working with AI, New Future of Work, RAI Standard)

  • Tomlinson et al. (2025) — „Working with AI: Measuring the Occupational Implications of Generative AI" — arXiv
  • Microsoft Research (2025) — „New Future of Work Report 2025" — Microsoft Research
  • Microsoft (2022) — „Responsible AI Impact Assessment Template" — Microsoft Blog PDF

OpenAI (Model Spec, GDPval, Preparedness Framework)

  • Eloundou et al. (2023) — „GPTs are GPTs" — arXiv
  • OpenAI (2025) — „GDPval: Measuring AI on Real-World Economically Valuable Tasks" — arXiv
  • OpenAI (2025) — „Model Spec (2025-12-18)" — model-spec.openai.com
Standardisierung · 6 Institutionen

COSO (Committee of Sponsoring Organizations of the Treadway Commission)

  • COSO (2026) — „Achieving Effective Internal Control Over Generative AI" — COSO
  • COSO / Deloitte (2021) — „Realize the Full Potential of AI: Applying the COSO ERM Framework" — Deloitte

IAASB (International Auditing and Assurance Standards Board)

  • IAASB (2024) — „International Standard on Sustainability Assurance 5000 (ISSA 5000)" — IAASB
  • IAASB (2024) — „Technology Position Statement — 8 Guiding Actions" — IAASB
  • IAASB (2025) — „Technology Catalog of Issues v2" — IFAC PDF

IFAC (International Federation of Accountants)

  • IFAC / IAASB (2025) — „ISSA 5000 Implementation Guide" — IFAC PDF
  • IFAC — „Artificial Intelligence & Accounting (Knowledge Gateway)" — IFAC

IIA (Institute of Internal Auditors)

  • IIA (2024) — „AI Auditing Framework (September 2024 Update)"
  • IIA (2024) — „Global Internal Audit Standards 2024" — IIA

ISO (International Organization for Standardization, JTC1/SC42)

  • ISO/IEC 42001:2023 — „Information Technology — AI Management System" — ISO
  • ISO/IEC 23894:2023 — „Information Technology — AI — Guidance on Risk Management" — ISO
  • ISO/IEC 25059:2023 — „Quality Model for AI Systems" — ITeh Sample PDF

NIST (National Institute of Standards and Technology, AISI/CAISI)

  • NIST (2023) — „AI Risk Management Framework 1.0" — NIST PDF
  • NIST (2024) — „AI 600-1: Generative AI Profile" — NIST PDF
  • NIST (2021) — „NISTIR 8312: Four Principles of Explainable AI" — NIST PDF
Beratung · 11 Institutionen

Accenture (Technology Vision, Responsible AI, Wharton-Accenture)

  • Accenture (2023) — „Work, Workforce, Workers: Reinvented in the Age of Generative AI" — Accenture
  • Accenture (2025) — „Technology Vision 2025" — Accenture PDF
  • Accenture — „Responsible AI: From Compliance to Confidence" — Accenture PDF

Bain & Company (Technology Report, Feasibility Factors, Agentic AI)

  • Bain (2025) — „The $100 Billion SaaS Opportunity Hiding in Cross-System Labor" (6 Feasibility Factors) — Bain
  • Bain (2025) — „Will Agentic AI Disrupt SaaS? Technology Report 2025" — Bain
  • Bain (2025) — „State of the Art of Agentic AI Transformation" — Bain

BCG (Reshape, Jagged Frontier, AI at Work)

  • BCG (2026) — „AI Will Reshape More Jobs Than It Replaces" — BCG
  • Dell'Acqua et al. (2023) — „Navigating the Jagged Technological Frontier" (BCG × HBS) — SSRN
  • BCG (2025) — „AI at Work 2025: Momentum Builds, but Gaps Remain" — BCG

Deloitte (MGI Generative AI for Work Tasks, Trustworthy AI)

  • Deloitte Insights — „Generative AI for Government Work Tasks" (1–10 Index) — Deloitte
  • Deloitte — „Trustworthy AI Governance in Practice" — Deloitte
  • Deloitte (2026) — „State of AI in the Enterprise 2026" — Deloitte

EY (AAA Framework, Responsible AI Principles, Confidence Index)

  • EY (2024) — „Responsible AI Principles" — EY PDF
  • EY — „Redesigning Work Around Human Skills in the Age of AI (AAA Framework)" — EY
  • EY — „EY.ai Confidence Index" — EY

Kearney (AI Catalyst, GenAI Roles, Procurement)

  • Kearney — „Putting Generative AI to Work" — Kearney
  • Kearney — „Are You AI Ready?"
  • Kearney — „AI Catalyst" — Kearney

KPMG (Trusted AI, 10 Pillars, Risk & Controls)

  • KPMG — „Trusted AI Framework" — KPMG Global
  • KPMG Australia (2025) — „Deploying Trustworthy AI: An Illustrative Risk and Controls Guide" — KPMG PDF
  • KPMG — „AI Governance Principles for Boards" — KPMG

McKinsey (MGI 18×4 Capabilities, Superagency, Agentic AI)

  • McKinsey Global Institute (2017) — „A Future That Works: Automation, Employment, and Productivity" (18 Capabilities × 0–3 Rubrik) — MGI PDF
  • McKinsey Global Institute (2023) — „The Economic Potential of Generative AI" — McKinsey
  • McKinsey (2025) — „Seizing the Agentic AI Advantage" — McKinsey PDF

Oliver Wyman (Discovery vs Trust Tasks, AI Agents Banking)

  • Oliver Wyman (2025) — „4 Phases to Smarter AI Integration" (Discovery vs Trust Tasks) — Oliver Wyman
  • Oliver Wyman (2023) — „Navigating the AI Revolution" — Oliver Wyman
  • Oliver Wyman (2026) — „AI Agents in Banking: Reshaping Roles, Skills and Leadership" — Oliver Wyman

PwC (AI Jobs Barometer, Responsible AI, Sizing the Prize)

  • PwC (2025) — „Global AI Jobs Barometer 2025" — PwC PDF
  • PwC (2025) — „AI Jobs Barometer — Methodology Appendix" — PwC PDF
  • PwC — „Sizing the Prize" — PwC PDF

Strategy& (Automating for Growth, Capabilities-Driven Strategy)

  • Strategy& — „Automating for Growth" — Strategy&
  • Strategy& — „Small Automation, Big Benefits" — Strategy&
  • Strategy& — „Capabilities-Driven Strategy" — Strategy&
Recht · 5 Institutionen

Allen & Overy (A&O Shearman, Harvey, ContractMatrix)

  • A&O Shearman — „AI Classifier" — A&O Shearman
  • A&O Shearman — „ContractMatrix Analyze: AI that Understands Your Commercial Positions" — A&O Shearman
  • A&O Shearman — „Zooming in on AI 8: Balancing Innovation and Compliance" — A&O Shearman

Clifford Chance (AI Principles, EU AI Act Hub, LUCY)

Freshfields (EU AI Act Coverage, Board-Level Imperative, Anthropic Partnership)

  • Freshfields — „Artificial Intelligence Act" — Freshfields
  • Freshfields (2026) — „AI Now a Board-Level Imperative for Public Companies and Investors" — Freshfields
  • Freshfields (2026) — „Data Law Trends 2026" — Freshfields PDF

Latham & Watkins (WEF AI Toolkit, EU AI Act Deployer Obligations)

  • Latham & Watkins / WEF (2020) — „Empowering AI Leadership — Oversight Toolkit (Board Version)" — WEF PDF
  • Latham & Watkins — „EU AI Act: Obligations for Deployers of High-Risk AI Systems" — Latham
  • Latham & Watkins — „AI and ESG: How Companies Are Thinking About AI Board Governance" — Latham

Linklaters (LinksAI Benchmark, AI Governance & Quality Assurance)

  • Linklaters (2025) — „LinksAI English Law Benchmark v2" — Linklaters DigiLinks
  • Linklaters (2023) — „LinksAI English Law Benchmark v1" — Linklaters DigiLinks
  • Linklaters (2025) — „AI Governance and Quality Assurance: Lessons from Linklaters and the Audit Sector" — Linklaters DigiLinks
International · 5 Institutionen

ILO (International Labour Organization, NASK Collaboration)

  • Gmyrek, Berg, Bescond (2023) — „Generative AI and Jobs: A Global Analysis of Potential Effects on Job Quantity and Quality" (WP96) — ILO PDF
  • Gmyrek et al. / ILO × NASK (2025) — „Generative AI and Jobs: Refined Global Index" (WP140) — ILO PDF
  • Gmyrek (2025) — „Task-Score Browser (ISCO-08 Dataset)" — GitHub Pages

OECD (AI Capability Indicators, AI and the Future of Skills)

  • OECD (2025) — „Introducing the OECD AI Capability Indicators" — OECD
  • OECD — „AI Capability Indicators — Interactive Tool" — OECD
  • Lassebie & Quintini (2022) — „What Skills and Abilities Can Automation Technologies Replicate and What Does It Mean for Workers?" (OECD WP No. 282) — OECD PDF

RAND (CAST, AI-Biosecurity, Capabilities-Based Planning)

  • Mouton, Lucas, Guest (2023/2024) — „The Operational Risks of AI in Large-Scale Biological Attacks" — RAND
  • RAND Europe / CLTR (2025) — „Global Risk Index for AI-enabled Biological Tools" — CLTR PDF
  • RAND (2026) — „Tipping the Cyber Balance: How AI Benchmarks Could Make a Difference" — RAND

UC Berkeley (BAIR, CHAI, Haas, Kang Lab)

  • Zhu et al. (2025) — „Establishing Best Practices for Building Rigorous Agentic Benchmarks (ABC)" — arXiv
  • BAIR (2021) — „BASALT: A Benchmark for Learning from Human Feedback" — BAIR Blog

WEF (Future of Jobs, Jobs of Tomorrow, AI Governance Alliance)

  • WEF / Accenture (2023) — „Jobs of Tomorrow: Large Language Models and Jobs" — WEF PDF
  • WEF (2025) — „Future of Jobs Report 2025" — WEF PDF
  • WEF (2024) — „AI Governance Alliance Briefing Paper Series" — WEF

Vollständige Bewertungsmatrix und Dimensionsdefinitionen: im Mandat einsehbar.

Footer-Note: Die Methodik wird laufend weiterentwickelt. CAPAB-Dimensionen werden quartalsweise gegen neue Modellgenerationen rekalibriert. TASK-, DEPLOY- und GOV-Dimensionen werden anlassbezogen aktualisiert — zuletzt im Kontext der Revised ESRS, des EU AI Act und neuer Evaluationsansätze für Frontier-Modelle.

Workflow individuell bewerten lassen

Eine Methodik ist nur so gut wie ihre Anwendung. Für eine konkrete Bewertung Ihrer Workflows — pro Teilaufgabe, mit sauberer Operationalisierung — sprechen wir.

Kontakt aufnehmen