Methodik · KI-Potenzial im Nachhaltigkeitsmanagement

Wir haben diese Ansätze systematisch ausgewertet und daraus ein eigenes Vorgehen für Nachhaltigkeitsarbeit entwickelt: speziell für Workflows wie Doppelte Wesentlichkeitsanalyse, THG-Bilanz, CSRD-Berichterstattung oder Lieferketten-Sorgfalt.

Sektion 1Bestehende Ansätze im Überblick

Es gibt verschiedene Wege, sich der Frage nach dem Automatisierungspotenzial von Arbeit zu nähern.

Eloundou et al. (OpenAI/NBER, 2023) zerlegen Berufe in viele kleine Tätigkeiten. Der Beruf „Tax Preparer" enthält zum Beispiel Tätigkeiten wie „Compute taxes owed by following tax code." Für jede Tätigkeit wird gefragt: Könnte KI diese Aufgabe bei gleicher Qualität mindestens doppelt so schnell erledigen? Diese Einschätzung erfolgt teils durch Expertinnen und Experten, teils durch GPT-4 selbst, und wird anschließend auf Berufsebene aggregiert.

Webb (Stanford, 2019/2020) geht anders vor. Er analysiert neu erschienene KI-Patente — etwa „Automated visual inspection of welds" — und legt sie über Job-Beschreibungen. Wenn eine Tätigkeit aus einem KI-Patent in einer Job-Beschreibung vorkommt, gilt das als Indiz für Automatisierungspotenzial. Die Logik: Jemand hat bereits investiert, um genau diese Tätigkeit automatisierbar zu machen.

Felten, Raj, Seamans (NBER, 2018–2024) starten bei den Fähigkeiten der KI — etwa „Image Recognition", „Translation" oder „Language Modeling" — und vergleichen diese mit Tätigkeitsanforderungen aus der O*NET-Datenbank, der US-Job-Datenbank mit über 800 Berufen und ihren Einzeltätigkeiten. Wenn eine KI-Fähigkeit mit einer Tätigkeitsanforderung übereinstimmt, gilt diese Tätigkeit als KI-exposed. Je mehr Übereinstimmungen, desto höher die Exposure.

McKinsey (MGI, 2017 / GenAI-Update 2023) kombiniert beide Richtungen. Rund 800 Berufe werden in etwa 2.000 Work Activities zerlegt und gegen 18 Fähigkeiten bewertet — darunter Sensorik, Logik, natürliche Sprache, sozial-emotionale Fähigkeiten und physische Fähigkeiten. Jede Fähigkeit wird auf vier Performance-Leveln bewertet: 0 = nicht erforderlich, 3 = Top-Quartil menschlicher Leistung. Eine Activity gilt als technisch automatisierbar, wenn aktuelle Technologie auf allen erforderlichen Fähigkeiten das nötige Level erreicht. Im GenAI-Update 2023 kommt McKinsey zu dem Ergebnis, dass bis zu 70 % der Arbeitsstunden technisch automatisierbar sein könnten.

Charakteristika der Aufgabe selbst

Eine andere Denkschule fragt nicht zuerst nach Berufen oder KI-Fähigkeiten, sondern nach den Eigenschaften der Aufgabe selbst: Gibt es bestimmte Aufgabenmerkmale, die Automatisierung besonders begünstigen?

Einen frühen systematischen Ansatz lieferten Brynjolfsson, Mitchell und Rock am MIT mit ihrer „Suitability for Machine Learning"-Rubrik. Sie formulierten acht Kriterien, darunter klar definierte Inputs und Outputs sowie verfügbare Trainingsdaten. Besonders prägend wurde der Gedanke der Strukturiertheit: Je klarer und strukturierter eine Aufgabe, desto eher kann KI sie übernehmen.

Diesen Ansatz führen BCG und Bain weiter. BCG nennt fünf Kriterien, darunter „keine signifikante physische Präsenz" und „regelbasiert nachvollziehbares Ergebnis". Bain erweitert dies um sechs „Agentic Automation Feasibility Factors", darunter Output-Verifizierbarkeit — also die Frage, ob ein Ergebnis günstig geprüft werden kann — und Integration & Orchestrierung, also die Frage, wie viele Systeme KI miteinander verbinden muss. Damit betrachtet Bain nicht nur die Aufgabe selbst, sondern auch Aspekte der praktischen Umsetzung: Ein KI-System muss eine Aufgabe nicht nur theoretisch lösen können, sondern sie auch in der realen Tool-Landschaft eines Unternehmens zuverlässig bewältigen.

Diesen Ansatz führen wir weiter und passen ihn auf Nachhaltigkeitsmanagement an. Er eignet sich besonders gut, weil er auf beliebige Aufgaben angewendet werden kann — und damit hilft, unterschiedliche Workflows im Nachhaltigkeitsmanagement systematisch zu bewerten.

Sektion 2Eine vollständigere Bewertungsbasis

BCGs fünf Kriterien und Bains sechs Feasibility Factors bilden einen starken Kern. Für Sustainability-Arbeit erweitern wir ihn um weitere gleichberechtigte Dimensionen — auf Basis einer intensiven Recherche über 41 Institutionen aus Wissenschaft, KI-Laboren, Standardsetzung, Beratung, Recht und internationalen Organisationen.

Daraus sind 17 Aufgaben-Eigenschaften entstanden, jeweils mit klarer Quellenkette in der Forschung.

Zu den erweiterten Dimensionen gehören unter anderem:

Atypizität. Hat das Modell vergleichbares Material bereits gesehen? Eine Bewertung in einem etablierten Sektor mit ausgereiften Reporting-Mustern hat eine niedrige Atypizität: Die Trainingsdaten enthalten wahrscheinlich verwandte Beispiele. Eine Bewertung unter frisch erlassener Regulatorik — etwa den Revised ESRS vom Mai 2026 oder in der CSDDD-Implementierungsphase — hat dagegen eine hohe Atypizität, weil das Material erst entsteht und im Training kaum vorhanden ist. Quellen: Cambridge ADeLe, MIT Brynjolfsson SML, METR Time-Horizon-Studien, NBER, OECD AI Capability Indicators.

Kognitive Last. Wie viele Denkschritte sind nötig, bis eine belastbare Antwort entsteht? Eine Emissionsfaktor-Zuordnung ist meist ein einzelner Schritt. Eine integrierte Risiko- und Chancenbewertung über mehrere Wertschöpfungsstufen hinweg erfordert dagegen viele verschachtelte Schritte. Aktuelle Frontier-Modelle verlieren typischerweise nach mehreren verketteten Reasoning-Schritten an Verlässlichkeit. Quellen: Cambridge ADeLe, METR Time-Horizon, MIT SML, OECD AI Capability Indicators, Stanford HAI.

Wissenstiefe. Wie viel Fachwissen ist nötig? Ein Topic-Screening braucht ESRS-Grundkenntnisse — gut abgedeckt durch öffentliche Dokumentation und Guidance. Eine Schwellenwert-Definition braucht zusätzlich Branchenerfahrung, Assurance-Perspektive und Audit-Standards — und ist damit deutlich schwerer aus öffentlichen Quellen zu rekonstruieren. Quellen: Cambridge ADeLe, OECD AI Capability Indicators, MIT, Stanford HAI.

Insgesamt umfasst die Methodik 17 TASK-Dimensionen.

Zusammenfassung

Wie Eloundou et al. zerlegen wir Workflows — etwa eine Doppelte Wesentlichkeitsanalyse — in einzelne Aufgaben. Wir wählen dabei jedoch eine praktikable Granularität: fein genug, um Unterschiede sichtbar zu machen, aber nicht so fein, dass die Bewertung unhandlich wird.

Anschließend bewerten wir jede Aufgabe anhand der aus Forschung und Anwendung synthetisierten Dimensionen. So lässt sich das Automatisierungspotenzial konkret einordnen. Pro Workflow entsteht ein aggregiertes Bild.

Das Ergebnis ist keine pauschale Prozent-Angabe, sondern ein differenzierter Blick: In welchen Teilschritten lohnt sich KI? Welche Aufgabenmerkmale begünstigen Automatisierung? Welche verhindern sie? Damit lassen sich Workflows bewusst so gestalten, dass Mensch und Maschine sinnvoll zusammenspielen — und das Risiko sinkt, in isolierten Piloten steckenzubleiben.

Sektion 3Kriterien, die entscheiden, ob das Potenzial realisiert wird

Selbst wenn eine Aufgabe ihrer Natur nach automatisierbar ist, bestimmen drei weitere Kriterien-Familien, ob Automatisierung in der Praxis funktioniert:

die Fähigkeiten aktueller Modelle,
die Voraussetzungen innerhalb der Organisation, in der KI eingesetzt werden soll,
die Governance-Anforderungen.

Fähigkeiten der Modelle

Wenn aktuelle Modelle nicht über die Fähigkeiten verfügen, die eine Aufgabe erfordert, werden die Ergebnisse unzuverlässig. Diese Fähigkeiten entwickeln sich kontinuierlich weiter. Deshalb aktualisieren wir diese Dimension vierteljährlich. Was heute noch an Grenzen stößt, kann in einem Jahr bereits deutlich robuster funktionieren.

Wir nutzen 9 Kriterien für die Modell-Fähigkeit. Die verständlichsten Beispiele:

Metakognition — weiß das Modell, was es nicht weiß? Aktuelle Frontier-Modelle sind hier noch begrenzt. Für audit-relevante Aussagen ist dies oft eine der wichtigsten Limitationen.
Kontextverarbeitung — wie viel Material kann das Modell auf einmal lesen, korrekt behalten und am Ende sauber referenzieren? Das ist zentral für lange Dokumente wie CSRD-Berichte.
Quantitatives Reasoning — kann das Modell zuverlässig rechnen und Zahlen interpretieren? Für THG-Berechnungen ist dies entscheidend.

Voraussetzungen in der Organisation

Darüber hinaus spielen die Voraussetzungen im Unternehmen eine entscheidende Rolle. Liegen digitale Daten vor? Wie hoch ist die Domänenkompetenz im Team? Welche Tools sind verfügbar? Wie gut sind Daten, Systeme und Verantwortlichkeiten miteinander verbunden?

Diese Ebene bewerten wir mit 6 Dimensionen.

Das entspricht auch der Logik von Bain und dem Cambridge Bennett Institute: Technisch automatisierbar bedeutet nicht automatisch praktisch nutzbar. Coyles UK-Studie zeigt, dass nur ein kleiner Teil der Unternehmen KI tatsächlich in messbare Produktivität übersetzt — nicht primär wegen der Aufgaben selbst, sondern wegen organisationaler Reibungen.

In unserer Methodik gehen wir zunächst von einem Standardwert aus: einem typischen mittelständischen Unternehmen mit CSRD-Pflicht. Für eine genaue Einschätzung muss dieser Wert an die konkreten Voraussetzungen des jeweiligen Unternehmens angepasst werden.

Bereits hier entstehen Insights jenseits einer Kennzahl

An diesem Punkt wissen wir, ob eine Aufgabe ihrer Natur nach automatisierbar ist, ob aktuelle Modelle die nötigen Fähigkeiten mitbringen und ob die organisationalen Voraussetzungen passen.

Daraus entstehen konkrete Hinweise: Welche Lücken muss das Unternehmen schließen, um KI-Potenziale zu realisieren? Wo stoßen heutige Modelle noch an Grenzen? Welche Aufgaben sind technisch attraktiv, aber praktisch noch schwer umsetzbar?

Eine reine Prozentzahl würde diese Unterschiede verschütten.

Governance — der praktische Unterschied

Ein weiterer Faktor entscheidet in der Praxis oft darüber, ob KI tatsächlich eingesetzt werden kann: angemessene Kontrollen.

Ist der Einsatz ethisch vertretbar?
Müssen die Ergebnisse einem Audit standhalten?
Bestehen Reputationsrisiken?
Sind Datenschutz, Nachvollziehbarkeit und Verantwortlichkeiten geklärt?

Deshalb berücksichtigen wir hier 9 weitere Dimensionen — etwa EU AI Act, ESRS-Audit-Pflichten, DSGVO, IAASB-Anforderungen und professionelle Skepsis.

Das Ergebnis dieser Stufe ist nicht zwingend ein Hard Stop. Häufig zeigt sie vielmehr, welche Kontrollmechanismen an welchen Stellen erforderlich sind — zum Beispiel 4-Augen-Review, Audit-Trail, dokumentierte Quellenbasis oder eine Fundamental Rights Impact Assessment.

Sektion 4Daraus folgt unsere Methodologie

Wir arbeiten in fünf Stufen. Eine Aufgabe ist erst dann sinnvoll KI-tauglich, wenn alle vier Bewertungsstufen sie als geeignet markieren — und wenn Stage 0, also die Operationalisierung, sauber durchgeführt wurde.

Stage 0Setup

Operationalisierung pro Teilaufgabe. Setup-Workshop. Workflow in saubere Teilaufgaben zerlegen — in praktikabler Granularität.

Stage 1Task

Aufgaben-Bewertung (17 TASK-Dimensionen). Ist die Aufgabe ihrer Natur nach automatisierbar?

Stage 2Capab

Modell-Fähigkeit (9 CAPAB-Dimensionen). Können aktuelle Modelle die nötigen Fähigkeiten?

Stage 3Deploy

Organisationale Voraussetzungen (6 Dimensionen). Sind Daten, Tools und Skills im Unternehmen da?

Stage 4Gov

Governance (9 GOV-Dimensionen). Welche Kontrollen sind erforderlich?

▼

Output Empfehlung pro Teilaufgabe + Range im Kontext + Liste erforderlicher Kontrollen

Kernsatz: Eine Aufgabe ist erst dann sinnvoll KI-tauglich, wenn alle vier Bewertungsstufen sie als geeignet markieren — und wenn Stage 0 sauber durchgeführt wurde.

Die 41 Institutionen, die unsere Methodik gestützt haben

Wissenschaft (7): u. a. MIT Brynjolfsson, NBER Eloundou
KI-Labore (7): u. a. Anthropic, METR
Standardisierung (6): u. a. NIST, IAASB
Beratung (11): u. a. Bain, BCG
Recht (5): u. a. Linklaters, Clifford Chance
International (5): u. a. OECD, ILO

Die vollständige Quellenliste findet sich unten.

Das Ergebnis: ein funktionierender Workflow

Am Ende steht nicht nur ein Score, sondern eine belastbare Antwort auf eine der schwierigsten Fragen beim KI-Einsatz:

Wie baue ich einen funktionierenden Workflow im Regelbetrieb?

Die Methodik zeigt, wo Automatisierung sinnvoll ist, wo sie nicht sinnvoll ist, welche Voraussetzungen erfüllt sein müssen und welche Kontrollen erforderlich sind.

Worked Example · DMA

Doppelte Wesentlichkeitsanalyse — KI-Potenzial bewertet

Acht Teilaufgaben, vier Bewertungs-Perspektiven, eine Empfehlung pro Schritt. Aggregat: Mittel bis Hoch · 50–65 % Zeitersparnis.

Bewertung ansehen →

Worked Example · THG-Bilanz

THG-Bilanz (Scope 1+2+3) — KI-Potenzial bewertet

Acht Teilaufgaben entlang GHG Protocol. Aggregat: Sehr hoch · 60–85 % Zeitersparnis · Collaborator-Band. Erstes Expert-Level-Verdikt der Methodik bei T3+T4.

Bewertung ansehen →

Quellen — 41 Institutionen in sechs Gruppen

Die Dimensionen wurden aus bestehender Literatur synthetisiert. Eine Dimension wird nur dann in das kanonische Set aufgenommen, wenn sie entweder von mehreren Institutionen genannt wird oder aufgrund ihrer besonderen Erklärungskraft ein starkes Signal für KI-Potenzial bildet.

Gruppe	n	Top-Institutionen
Wissenschaft	7	MIT Brynjolfsson (SML), NBER Eloundou, Harvard HBS (Jagged Frontier), Cambridge ADeLe, Stanford HAI (HELM/FMTI), Oxford Frey & Osborne, Brookings
KI-Labore	7	Anthropic (Economic Index + Agent Evals + RSP), OpenAI (Model Spec, GDPval), Google DeepMind (Levels of AGI, FSF), METR (Time-Horizon, Messiness), Microsoft Research (Tomlinson), ARC Evals, Epoch AI
Standardisierung	6	NIST (AI RMF MAP, GenAI Profile), ISO (42001, 23894, 25059), COSO, IAASB (ISSA 5000), IFAC, IIA
Beratung	11	Bain (Feasibility Factors), BCG (Reshape, Jagged Frontier), McKinsey (MGI 18×4), Deloitte, EY (AAA, 9 RAI), KPMG (10 Pillars), PwC, Accenture, Oliver Wyman, Strategy&, Kearney
Recht	5	Linklaters (LinksAI Benchmark), Clifford Chance, Allen & Overy, Freshfields, Latham & Watkins
International	5	OECD (AI Capability Indicators), WEF (Jobs of Tomorrow, AI Governance Alliance), ILO (WP140), RAND (Bioweapons Uplift), UC Berkeley (ABC, BASALT, CHAI)

Tier-Rangliste nach methodischer Strenge:

Tier 1: sieben Institutionen — METR, Cambridge, OECD, MIT, NBER, Harvard, Stanford HAI.
Tier 2: zehn Institutionen — Anthropic, Bain, BCG, DeepMind, ILO, Linklaters, McKinsey, Microsoft Research, OpenAI, WEF.
Tier 3: 24 Institutionen — vor allem Governance- und Praxis-Frameworks.

Quellenverzeichnis — Primärquellen pro Institution

Die folgende Liste nennt die wichtigsten Primärquellen, die in die kanonischen Dimensionen eingeflossen sind — gruppiert nach sechs Institutions-Kategorien und innerhalb jeder Gruppe alphabetisch. Pro Institution sind ein bis drei Schlüsseldokumente verlinkt. Die vollständige Quellensammlung pro Institution liegt im internen Methodik-Register. Sekundärliteratur, Presse-Coverage und Kommentar-Beiträge sind bewusst ausgespart.

Wissenschaft (Akademia) · 7 Institutionen

Brookings (Center for Technology Innovation, Metro)

Muro, Whiton, Maxim (2019) — „What Jobs Are Affected by AI?" — Brookings
Kinder, de Souza Briggs, Muro, Liu (2023) — „Generative AI, the American Worker, and the Future of Work" — Brookings

Cambridge (CFI, CSER, Judge Business School, ai@cam)

Hernandez-Orallo et al. (2026) — „General Scales Unlock AI Evaluation with Explanatory and Predictive Power" — Nature
Burden, Voudouris, Tesic, Hernandez-Orallo — „Measurement Layout Framework" — CSER
Coyle et al. (2024) — „Determinants of Firms' Decision to Adopt AI" — SSRN

Harvard (HBS, D^3, Berkman Klein, LISH)

Dell'Acqua et al. (2026) — „Navigating the Jagged Technological Frontier" — Organization Science
Randazzo, Lifshitz-Assaf et al. (2024) — „Cyborgs, Centaurs and Self-Automators" — SSRN

MIT (MIT FutureTech, Sloan, IDE, MIT-IBM Watson AI Lab)

Brynjolfsson, Mitchell & Rock (2018) — „What Can Machines Learn, and What Does It Mean for Occupations?" — AEA Papers & Proceedings
Svanberg, Li, Fleming, Goehring & Thompson (2024) — „Beyond AI Exposure: Which Tasks Are Cost-Effective to Automate?" — MIT FutureTech
Acemoglu (2024) — „The Simple Macroeconomics of AI" — MIT Economics

NBER (Eloundou/Manning/Mishkin/Rock, Felten/Raj/Seamans, Acemoglu/Restrepo)

Eloundou, Manning, Mishkin, Rock (2023) — „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models" — arXiv
Felten, Raj, Seamans (2021) — „Occupational, Industry, and Geographic Exposure to AI" — SSRN / Strategic Management Journal
Brynjolfsson, Li, Raymond (2023) — „Generative AI at Work" — NBER w31161

Oxford (Oxford Martin Programme on Technology and Employment, GovAI)

Frey & Osborne (2013/2017) — „The Future of Employment: How Susceptible Are Jobs to Computerisation?" — Oxford Martin
Wood, Graham, Lehdonvirta, Hjorth (2019) — „Good Gig, Bad Gig" — Work, Employment and Society

Stanford HAI (CRFM, Digital Economy Lab, HAI Policy)

Liang et al. (2022) — „Holistic Evaluation of Language Models (HELM)" — arXiv
Bommasani et al. — „Foundation Model Transparency Index (FMTI)" — CRFM Stanford
Stanford HAI (2026) — „AI Index Report 2026" — HAI

KI-Labore · 7 Institutionen

Anthropic (Economic Index, Responsible Scaling Policy, Agent Evals)

Anthropic (2026) — „Anthropic Economic Index — January 2026 Report" — Anthropic
Handa et al. (2025) — „Which Economic Tasks are Performed with AI?" — Anthropic PDF
Anthropic (2026) — „Responsible Scaling Policy v3.0" — Anthropic

ARC Evals (Alignment Research Center Evaluations Team, jetzt METR)

Kinniment et al. (2023) — „Evaluating Language-Model Agents on Realistic Autonomous Tasks" — arXiv
ARC Evals (2023) — „Responsible Scaling Policies" — evals.alignment.org

Epoch AI (Benchmarks, Forecasting, Gradient Updates)

Glazer et al. (2024) — „FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI" — arXiv
Epoch AI — „GATE: General AI Capability Evaluation" — arXiv
Epoch AI — „Most AI Value Will Come From Broad Automation, Not From R&D" — Epoch AI

Google DeepMind (Frontier Safety Framework, Levels of AGI)

Morris et al. (2023) — „Levels of AGI: Operationalizing Progress on the Path to AGI" — arXiv
Google DeepMind (2026) — „Frontier Safety Framework v3.1" — DeepMind PDF
Weidinger et al. (2023) — „Sociotechnical Safety Evaluation of Generative AI Systems" — arXiv

METR (Model Evaluation & Threat Research)

METR (2025) — „Measuring AI Ability to Complete Long Tasks" — arXiv
METR (2025) — „HCAST: Human-Calibrated Autonomy Software Tasks" — arXiv
METR — „Autonomy Evaluation Resources" — METR

Microsoft Research (Working with AI, New Future of Work, RAI Standard)

Tomlinson et al. (2025) — „Working with AI: Measuring the Occupational Implications of Generative AI" — arXiv
Microsoft Research (2025) — „New Future of Work Report 2025" — Microsoft Research
Microsoft (2022) — „Responsible AI Impact Assessment Template" — Microsoft Blog PDF

OpenAI (Model Spec, GDPval, Preparedness Framework)

Eloundou et al. (2023) — „GPTs are GPTs" — arXiv
OpenAI (2025) — „GDPval: Measuring AI on Real-World Economically Valuable Tasks" — arXiv
OpenAI (2025) — „Model Spec (2025-12-18)" — model-spec.openai.com

Standardisierung · 6 Institutionen

COSO (Committee of Sponsoring Organizations of the Treadway Commission)

COSO (2026) — „Achieving Effective Internal Control Over Generative AI" — COSO
COSO / Deloitte (2021) — „Realize the Full Potential of AI: Applying the COSO ERM Framework" — Deloitte

IAASB (International Auditing and Assurance Standards Board)

IAASB (2024) — „International Standard on Sustainability Assurance 5000 (ISSA 5000)" — IAASB
IAASB (2024) — „Technology Position Statement — 8 Guiding Actions" — IAASB
IAASB (2025) — „Technology Catalog of Issues v2" — IFAC PDF

IFAC (International Federation of Accountants)

IFAC / IAASB (2025) — „ISSA 5000 Implementation Guide" — IFAC PDF
IFAC — „Artificial Intelligence & Accounting (Knowledge Gateway)" — IFAC

IIA (Institute of Internal Auditors)

IIA (2024) — „AI Auditing Framework (September 2024 Update)"
IIA (2024) — „Global Internal Audit Standards 2024" — IIA

ISO (International Organization for Standardization, JTC1/SC42)

ISO/IEC 42001:2023 — „Information Technology — AI Management System" — ISO
ISO/IEC 23894:2023 — „Information Technology — AI — Guidance on Risk Management" — ISO
ISO/IEC 25059:2023 — „Quality Model for AI Systems" — ITeh Sample PDF

NIST (National Institute of Standards and Technology, AISI/CAISI)

NIST (2023) — „AI Risk Management Framework 1.0" — NIST PDF
NIST (2024) — „AI 600-1: Generative AI Profile" — NIST PDF
NIST (2021) — „NISTIR 8312: Four Principles of Explainable AI" — NIST PDF

Beratung · 11 Institutionen

Accenture (Technology Vision, Responsible AI, Wharton-Accenture)

Accenture (2023) — „Work, Workforce, Workers: Reinvented in the Age of Generative AI" — Accenture
Accenture (2025) — „Technology Vision 2025" — Accenture PDF
Accenture — „Responsible AI: From Compliance to Confidence" — Accenture PDF

Bain & Company (Technology Report, Feasibility Factors, Agentic AI)

Bain (2025) — „The $100 Billion SaaS Opportunity Hiding in Cross-System Labor" (6 Feasibility Factors) — Bain
Bain (2025) — „Will Agentic AI Disrupt SaaS? Technology Report 2025" — Bain
Bain (2025) — „State of the Art of Agentic AI Transformation" — Bain

BCG (Reshape, Jagged Frontier, AI at Work)

BCG (2026) — „AI Will Reshape More Jobs Than It Replaces" — BCG
Dell'Acqua et al. (2023) — „Navigating the Jagged Technological Frontier" (BCG × HBS) — SSRN
BCG (2025) — „AI at Work 2025: Momentum Builds, but Gaps Remain" — BCG

Deloitte (MGI Generative AI for Work Tasks, Trustworthy AI)

Deloitte Insights — „Generative AI for Government Work Tasks" (1–10 Index) — Deloitte
Deloitte — „Trustworthy AI Governance in Practice" — Deloitte
Deloitte (2026) — „State of AI in the Enterprise 2026" — Deloitte

EY (AAA Framework, Responsible AI Principles, Confidence Index)

EY (2024) — „Responsible AI Principles" — EY PDF
EY — „Redesigning Work Around Human Skills in the Age of AI (AAA Framework)" — EY
EY — „EY.ai Confidence Index" — EY

Kearney (AI Catalyst, GenAI Roles, Procurement)

Kearney — „Putting Generative AI to Work" — Kearney
Kearney — „Are You AI Ready?"
Kearney — „AI Catalyst" — Kearney

KPMG (Trusted AI, 10 Pillars, Risk & Controls)

KPMG — „Trusted AI Framework" — KPMG Global
KPMG Australia (2025) — „Deploying Trustworthy AI: An Illustrative Risk and Controls Guide" — KPMG PDF
KPMG — „AI Governance Principles for Boards" — KPMG

McKinsey (MGI 18×4 Capabilities, Superagency, Agentic AI)

McKinsey Global Institute (2017) — „A Future That Works: Automation, Employment, and Productivity" (18 Capabilities × 0–3 Rubrik) — MGI PDF
McKinsey Global Institute (2023) — „The Economic Potential of Generative AI" — McKinsey
McKinsey (2025) — „Seizing the Agentic AI Advantage" — McKinsey PDF

Oliver Wyman (Discovery vs Trust Tasks, AI Agents Banking)

Oliver Wyman (2025) — „4 Phases to Smarter AI Integration" (Discovery vs Trust Tasks) — Oliver Wyman
Oliver Wyman (2023) — „Navigating the AI Revolution" — Oliver Wyman
Oliver Wyman (2026) — „AI Agents in Banking: Reshaping Roles, Skills and Leadership" — Oliver Wyman

PwC (AI Jobs Barometer, Responsible AI, Sizing the Prize)

PwC (2025) — „Global AI Jobs Barometer 2025" — PwC PDF
PwC (2025) — „AI Jobs Barometer — Methodology Appendix" — PwC PDF
PwC — „Sizing the Prize" — PwC PDF

Strategy& (Automating for Growth, Capabilities-Driven Strategy)

Strategy& — „Automating for Growth" — Strategy&
Strategy& — „Small Automation, Big Benefits" — Strategy&
Strategy& — „Capabilities-Driven Strategy" — Strategy&

Recht · 5 Institutionen

Allen & Overy (A&O Shearman, Harvey, ContractMatrix)

A&O Shearman — „AI Classifier" — A&O Shearman
A&O Shearman — „ContractMatrix Analyze: AI that Understands Your Commercial Positions" — A&O Shearman
A&O Shearman — „Zooming in on AI 8: Balancing Innovation and Compliance" — A&O Shearman

Clifford Chance (AI Principles, EU AI Act Hub, LUCY)

Clifford Chance — „AI Principles" — Clifford Chance
Clifford Chance — „The EU AI Act: Overview of Key Rules and Requirements" — Clifford Chance PDF
Clifford Chance (2025) — „The EU Introduces New Rules on AI Liability" — Clifford Chance PDF

Freshfields (EU AI Act Coverage, Board-Level Imperative, Anthropic Partnership)

Freshfields — „Artificial Intelligence Act" — Freshfields
Freshfields (2026) — „AI Now a Board-Level Imperative for Public Companies and Investors" — Freshfields
Freshfields (2026) — „Data Law Trends 2026" — Freshfields PDF

Latham & Watkins (WEF AI Toolkit, EU AI Act Deployer Obligations)

Latham & Watkins / WEF (2020) — „Empowering AI Leadership — Oversight Toolkit (Board Version)" — WEF PDF
Latham & Watkins — „EU AI Act: Obligations for Deployers of High-Risk AI Systems" — Latham
Latham & Watkins — „AI and ESG: How Companies Are Thinking About AI Board Governance" — Latham

Linklaters (LinksAI Benchmark, AI Governance & Quality Assurance)

Linklaters (2025) — „LinksAI English Law Benchmark v2" — Linklaters DigiLinks
Linklaters (2023) — „LinksAI English Law Benchmark v1" — Linklaters DigiLinks
Linklaters (2025) — „AI Governance and Quality Assurance: Lessons from Linklaters and the Audit Sector" — Linklaters DigiLinks

International · 5 Institutionen

ILO (International Labour Organization, NASK Collaboration)

Gmyrek, Berg, Bescond (2023) — „Generative AI and Jobs: A Global Analysis of Potential Effects on Job Quantity and Quality" (WP96) — ILO PDF
Gmyrek et al. / ILO × NASK (2025) — „Generative AI and Jobs: Refined Global Index" (WP140) — ILO PDF
Gmyrek (2025) — „Task-Score Browser (ISCO-08 Dataset)" — GitHub Pages

OECD (AI Capability Indicators, AI and the Future of Skills)

OECD (2025) — „Introducing the OECD AI Capability Indicators" — OECD
OECD — „AI Capability Indicators — Interactive Tool" — OECD
Lassebie & Quintini (2022) — „What Skills and Abilities Can Automation Technologies Replicate and What Does It Mean for Workers?" (OECD WP No. 282) — OECD PDF

RAND (CAST, AI-Biosecurity, Capabilities-Based Planning)

Mouton, Lucas, Guest (2023/2024) — „The Operational Risks of AI in Large-Scale Biological Attacks" — RAND
RAND Europe / CLTR (2025) — „Global Risk Index for AI-enabled Biological Tools" — CLTR PDF
RAND (2026) — „Tipping the Cyber Balance: How AI Benchmarks Could Make a Difference" — RAND

UC Berkeley (BAIR, CHAI, Haas, Kang Lab)

Zhu et al. (2025) — „Establishing Best Practices for Building Rigorous Agentic Benchmarks (ABC)" — arXiv
BAIR (2021) — „BASALT: A Benchmark for Learning from Human Feedback" — BAIR Blog

WEF (Future of Jobs, Jobs of Tomorrow, AI Governance Alliance)

WEF / Accenture (2023) — „Jobs of Tomorrow: Large Language Models and Jobs" — WEF PDF
WEF (2025) — „Future of Jobs Report 2025" — WEF PDF
WEF (2024) — „AI Governance Alliance Briefing Paper Series" — WEF

Vollständige Bewertungsmatrix und Dimensionsdefinitionen: im Mandat einsehbar.

Footer-Note: Die Methodik wird laufend weiterentwickelt. CAPAB-Dimensionen werden quartalsweise gegen neue Modellgenerationen rekalibriert. TASK-, DEPLOY- und GOV-Dimensionen werden anlassbezogen aktualisiert — zuletzt im Kontext der Revised ESRS, des EU AI Act und neuer Evaluationsansätze für Frontier-Modelle.

Wie bestimmt man das KI-Potenzial von Tätigkeiten im Nachhaltigkeitsmanagement?

Sektion 1Bestehende Ansätze im Überblick

Charakteristika der Aufgabe selbst

Sektion 2Eine vollständigere Bewertungsbasis

Zusammenfassung

Sektion 3Kriterien, die entscheiden, ob das Potenzial realisiert wird

Fähigkeiten der Modelle

Voraussetzungen in der Organisation

Bereits hier entstehen Insights jenseits einer Kennzahl

Governance — der praktische Unterschied

Sektion 4Daraus folgt unsere Methodologie

Die 41 Institutionen, die unsere Methodik gestützt haben

Das Ergebnis: ein funktionierender Workflow

Quellen — 41 Institutionen in sechs Gruppen

Quellenverzeichnis — Primärquellen pro Institution

Workflow individuell bewerten lassen