Wir haben diese Ansätze systematisch ausgewertet und daraus ein eigenes Vorgehen für Nachhaltigkeitsarbeit entwickelt: speziell für Workflows wie Doppelte Wesentlichkeitsanalyse, THG-Bilanz, CSRD-Berichterstattung oder Lieferketten-Sorgfalt.
Sektion 1Bestehende Ansätze im Überblick
Es gibt verschiedene Wege, sich der Frage nach dem Automatisierungspotenzial von Arbeit zu nähern.
Eloundou et al. (OpenAI/NBER, 2023) zerlegen Berufe in viele kleine Tätigkeiten. Der Beruf „Tax Preparer" enthält zum Beispiel Tätigkeiten wie „Compute taxes owed by following tax code." Für jede Tätigkeit wird gefragt: Könnte KI diese Aufgabe bei gleicher Qualität mindestens doppelt so schnell erledigen? Diese Einschätzung erfolgt teils durch Expertinnen und Experten, teils durch GPT-4 selbst, und wird anschließend auf Berufsebene aggregiert.
Webb (Stanford, 2019/2020) geht anders vor. Er analysiert neu erschienene KI-Patente — etwa „Automated visual inspection of welds" — und legt sie über Job-Beschreibungen. Wenn eine Tätigkeit aus einem KI-Patent in einer Job-Beschreibung vorkommt, gilt das als Indiz für Automatisierungspotenzial. Die Logik: Jemand hat bereits investiert, um genau diese Tätigkeit automatisierbar zu machen.
Felten, Raj, Seamans (NBER, 2018–2024) starten bei den Fähigkeiten der KI — etwa „Image Recognition", „Translation" oder „Language Modeling" — und vergleichen diese mit Tätigkeitsanforderungen aus der O*NET-Datenbank, der US-Job-Datenbank mit über 800 Berufen und ihren Einzeltätigkeiten. Wenn eine KI-Fähigkeit mit einer Tätigkeitsanforderung übereinstimmt, gilt diese Tätigkeit als KI-exposed. Je mehr Übereinstimmungen, desto höher die Exposure.
McKinsey (MGI, 2017 / GenAI-Update 2023) kombiniert beide Richtungen. Rund 800 Berufe werden in etwa 2.000 Work Activities zerlegt und gegen 18 Fähigkeiten bewertet — darunter Sensorik, Logik, natürliche Sprache, sozial-emotionale Fähigkeiten und physische Fähigkeiten. Jede Fähigkeit wird auf vier Performance-Leveln bewertet: 0 = nicht erforderlich, 3 = Top-Quartil menschlicher Leistung. Eine Activity gilt als technisch automatisierbar, wenn aktuelle Technologie auf allen erforderlichen Fähigkeiten das nötige Level erreicht. Im GenAI-Update 2023 kommt McKinsey zu dem Ergebnis, dass bis zu 70 % der Arbeitsstunden technisch automatisierbar sein könnten.
Charakteristika der Aufgabe selbst
Eine andere Denkschule fragt nicht zuerst nach Berufen oder KI-Fähigkeiten, sondern nach den Eigenschaften der Aufgabe selbst: Gibt es bestimmte Aufgabenmerkmale, die Automatisierung besonders begünstigen?
Einen frühen systematischen Ansatz lieferten Brynjolfsson, Mitchell und Rock am MIT mit ihrer „Suitability for Machine Learning"-Rubrik. Sie formulierten acht Kriterien, darunter klar definierte Inputs und Outputs sowie verfügbare Trainingsdaten. Besonders prägend wurde der Gedanke der Strukturiertheit: Je klarer und strukturierter eine Aufgabe, desto eher kann KI sie übernehmen.
Diesen Ansatz führen BCG und Bain weiter. BCG nennt fünf Kriterien, darunter „keine signifikante physische Präsenz" und „regelbasiert nachvollziehbares Ergebnis". Bain erweitert dies um sechs „Agentic Automation Feasibility Factors", darunter Output-Verifizierbarkeit — also die Frage, ob ein Ergebnis günstig geprüft werden kann — und Integration & Orchestrierung, also die Frage, wie viele Systeme KI miteinander verbinden muss. Damit betrachtet Bain nicht nur die Aufgabe selbst, sondern auch Aspekte der praktischen Umsetzung: Ein KI-System muss eine Aufgabe nicht nur theoretisch lösen können, sondern sie auch in der realen Tool-Landschaft eines Unternehmens zuverlässig bewältigen.
Sektion 2Eine vollständigere Bewertungsbasis
BCGs fünf Kriterien und Bains sechs Feasibility Factors bilden einen starken Kern. Für Sustainability-Arbeit erweitern wir ihn um weitere gleichberechtigte Dimensionen — auf Basis einer intensiven Recherche über 41 Institutionen aus Wissenschaft, KI-Laboren, Standardsetzung, Beratung, Recht und internationalen Organisationen.
Daraus sind 17 Aufgaben-Eigenschaften entstanden, jeweils mit klarer Quellenkette in der Forschung.
Zu den erweiterten Dimensionen gehören unter anderem:
Atypizität. Hat das Modell vergleichbares Material bereits gesehen? Eine Bewertung in einem etablierten Sektor mit ausgereiften Reporting-Mustern hat eine niedrige Atypizität: Die Trainingsdaten enthalten wahrscheinlich verwandte Beispiele. Eine Bewertung unter frisch erlassener Regulatorik — etwa den Revised ESRS vom Mai 2026 oder in der CSDDD-Implementierungsphase — hat dagegen eine hohe Atypizität, weil das Material erst entsteht und im Training kaum vorhanden ist. Quellen: Cambridge ADeLe, MIT Brynjolfsson SML, METR Time-Horizon-Studien, NBER, OECD AI Capability Indicators.
Kognitive Last. Wie viele Denkschritte sind nötig, bis eine belastbare Antwort entsteht? Eine Emissionsfaktor-Zuordnung ist meist ein einzelner Schritt. Eine integrierte Risiko- und Chancenbewertung über mehrere Wertschöpfungsstufen hinweg erfordert dagegen viele verschachtelte Schritte. Aktuelle Frontier-Modelle verlieren typischerweise nach mehreren verketteten Reasoning-Schritten an Verlässlichkeit. Quellen: Cambridge ADeLe, METR Time-Horizon, MIT SML, OECD AI Capability Indicators, Stanford HAI.
Wissenstiefe. Wie viel Fachwissen ist nötig? Ein Topic-Screening braucht ESRS-Grundkenntnisse — gut abgedeckt durch öffentliche Dokumentation und Guidance. Eine Schwellenwert-Definition braucht zusätzlich Branchenerfahrung, Assurance-Perspektive und Audit-Standards — und ist damit deutlich schwerer aus öffentlichen Quellen zu rekonstruieren. Quellen: Cambridge ADeLe, OECD AI Capability Indicators, MIT, Stanford HAI.
Insgesamt umfasst die Methodik 17 TASK-Dimensionen.
Zusammenfassung
Wie Eloundou et al. zerlegen wir Workflows — etwa eine Doppelte Wesentlichkeitsanalyse — in einzelne Aufgaben. Wir wählen dabei jedoch eine praktikable Granularität: fein genug, um Unterschiede sichtbar zu machen, aber nicht so fein, dass die Bewertung unhandlich wird.
Anschließend bewerten wir jede Aufgabe anhand der aus Forschung und Anwendung synthetisierten Dimensionen. So lässt sich das Automatisierungspotenzial konkret einordnen. Pro Workflow entsteht ein aggregiertes Bild.
Das Ergebnis ist keine pauschale Prozent-Angabe, sondern ein differenzierter Blick: In welchen Teilschritten lohnt sich KI? Welche Aufgabenmerkmale begünstigen Automatisierung? Welche verhindern sie? Damit lassen sich Workflows bewusst so gestalten, dass Mensch und Maschine sinnvoll zusammenspielen — und das Risiko sinkt, in isolierten Piloten steckenzubleiben.
Sektion 3Kriterien, die entscheiden, ob das Potenzial realisiert wird
Selbst wenn eine Aufgabe ihrer Natur nach automatisierbar ist, bestimmen drei weitere Kriterien-Familien, ob Automatisierung in der Praxis funktioniert:
- die Fähigkeiten aktueller Modelle,
- die Voraussetzungen innerhalb der Organisation, in der KI eingesetzt werden soll,
- die Governance-Anforderungen.
Fähigkeiten der Modelle
Wenn aktuelle Modelle nicht über die Fähigkeiten verfügen, die eine Aufgabe erfordert, werden die Ergebnisse unzuverlässig. Diese Fähigkeiten entwickeln sich kontinuierlich weiter. Deshalb aktualisieren wir diese Dimension vierteljährlich. Was heute noch an Grenzen stößt, kann in einem Jahr bereits deutlich robuster funktionieren.
Wir nutzen 9 Kriterien für die Modell-Fähigkeit. Die verständlichsten Beispiele:
- Metakognition — weiß das Modell, was es nicht weiß? Aktuelle Frontier-Modelle sind hier noch begrenzt. Für audit-relevante Aussagen ist dies oft eine der wichtigsten Limitationen.
- Kontextverarbeitung — wie viel Material kann das Modell auf einmal lesen, korrekt behalten und am Ende sauber referenzieren? Das ist zentral für lange Dokumente wie CSRD-Berichte.
- Quantitatives Reasoning — kann das Modell zuverlässig rechnen und Zahlen interpretieren? Für THG-Berechnungen ist dies entscheidend.
Voraussetzungen in der Organisation
Darüber hinaus spielen die Voraussetzungen im Unternehmen eine entscheidende Rolle. Liegen digitale Daten vor? Wie hoch ist die Domänenkompetenz im Team? Welche Tools sind verfügbar? Wie gut sind Daten, Systeme und Verantwortlichkeiten miteinander verbunden?
Diese Ebene bewerten wir mit 6 Dimensionen.
Das entspricht auch der Logik von Bain und dem Cambridge Bennett Institute: Technisch automatisierbar bedeutet nicht automatisch praktisch nutzbar. Coyles UK-Studie zeigt, dass nur ein kleiner Teil der Unternehmen KI tatsächlich in messbare Produktivität übersetzt — nicht primär wegen der Aufgaben selbst, sondern wegen organisationaler Reibungen.
In unserer Methodik gehen wir zunächst von einem Standardwert aus: einem typischen mittelständischen Unternehmen mit CSRD-Pflicht. Für eine genaue Einschätzung muss dieser Wert an die konkreten Voraussetzungen des jeweiligen Unternehmens angepasst werden.
Bereits hier entstehen Insights jenseits einer Kennzahl
An diesem Punkt wissen wir, ob eine Aufgabe ihrer Natur nach automatisierbar ist, ob aktuelle Modelle die nötigen Fähigkeiten mitbringen und ob die organisationalen Voraussetzungen passen.
Daraus entstehen konkrete Hinweise: Welche Lücken muss das Unternehmen schließen, um KI-Potenziale zu realisieren? Wo stoßen heutige Modelle noch an Grenzen? Welche Aufgaben sind technisch attraktiv, aber praktisch noch schwer umsetzbar?
Eine reine Prozentzahl würde diese Unterschiede verschütten.
Governance — der praktische Unterschied
Ein weiterer Faktor entscheidet in der Praxis oft darüber, ob KI tatsächlich eingesetzt werden kann: angemessene Kontrollen.
- Ist der Einsatz ethisch vertretbar?
- Müssen die Ergebnisse einem Audit standhalten?
- Bestehen Reputationsrisiken?
- Sind Datenschutz, Nachvollziehbarkeit und Verantwortlichkeiten geklärt?
Deshalb berücksichtigen wir hier 9 weitere Dimensionen — etwa EU AI Act, ESRS-Audit-Pflichten, DSGVO, IAASB-Anforderungen und professionelle Skepsis.
Das Ergebnis dieser Stufe ist nicht zwingend ein Hard Stop. Häufig zeigt sie vielmehr, welche Kontrollmechanismen an welchen Stellen erforderlich sind — zum Beispiel 4-Augen-Review, Audit-Trail, dokumentierte Quellenbasis oder eine Fundamental Rights Impact Assessment.
Sektion 4Daraus folgt unsere Methodologie
Wir arbeiten in fünf Stufen. Eine Aufgabe ist erst dann sinnvoll KI-tauglich, wenn alle vier Bewertungsstufen sie als geeignet markieren — und wenn Stage 0, also die Operationalisierung, sauber durchgeführt wurde.
Die 41 Institutionen, die unsere Methodik gestützt haben
- Wissenschaft (7): u. a. MIT Brynjolfsson, NBER Eloundou
- KI-Labore (7): u. a. Anthropic, METR
- Standardisierung (6): u. a. NIST, IAASB
- Beratung (11): u. a. Bain, BCG
- Recht (5): u. a. Linklaters, Clifford Chance
- International (5): u. a. OECD, ILO
Die vollständige Quellenliste findet sich unten.
Das Ergebnis: ein funktionierender Workflow
Am Ende steht nicht nur ein Score, sondern eine belastbare Antwort auf eine der schwierigsten Fragen beim KI-Einsatz:
Wie baue ich einen funktionierenden Workflow im Regelbetrieb?
Die Methodik zeigt, wo Automatisierung sinnvoll ist, wo sie nicht sinnvoll ist, welche Voraussetzungen erfüllt sein müssen und welche Kontrollen erforderlich sind.
Quellen — 41 Institutionen in sechs Gruppen
Die Dimensionen wurden aus bestehender Literatur synthetisiert. Eine Dimension wird nur dann in das kanonische Set aufgenommen, wenn sie entweder von mehreren Institutionen genannt wird oder aufgrund ihrer besonderen Erklärungskraft ein starkes Signal für KI-Potenzial bildet.
| Gruppe | n | Top-Institutionen |
|---|---|---|
| Wissenschaft | 7 | MIT Brynjolfsson (SML), NBER Eloundou, Harvard HBS (Jagged Frontier), Cambridge ADeLe, Stanford HAI (HELM/FMTI), Oxford Frey & Osborne, Brookings |
| KI-Labore | 7 | Anthropic (Economic Index + Agent Evals + RSP), OpenAI (Model Spec, GDPval), Google DeepMind (Levels of AGI, FSF), METR (Time-Horizon, Messiness), Microsoft Research (Tomlinson), ARC Evals, Epoch AI |
| Standardisierung | 6 | NIST (AI RMF MAP, GenAI Profile), ISO (42001, 23894, 25059), COSO, IAASB (ISSA 5000), IFAC, IIA |
| Beratung | 11 | Bain (Feasibility Factors), BCG (Reshape, Jagged Frontier), McKinsey (MGI 18×4), Deloitte, EY (AAA, 9 RAI), KPMG (10 Pillars), PwC, Accenture, Oliver Wyman, Strategy&, Kearney |
| Recht | 5 | Linklaters (LinksAI Benchmark), Clifford Chance, Allen & Overy, Freshfields, Latham & Watkins |
| International | 5 | OECD (AI Capability Indicators), WEF (Jobs of Tomorrow, AI Governance Alliance), ILO (WP140), RAND (Bioweapons Uplift), UC Berkeley (ABC, BASALT, CHAI) |
Tier-Rangliste nach methodischer Strenge:
- Tier 1: sieben Institutionen — METR, Cambridge, OECD, MIT, NBER, Harvard, Stanford HAI.
- Tier 2: zehn Institutionen — Anthropic, Bain, BCG, DeepMind, ILO, Linklaters, McKinsey, Microsoft Research, OpenAI, WEF.
- Tier 3: 24 Institutionen — vor allem Governance- und Praxis-Frameworks.
Quellenverzeichnis — Primärquellen pro Institution
Die folgende Liste nennt die wichtigsten Primärquellen, die in die kanonischen Dimensionen eingeflossen sind — gruppiert nach sechs Institutions-Kategorien und innerhalb jeder Gruppe alphabetisch. Pro Institution sind ein bis drei Schlüsseldokumente verlinkt. Die vollständige Quellensammlung pro Institution liegt im internen Methodik-Register. Sekundärliteratur, Presse-Coverage und Kommentar-Beiträge sind bewusst ausgespart.
Wissenschaft (Akademia) · 7 Institutionen
Brookings
- Muro, Whiton, Maxim (2019) — „What Jobs Are Affected by AI?" — Brookings
- Kinder, de Souza Briggs, Muro, Liu (2023) — „Generative AI, the American Worker, and the Future of Work" — Brookings
Cambridge
- Hernandez-Orallo et al. (2026) — „General Scales Unlock AI Evaluation with Explanatory and Predictive Power" — Nature
- Burden, Voudouris, Tesic, Hernandez-Orallo — „Measurement Layout Framework" — CSER
- Coyle et al. (2024) — „Determinants of Firms' Decision to Adopt AI" — SSRN
Harvard
- Dell'Acqua et al. (2026) — „Navigating the Jagged Technological Frontier" — Organization Science
- Randazzo, Lifshitz-Assaf et al. (2024) — „Cyborgs, Centaurs and Self-Automators" — SSRN
MIT
- Brynjolfsson, Mitchell & Rock (2018) — „What Can Machines Learn, and What Does It Mean for Occupations?" — AEA Papers & Proceedings
- Svanberg, Li, Fleming, Goehring & Thompson (2024) — „Beyond AI Exposure: Which Tasks Are Cost-Effective to Automate?" — MIT FutureTech
- Acemoglu (2024) — „The Simple Macroeconomics of AI" — MIT Economics
NBER
- Eloundou, Manning, Mishkin, Rock (2023) — „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models" — arXiv
- Felten, Raj, Seamans (2021) — „Occupational, Industry, and Geographic Exposure to AI" — SSRN / Strategic Management Journal
- Brynjolfsson, Li, Raymond (2023) — „Generative AI at Work" — NBER w31161
Oxford
- Frey & Osborne (2013/2017) — „The Future of Employment: How Susceptible Are Jobs to Computerisation?" — Oxford Martin
- Wood, Graham, Lehdonvirta, Hjorth (2019) — „Good Gig, Bad Gig" — Work, Employment and Society
Stanford HAI
- Liang et al. (2022) — „Holistic Evaluation of Language Models (HELM)" — arXiv
- Bommasani et al. — „Foundation Model Transparency Index (FMTI)" — CRFM Stanford
- Stanford HAI (2026) — „AI Index Report 2026" — HAI
KI-Labore · 7 Institutionen
Anthropic
- Anthropic (2026) — „Anthropic Economic Index — January 2026 Report" — Anthropic
- Handa et al. (2025) — „Which Economic Tasks are Performed with AI?" — Anthropic PDF
- Anthropic (2026) — „Responsible Scaling Policy v3.0" — Anthropic
ARC Evals
- Kinniment et al. (2023) — „Evaluating Language-Model Agents on Realistic Autonomous Tasks" — arXiv
- ARC Evals (2023) — „Responsible Scaling Policies" — evals.alignment.org
Epoch AI
- Glazer et al. (2024) — „FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI" — arXiv
- Epoch AI — „GATE: General AI Capability Evaluation" — arXiv
- Epoch AI — „Most AI Value Will Come From Broad Automation, Not From R&D" — Epoch AI
Google DeepMind
- Morris et al. (2023) — „Levels of AGI: Operationalizing Progress on the Path to AGI" — arXiv
- Google DeepMind (2026) — „Frontier Safety Framework v3.1" — DeepMind PDF
- Weidinger et al. (2023) — „Sociotechnical Safety Evaluation of Generative AI Systems" — arXiv
METR
- METR (2025) — „Measuring AI Ability to Complete Long Tasks" — arXiv
- METR (2025) — „HCAST: Human-Calibrated Autonomy Software Tasks" — arXiv
- METR — „Autonomy Evaluation Resources" — METR
Microsoft Research
- Tomlinson et al. (2025) — „Working with AI: Measuring the Occupational Implications of Generative AI" — arXiv
- Microsoft Research (2025) — „New Future of Work Report 2025" — Microsoft Research
- Microsoft (2022) — „Responsible AI Impact Assessment Template" — Microsoft Blog PDF
OpenAI
- Eloundou et al. (2023) — „GPTs are GPTs" — arXiv
- OpenAI (2025) — „GDPval: Measuring AI on Real-World Economically Valuable Tasks" — arXiv
- OpenAI (2025) — „Model Spec (2025-12-18)" — model-spec.openai.com
Standardisierung · 6 Institutionen
COSO
- COSO (2026) — „Achieving Effective Internal Control Over Generative AI" — COSO
- COSO / Deloitte (2021) — „Realize the Full Potential of AI: Applying the COSO ERM Framework" — Deloitte
IAASB
- IAASB (2024) — „International Standard on Sustainability Assurance 5000 (ISSA 5000)" — IAASB
- IAASB (2024) — „Technology Position Statement — 8 Guiding Actions" — IAASB
- IAASB (2025) — „Technology Catalog of Issues v2" — IFAC PDF
IFAC
- IFAC / IAASB (2025) — „ISSA 5000 Implementation Guide" — IFAC PDF
- IFAC — „Artificial Intelligence & Accounting (Knowledge Gateway)" — IFAC
IIA
- IIA (2024) — „AI Auditing Framework (September 2024 Update)"
- IIA (2024) — „Global Internal Audit Standards 2024" — IIA
ISO
- ISO/IEC 42001:2023 — „Information Technology — AI Management System" — ISO
- ISO/IEC 23894:2023 — „Information Technology — AI — Guidance on Risk Management" — ISO
- ISO/IEC 25059:2023 — „Quality Model for AI Systems" — ITeh Sample PDF
NIST
Beratung · 11 Institutionen
Accenture
- Accenture (2023) — „Work, Workforce, Workers: Reinvented in the Age of Generative AI" — Accenture
- Accenture (2025) — „Technology Vision 2025" — Accenture PDF
- Accenture — „Responsible AI: From Compliance to Confidence" — Accenture PDF
Bain & Company
- Bain (2025) — „The $100 Billion SaaS Opportunity Hiding in Cross-System Labor" (6 Feasibility Factors) — Bain
- Bain (2025) — „Will Agentic AI Disrupt SaaS? Technology Report 2025" — Bain
- Bain (2025) — „State of the Art of Agentic AI Transformation" — Bain
BCG
- BCG (2026) — „AI Will Reshape More Jobs Than It Replaces" — BCG
- Dell'Acqua et al. (2023) — „Navigating the Jagged Technological Frontier" (BCG × HBS) — SSRN
- BCG (2025) — „AI at Work 2025: Momentum Builds, but Gaps Remain" — BCG
Deloitte
- Deloitte Insights — „Generative AI for Government Work Tasks" (1–10 Index) — Deloitte
- Deloitte — „Trustworthy AI Governance in Practice" — Deloitte
- Deloitte (2026) — „State of AI in the Enterprise 2026" — Deloitte
EY
- EY (2024) — „Responsible AI Principles" — EY PDF
- EY — „Redesigning Work Around Human Skills in the Age of AI (AAA Framework)" — EY
- EY — „EY.ai Confidence Index" — EY
Kearney
- Kearney — „Putting Generative AI to Work" — Kearney
- Kearney — „Are You AI Ready?"
- Kearney — „AI Catalyst" — Kearney
KPMG
- KPMG — „Trusted AI Framework" — KPMG Global
- KPMG Australia (2025) — „Deploying Trustworthy AI: An Illustrative Risk and Controls Guide" — KPMG PDF
- KPMG — „AI Governance Principles for Boards" — KPMG
McKinsey
- McKinsey Global Institute (2017) — „A Future That Works: Automation, Employment, and Productivity" (18 Capabilities × 0–3 Rubrik) — MGI PDF
- McKinsey Global Institute (2023) — „The Economic Potential of Generative AI" — McKinsey
- McKinsey (2025) — „Seizing the Agentic AI Advantage" — McKinsey PDF
Oliver Wyman
- Oliver Wyman (2025) — „4 Phases to Smarter AI Integration" (Discovery vs Trust Tasks) — Oliver Wyman
- Oliver Wyman (2023) — „Navigating the AI Revolution" — Oliver Wyman
- Oliver Wyman (2026) — „AI Agents in Banking: Reshaping Roles, Skills and Leadership" — Oliver Wyman
PwC
- PwC (2025) — „Global AI Jobs Barometer 2025" — PwC PDF
- PwC (2025) — „AI Jobs Barometer — Methodology Appendix" — PwC PDF
- PwC — „Sizing the Prize" — PwC PDF
Strategy&
Recht · 5 Institutionen
Allen & Overy
- A&O Shearman — „AI Classifier" — A&O Shearman
- A&O Shearman — „ContractMatrix Analyze: AI that Understands Your Commercial Positions" — A&O Shearman
- A&O Shearman — „Zooming in on AI 8: Balancing Innovation and Compliance" — A&O Shearman
Clifford Chance
- Clifford Chance — „AI Principles" — Clifford Chance
- Clifford Chance — „The EU AI Act: Overview of Key Rules and Requirements" — Clifford Chance PDF
- Clifford Chance (2025) — „The EU Introduces New Rules on AI Liability" — Clifford Chance PDF
Freshfields
- Freshfields — „Artificial Intelligence Act" — Freshfields
- Freshfields (2026) — „AI Now a Board-Level Imperative for Public Companies and Investors" — Freshfields
- Freshfields (2026) — „Data Law Trends 2026" — Freshfields PDF
Latham & Watkins
- Latham & Watkins / WEF (2020) — „Empowering AI Leadership — Oversight Toolkit (Board Version)" — WEF PDF
- Latham & Watkins — „EU AI Act: Obligations for Deployers of High-Risk AI Systems" — Latham
- Latham & Watkins — „AI and ESG: How Companies Are Thinking About AI Board Governance" — Latham
Linklaters
- Linklaters (2025) — „LinksAI English Law Benchmark v2" — Linklaters DigiLinks
- Linklaters (2023) — „LinksAI English Law Benchmark v1" — Linklaters DigiLinks
- Linklaters (2025) — „AI Governance and Quality Assurance: Lessons from Linklaters and the Audit Sector" — Linklaters DigiLinks
International · 5 Institutionen
ILO
- Gmyrek, Berg, Bescond (2023) — „Generative AI and Jobs: A Global Analysis of Potential Effects on Job Quantity and Quality" (WP96) — ILO PDF
- Gmyrek et al. / ILO × NASK (2025) — „Generative AI and Jobs: Refined Global Index" (WP140) — ILO PDF
- Gmyrek (2025) — „Task-Score Browser (ISCO-08 Dataset)" — GitHub Pages
OECD
- OECD (2025) — „Introducing the OECD AI Capability Indicators" — OECD
- OECD — „AI Capability Indicators — Interactive Tool" — OECD
- Lassebie & Quintini (2022) — „What Skills and Abilities Can Automation Technologies Replicate and What Does It Mean for Workers?" (OECD WP No. 282) — OECD PDF
RAND
- Mouton, Lucas, Guest (2023/2024) — „The Operational Risks of AI in Large-Scale Biological Attacks" — RAND
- RAND Europe / CLTR (2025) — „Global Risk Index for AI-enabled Biological Tools" — CLTR PDF
- RAND (2026) — „Tipping the Cyber Balance: How AI Benchmarks Could Make a Difference" — RAND
UC Berkeley
- Zhu et al. (2025) — „Establishing Best Practices for Building Rigorous Agentic Benchmarks (ABC)" — arXiv
- BAIR (2021) — „BASALT: A Benchmark for Learning from Human Feedback" — BAIR Blog
WEF
Vollständige Bewertungsmatrix und Dimensionsdefinitionen: im Mandat einsehbar.
Footer-Note: Die Methodik wird laufend weiterentwickelt. CAPAB-Dimensionen werden quartalsweise gegen neue Modellgenerationen rekalibriert. TASK-, DEPLOY- und GOV-Dimensionen werden anlassbezogen aktualisiert — zuletzt im Kontext der Revised ESRS, des EU AI Act und neuer Evaluationsansätze für Frontier-Modelle.