THG-Bilanz (Scope 1+2+3) — KI-Potenzial bewertet · Beispielbewertung

Die THG-Bilanz nach GHG Protocol läuft auf einer Regelmaschine, die seit 2004 stabil ist: vereinbarte Systemgrenzen, klare Emissionsfaktoren, deterministische Berechnung. Genau die Eigenschaften, bei denen aktuelle Frontier-Modelle ihr Maximum erreichen. Diese Bewertung zerlegt den Workflow in acht Teilaufgaben und prüft jede einzelne entlang der vollen Methodik (Stages 0–4). Ergebnis: zwei Teilaufgaben erreichen das Expert-Band — eine Premiere in der Kaufmann-Methodik.

Per-Teilaufgabe-Bewertung

Systemgrenzen-Festlegung · organisational + operational Boundary

KI als Consultant50–80 % Zeitersparnis

Tätigkeitsdaten-Erhebung · Brennstoffe, Strom, Kältemittel

KI als Collaborator65–90 % Zeitersparnis

Emissionsfaktor-Zuordnung · DEFRA, ecoinvent, BAFA, ProBas

KI als Expert75–100 % Zeitersparnis

Berechnung & Aggregation · Scope 1+2 location/market

KI als Expert75–100 % Zeitersparnis

Scope-3-Screening · 15-Kategorien-Matrix

KI als Collaborator65–90 % Zeitersparnis

Datenqualitäts-Bewertung · Pedigree-Matrix

KI als Collaborator65–90 % Zeitersparnis

Konsolidierung & YoY-Check · Outlier-Detection, Sektor-Benchmark

KI als Collaborator65–90 % Zeitersparnis

ESRS-E1 / CDP-Reporting · Mapping + narrative Disclosures

KI als Tool30–60 % Zeitersparnis

Aggregat über alle acht Aufgaben: Sehr hoch · 60–85 % Zeitersparnis · Workflow-Headline 76,4 (Collaborator-Band).

Erstes Expert-Verdikt der Methodik. T3 (EF-Zuordnung, Headline 90,6) und T4 (Berechnung, Headline 92,6) sind die ersten real existierenden Sustainability-Tasks, bei denen alle vier Expert-Bedingungen treffen: Regelmaschine (D07=3), volle Inter-Rater-Konvergenz (D32=3), methodische Stabilität (D26a=3), deterministische Verifizierbarkeit (D01=3). Bei der DMA war kein einziger Task Expert-fähig.

Stage 0 — Operationalisierung pro Teilaufgabe

Bevor die eigentliche Bewertung startet, wird für jede Teilaufgabe ein konkretes Setup festgelegt: welche Inputs herangezogen werden, welche Rubrik die Bearbeitung strukturiert, welche Tools eingesetzt werden, welches Output-Format entsteht und welche Reviewschritte vorgesehen sind.

Für die Emissionsfaktor-Zuordnung beispielsweise wird festgelegt, eine versionierte EF-Bibliothek (etwa DEFRA, ecoinvent, BAFA) gemeinsam mit einer Mapping-Tabelle für Brennstoffe und Energieträger zu nutzen. Ein LLM schlägt die passenden Faktoren vor. Als Output entsteht ein EF-zugeordneter Datensatz mit Quelle und Versionsstand pro Eintrag — und damit die Grundlage für die nachfolgende Berechnung.

Analog wird jede der acht Teilaufgaben vor der Bewertung sauber operationalisiert. Ohne diesen Schritt — also bei intuitiver KI-Nutzung ohne festgelegtes Setup — fallen die Zeitersparnis-Werte deutlich und das Fehlerrisiko steigt; insbesondere die Expert-Bewertung der Emissionsfaktor-Zuordnung und der Berechnung setzt diese Operationalisierung voraus.

Modell-Fähigkeiten — Stage 2

Die Bewertung der Modell-Fähigkeiten erfolgt im aktuellen Modellstand (Frontier-LLMs 2026, Claude / GPT / Gemini).

Deckung der CAPAB-Anforderungen für THG-Bilanz

~73 %

Stark:

Regel-Lookup und deterministische Berechnung (D07=3 auf T3/T4): EF-Zuordnung und Σ Aktivität·EF sind triviale Tool-Use-Operationen für Frontier-Modelle.
Tabellen- und Struktur-Verarbeitung (D20b: Vision für Standard-PDFs solide, Tabellen-Reasoning robust): ERP-Exporte und EF-Tabellen werden zuverlässig verarbeitet.
Kontext-Fenster (D10b): 200k+ Token reichen für Multi-Standort-Datasets + Methodik-Doku im selben Lauf.

Schwach:

Kalibrierung / Metakognition (D08) — OECD ACI L2 von 5. Heißt für T6/T7: Modell-Aussagen zu Datenqualität und YoY-Drift-Ursachen brauchen Fact-Check.
Reporting-Layer (T8) — Revised ESRS 2026 ist out-of-distribution; D17b=0 unter ISSA-5000-Limited-Assurance. Hier reicht das Modell allein nicht.

Deployment-Bereitschaft — Stage 3

Standard-Annahme — Mittelständisches Unternehmen mit kompakter Nachhaltigkeitsfunktion

~62 %

Die Standard-Annahme bildet einen typischen Kontext ab: 10–50 Standorte, ERP-Daten vorhanden aber heterogen, einige Excel-Insellösungen, keine zentrale Energiemonitoring-Plattform, kompakte Nachhaltigkeitsfunktion (1–3 Personen).

Client-seitige Voraussetzungen für die obere Range:

D04b Inputs digital verfügbar: Brennstoff-, Strom- und Kältemittel-Daten als ERP-Export oder Lieferanten-Rechnung in Text-Form (PDFs OK).
D11 Nutzer-Skill: Sustainability-Lead mit GHG-Protocol-Grundverständnis; Einarbeitung in Templates/EF-Bibliothek.
D12 Tool-Integration: LLM-API in EU-Cloud-Region; ERP-Read-Access (keine Tiefen-Integration nötig).
D26b Monitoring: dokumentierter Review-Rhythmus für KI-Output vor Reporting-Submission.
D02b Blast Radius: ISSA 5000 Limited Assurance ab Dezember 2026 — Re-Performance der Berechnung muss möglich sein (siehe Stage 4).

Bei deutlich höher entwickelten Setups (zentrale Energiemonitoring-Plattform, etablierte ERP-Pipelines, dedizierte Assurance-Funktion) rückt die obere Range Richtung 90–100 % — die DEPLOY-Modifier sind bereits in den Ranges oben eingepreist (+10).

Governance — Stage 4

Governance entscheidet, welche Kontrollen beim KI-Einsatz erforderlich werden — unabhängig davon, ob die Aufgabe technisch automatisierbar ist. Anders als bei der DMA gibt es bei der THG-Bilanz keinen Veto-Trigger: alle acht Teilaufgaben tragen positiv bei.

Besonders relevant für die THG-Bilanz:

Reperformbarer Audit-Trail. Die Assurance-Anforderung verlangt, dass jede Berechnung mit identischen Inputs nachvollzogen werden kann. Modellversion, Emissionsfaktor-Quelle, Versionsstand und Reviewer-Entscheidung müssen pro Rechengang dokumentiert sein. Bezug: ISSA 5000, ESRS E1.
AI-Labelling im Reporting. Externe Disclosures müssen als KI-unterstützt erkennbar sein. Bezug: EU AI Act Art. 50, ESRS-Reporting-Anforderungen.
Stichproben-Aufsicht. Berichts-Verantwortung bleibt menschlich. KI liefert Vorschläge, die Sustainability-Verantwortlichen reviewen und die Geschäftsleitung gibt die finale Bilanz frei. Bezug: IAASB Professional Skepticism.

Weniger kritisch in diesem Kontext:

Grundrechte-Folgen sind niedrig — die THG-Bilanz berührt keine vulnerablen Stakeholder direkt.
Missbrauchs-Risiko ist niedrig — keine sicherheitskritische oder Dual-Use-Aufgabe.
Datenschutz ist mit Standard-AVV und EU-Cloud-Setup adressiert; keine besonderen Datenkategorien im Spiel.

Empfohlene Kontrollen für den THG-Einsatz:

Versionsfeste EF-Bibliothek mit dokumentiertem Update-Rhythmus — vermeidet versteckte Drift zwischen Jahren.
Audit-Trail pro Berechnungsgang mit Modellversion, Prompt, Input-Quellen, Output und Reviewer — Grundlage für Reperformance durch die Prüferin.
AI-Labelling im ESRS-E1- und CDP-Reporting — externe Sichtbarkeit der KI-Unterstützung.

Empfehlung zum weiteren Vorgehen

Für die THG-Bilanz als Workflow lassen sich drei operative Lesarten ableiten.

Erstens — die KI übernimmt die Regelmaschine eigenständig. T3 (EF-Zuordnung) und T4 (Berechnung) sind Expert-Tasks. Lookup und Σ Aktivität·EF laufen unter benannter Aufsicht; der Mensch macht Re-Performance per Stichprobe, nicht Schritt-für-Schritt-Review. Das ist der Effizienz-Hebel — diese zwei Tasks machen zusammen 20 % des Workflow-Aufwands aus, werden aber nahezu vollständig durch KI getragen.

Zweitens — der Mensch behält Boundary, Daten-Hunting, Reporting. T1 (Systemgrenzen) bleibt Consultant: Konzernstruktur-Entscheidungen (Control-Approach, JVs, Carve-Outs) bleiben Mensch-final. T2 (Tätigkeitsdaten-Erhebung) bleibt 25 % des Aufwands, hier ist KI Collaborator beim Aggregieren — das Daten-Hunting bei Standort-Verantwortlichen bleibt menschlich. T8 (Reporting) ist Tool: KI liefert XBRL-Mapping-Vorschläge und Narrative-Entwürfe, aber die Verantwortung für externe Disclosures bleibt bei Geschäftsleitung + Lead.

Drittens — Stage 0 ist hier doppelt entscheidend. Templates + EF-Bibliothek + Berechnungs-Sheet sind nicht „schön zu haben". Sie sind die Bedingung für Expert-Level bei T3/T4 und für Collaborator-Level bei T2/T5/T6/T7. Ohne sie fällt jeder Task um ein Band, das Workflow-Aggregat fällt von 76 auf ~63 — und die Expert-Tasks T3/T4 verlieren ihre methodische Begründung.

Caveat: Die Zeitersparnis-Werte gelten unter der Bedingung professioneller Operationalisierung pro Teilaufgabe und sauberer EF-Bibliothek mit Versionsstand. Bei naiver Chat-Nutzung ohne Setup: 30–50 % mit erhöhtem Fehler-Risiko — und kein Expert-Verdikt mehr.

Methodik im Detail

Vollständige Methodik einsehen →

Die hier verwendete Bewertungs-Methodik (5 Stufen, 42 Dimensionen, 41 Institutionen) ist auf der Methodik-Seite dokumentiert — einschließlich Stage-0-Operationalisierung, vollständiger Quellenmatrix und Empfehlungs-Logik auf der Autonomie-Skala. Für den direkten Vergleich mit der DMA siehe DMA-Bewertung →

Treibhausgas-Bilanz (Scope 1+2+3) — KI-Potenzial bewertet

Per-Teilaufgabe-Bewertung

Stage 0 — Operationalisierung pro Teilaufgabe

Modell-Fähigkeiten — Stage 2

Deployment-Bereitschaft — Stage 3

Governance — Stage 4

Empfehlung zum weiteren Vorgehen

Methodik im Detail

Bewertung für Ihren Kontext anfragen