Gezieltes Nachtrainieren: Wie KI aus Fehlern lernt

Gezieltes Nachtrainieren: Wie KI aus Fehlern lernt

Gezieltes Nachtrainieren: Wie KI aus Fehlern lernt

Ein Forschungsteam des Schweizerischen Instituts für Informationswissenschaft zeigt, wie Large Language Models nicht nur Texte verstehen, sondern auch selbständig Trainingsdaten generieren können, die ihre eigene Leistungsfähigkeit weiter steigern. Das Ergebnis: ein deutlich präziseres KI-System zur Klassifikation der Nachhaltigkeitsziele der Vereinten Nationen.

Text: Norman Süsstrunk, Albert Weichselbraun / Bilder: Swisstext

Die Sustainable Development Goals (SDGs) wurden 2015 von den Vereinten Nationen beschlossen. Sie sollen einen globalen Fahrplan für eine lebenswerte Zukunft bilden. Insgesamt 17 Ziele decken zentrale Herausforderungen unserer Zeit ab – von der Bekämpfung von Armut und Hunger über hochwertige Bildung und Gleichberechtigung bis hin zu sauberer Energie, nachhaltiger Industrie und dem Schutz von Klima, Ozeanen und Landökosystemen. So vielfältig diese Ziele auch sind, so eint sie doch ein zentraler Gedanke: Nachhaltige Entwicklung gelingt nur, wenn soziale, ökologische und wirtschaftliche Aspekte gemeinsam betrachtet werden. Forschung spielt dabei eine entscheidende Rolle: denn sie liefert die Erkenntnisse, Innovationen und Daten, die nötig sind, um Fortschritte umzusetzen und messbar zu machen.

Jedes Jahr erscheinen weltweit hunderttausende wissenschaftliche Publikationen, die sich direkt oder indirekt mit Nachhaltigkeit befassen. Die grosse Vielfalt macht es allerdings schwer, den Überblick zu behalten, welche Ziele in den Publikationen thematisiert werden. Genau hier setzt die automatische SDG-Klassifikation an: Sie analysiert wissenschaftliche Publikationen vollautomatisch und ermittelt, wie viel Aufmerksamkeit einzelne Nachhaltigkeitsziele in der Forschung erhalten. Dadurch wird die bestehende Forschung «durchsuchbar» und Entscheidungsträgerinnen und -trägern zugänglich gemacht. Dadurch lassen sich Forschungslücken in Politik und Wissenschaft systematisch erkennen und Organisationen gewinnen eine fundierte Grundlage, um ihre Nachhaltigkeitsstrategien datenbasiert weiterzuentwickeln.

Um solche Klassifikationssysteme zu verbessern, führte die Swiss Text Analytics Conference (SwissText) – eine jährliche Schweizer Konferenz, die Fachleute aus Industrie und Wissenschaft in den Bereichen Textanalyse, Verarbeitung natürlicher Sprache und Computerlinguistik vereint – einen sogenannten Shared Task durch. Dabei handelt es sich um einen gemeinsamen Wettbewerb, bei dem alle Forschungsteams anhand eines identischen Datensatzes dieselbe Fragestellung bearbeiten. Die beste Lösung gewinnt den Shared Task.

Selbstoptimierender Ansatz

Für den SDG-Klassifikationswettbewerb stellte das Organisationsteam der Universität Zürich einen Trainingsdatensatz aus mehreren hundert wissenschaftlichen Abstracts bereit. Ein Abstract ist eine kurze Zusammenfassung eines wissenschaftlichen Artikels – meist ein bis zwei Absätze, die erklären, worum es in der Studie geht, was untersucht wurde und warum der Artikel wichtig ist. Alle im Datensatz enthaltenen Abstracts waren mit einem Label versehen, das angab, ob diese ein SDG behandeln und wenn ja, zu welcher SDG-Kategorie sie gehören. Die Aufgabe der Künstlichen Intelligenz (KI) war es, aus diesen Beispielen zu lernen, wie typische Texte zu jedem SDG aussehen, um unbekannte Texte später korrekt einsortieren zu können. Der Trainingsdatensatz hatte allerdings zwei entscheidende Nachteile: Zum einen war er sehr klein und zum anderen war er nicht ausgewogen. So sind einige SDGs in Forschungspublikationen sehr präsent, während andere nur selten vorkommen. Das hat zur Folge, dass KI-Modelle vor allem jene SDGs erkennen, die besonders häufig vorkommen.

Um diesem Problem entgegenzuwirken, entwickelte ein Team der FH Graubünden im Rahmen des  Shared Task einen kreativen Ansatz: Es sammelte Fehleinschätzungen der KI und nutzte diese als Grundlage, um zusätzliche Trainingsbeispiele automatisch zu generieren. Die KI erhielt also nicht nur menschlich erstellte Beispiele, sondern erzeugte zusätzlich synthetische Trainingsdaten und verbesserte sie anschliessend gezielt anhand ihrer eigenen Fehler. Im Kern basiert die Methode auf drei Elementen: der Generierung von synthetischen Trainingsdaten, dem Training des Modells sowie der Analyse und Fehlerkorrektur.

KI lernt, feine Unterschiede besser zu verstehen

Zuerst wurden mit Hilfe grosser Sprachmodelle wie GPT und Llama und einem zielgerichteten Prompt (z. B. «Schreibe zehn wissenschaftliche Abstracts zu SDG 5 – Gleichstellung der Geschlechter») realistisch klingende Titel und Zusammenfassungen, die wie echte Forschung wirken, generiert und dem Trainingsdatensatz hinzugefügt. Dieser wurde dadurch ausgeglichener, da es nun mehr Abstracts zu unterrepräsentierten SDGs gab. Anschliessend wurde das Modell mit einem kleinen Grundklassifikator trainiert, der sowohl die echten als auch die synthetischen Abstracts berücksichtigte. Als KI-Modell nutzten die Forschenden eine kompakte Version von BERT, einem bekannten Sprachmodell. Damit liessen sich auch mit geringer Rechenleistung schnell solide Ergebnisse erzielen. Zuletzt analysierte die KI ihre Fehler und erzeugte neue Texte, die genau diese Fehler behoben. Dies ist der intelligenteste Teil der Methode und wird «Boundary Scouting» genannt. Mittels eines XAI-Werkzeugs (Explainable AI) erkundete das System die Grenzen zwischen ähnlichen SDG-Kategorien und analysiert, welche Wörter die KI in die falsche Richtung gelenkt haben. Das Wort «solar energy» zum Beispiel führte oft zu SDG 13 (Klimaschutz), obwohl sich die Texte häufig auf SDG 7 (saubere Energie) bezogen. Mit diesen «problematischen Begriffen» erzeugte die KI neue synthetische Abstracts – aber diesmal im richtigen Kontext. Es entstanden Texte, die gezielt zeigten: «Trotz dieser schwieriger Wörter gehört der Text zu SDG 7.» Anschliessend wurde das Modell mit den neuen massgeschneiderten Trainingsdaten erneut trainiert. So lerne die KI, feine Unterschiede besser zu verstehen – also genau an jenen Stellen, an denen sie zuvor unsicher gewesen war.

Die Forschenden der FH Graubünden testeten zwei Versionen: «Syn», die nur aus klassisch erzeugten synthetischen Daten bestand, sowie  «Syn+», die zusätzlich die fehlerkorrigierten Texte enthielt. Die Ergebnisse zeigen: Die zweite Version war in allen Kategorien besser. Insbesondere die Genauigkeit beim Erkennen der richtigen SDG-Klasse stieg deutlich. Besonders ähnliche und häufig verwechselte SDGs konnten klarer unterschieden werden. Damit beweist der Ansatz: Eine KI, die ihre eigenen Fehler versteht und daraus neue Beispiele generiert, kann besser lernen als mit herkömmlichen Methoden. Das Team der FH Graubünden hat mit diesem Ansatz den Shared Task an der SwissText 2024 gewonnen. 
 

Beitrag von

Norman Süsstrunk, Wissenschaftlicher Projektleiter, Schweizerisches Institut für Informationswissenschaft

Prof. Dr. Albert Weichselbraun, Dozent, Schweizerisches Institut für Informationswissenschaft