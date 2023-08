HPI-Wissenspodcast zur Datenqualität von Künstlicher Intelligenz

Potsdam (ots) - Der AI-Act der Europäischen Union soll ein Regelwerk für KI-Anwendungen etablieren, um sie sicherer und vertrauenswürdiger zu machen. Gerade beraten EU-Kommission, EU-Rat und das EU-Parlament die Einzelheiten der EU-Verordnung. Ein wichtiger Punkt darin ist auch die Qualität der Daten, mit denen KI-Modelle trainiert werden. Die neue Ausgabe des HPI-Wissenspodcasts "Neuland" geht der Frage nach, wie die Datenqualität für solche Anwendungen verbessert werden kann. Zu Gast in dieser Episode sind Prof. Felix Naumann, Leiter des Fachgebiets "Informationssysteme" am Hasso-Plattner-Institut (HPI) und Dr. Hazar Harmouch, Postdoctoral Researcherin am HPI.

Wenn KI-Modelle auf unbalancierten, unvollständigen oder fehlerhaften Daten trainiert werden, kann das schwerwiegende Folgen für das errechnete Ergebnis haben. Bestehende Ungleichheiten können erlernt und damit noch vergrößert werden. Eine hohe Qualität der Datengrundlage ist daher unerlässlich, jedoch schwierig zu erreichen. "Ich fürchte, Daten sind nie perfekt," sagt Prof. Naumann. "Das ist eine Wunschvorstellung[...]. Nicht nur sollen sie relevant und vollständig sein, sondern es gibt noch viele weitere Eigenschaften. Sie sollten zum Beispiel aktuell sein, sie sollten glaubwürdig sein, verständlich, konsistent. Datenqualität kann man in vielen verschiedenen Dimensionen messen."

Um die Qualität dieser Daten zu erhöhen, gibt es daher auch verschiedene Ansätze. "Eine Möglichkeit besteht darin, die Trainingsdaten vor ihrer Verwendung zu bereinigen," erklärt Dr. Harmouch. Hier werden zum Beispiel weitere Datensätze hinzugefügt, die ein Ungleichgewicht ausgleichen. Mitunter kommen hier auch synthetische Daten zum Einsatz, die etwa im Anwendungsfall eines Einstellungsprozesses gleichzeitig den Datenschutz gewährleisten: "Wenn wir ein KI-Modell nicht mit Personaldaten füttern wollen, können wir statt diesen qualitativ hochwertige synthetische Daten generieren, die die gewünschte Stichprobe von Kandidaten für eine bestimmte Position simulieren."

