Expertenbeitrag

PMP Ingo Meironke

PMP Ingo Meironke

Innovation Manager bei Campana & Schott

Informationsdatenbanken auswerten Automatisch die Nadel im Heuhaufen finden

Autor / Redakteur: Ingo Meironke / Sebastian Human

Angesichts der heutigen Datenflut wird es immer schwieriger, alle Informationen zügig und sorgfältig zu bewerten. Intelligente Systeme können dabei helfen, indem sie eine erste Analyse anhand bestimmter Stichwörter und Zusammenhänge durchführen.

Firma zum Thema

Je mehr Daten man zur Verfügung hat, desto wichtiger wird bei deren Auswertung die Unterstützung durch intelligente Systeme.
Je mehr Daten man zur Verfügung hat, desto wichtiger wird bei deren Auswertung die Unterstützung durch intelligente Systeme.
(Bild: gemeinfrei / Unsplash)

Diese Systeme entfalten ihr Potential vollständig, wenn sie mit Machine Learning kombiniert werden. Wenn Unternehmen diese Datenmengen systematisch abfragen und strukturiert prüfen, können sie nicht nur fundiertere Entscheidungen treffen, sondern sparen auch Zeit und Kosten.

Data Analytics wird in Unternehmen insbesondere durch den Zugriff auf große Datenbanken immer wichtiger. Doch häufig ist eine Auswertung der darin enthaltenen Informationen aufwändig. So müssen zum Beispiel bei Ausschreibungen oder Fachartikeln nach einer ersten Suche meist Hunderte oder Tausende von Treffern zunächst geöffnet, dann gelesen und schließlich bewertet werden. Erst danach sind interessante Kandidaten intern an die Entscheidungsträger oder Fachgremien weiterzuleiten. Diese treffen dann die finale Entscheidung, welche Vorschläge tatsächlich relevant sind – und welche nicht. Die Krux: Das alles geschieht in der Regel manuell und per E-Mail. Wie dies mit Hilfe automatischer Systeme deutlich effizienter und schneller funktioniert, zeigt sich am Beispiel eines Pharmakonzerns.

Inhalte von Datenbanken maschinell vorfiltern

Dieses Unternehmen untersucht jede Woche mehrere hundert klinische Studien zu Medikamenten im Bereich Dermatologie, die es von einer US-Datenbank erhält. Bislang bekommen die zuständigen Mitarbeitenden per E-Mail eine Liste mit mehreren hundert im Laufe der Woche erschienener Veröffentlichungen. Schon für eine erste Begutachtung müssen sie den Link zu jeder Studie einzeln öffnen, um dann auf der entsprechenden Website an eine detaillierte Zusammenfassung und weitere Kennzahlen zu gelangen. Erscheint die Studie interessant, kopieren die Mitarbeiter den Link in eine E-Mail und senden ihn an das Team, das die finale Bewertung vornimmt. Dieses analysiert die Studie und schickt ihr Feedback ebenfalls per E-Mail zurück.

Da die Zeit der Experten knapp und die Ressourcen begrenzt sind, wollte das Unternehmen ein automatisches Vorab-Screening durchführen, damit die Fachleute nur interessante Beiträge auf den Tisch bekommen und diese ausführlicher bewerten können. Die eingehenden Informationen werden nun anhand von Urheber, Inhaltsstoffen, Krankheitsbildern oder Heilerfolg automatisch ausgewertet. Die anfangs von den Experten definierten Stichwörter dienen als Filtersystem, um irrelevante Beiträge auszusortieren.
Der Vorteil dieses Prozesses besteht darin, dass alle Informationen vom System nicht nur automatisch ausgewertet, sondern auch in einer internen Datenbank gesammelt werden. So wird die Masse an Daten noch vor Eingang in die eigene Datenbank reduziert, um dort anschließend auf Relevanz geprüft zu werden.

Erweiterung durch Machine Learning

Die rein automatisierte Auslese lässt sich bei Bedarf durch eine auf Machine Learning basierende Lösung erweitern, die sich selbstständig optimieren und auch die Auswertung automatisieren kann. So zeigt ein trainierter Machine-Learning-Algorithmus – je nach erkannten Begriffen und bisherigen Zustimmungen – eine Relevanz-Wahrscheinlichkeit an und sortiert die Treffer danach.

Auf Grundlage dieser Vorhersage erhält das Pharmaunternehmen pro Woche 10 bis 20 interessante Vorschläge anstelle von 500 bis 1000 Suchergebnissen. Gleichzeitig wird durch den nachvollziehbaren Auswahlprozess durch Machine Learning auch die Transparenz der Kriterien im Vergleich zur oft subjektiven Entscheidung durch Menschen erhöht. Beispielsweise werden die vermutlich vielversprechendsten Studien ganz oben und die weniger interessanten weiter unten gelistet. Entsprechend kann das Unternehmen bessere Entscheidungen zur Zusammenarbeit mit den Urhebern der Studien wie Universitäten oder Start-ups treffen.

Ein weiterer Vorteil dieses hybriden Ansatzes aus Schlagwortsuche und Machine Learning ist, dass für die Schlagwortsuche keine Trainingsdaten nötig sind. Gerade in der Anfangsphase, in der für das Training komplexerer Machine-Learning-Methoden noch zu wenig Experten-Feedback zur Verfügung steht, kann die Schlagwortsuche bereits einen nennenswerten Mehrwert leisten. Wenn im Laufe der Zeit dann die Menge der Trainingsdaten steigt, können die ML-Methoden stärker gewichtet werden, wodurch das System weiter an Flexibilität und Autonomie gewinnt.

Herausforderung: Selbstständiges Lernen

Allerdings sind hier zwei Fallstricke zu beachten: Erstens sollten die zuständigen menschlichen Experten bei der ersten Eingabe auf eine hohe Qualität achten, um die wirklich wichtigen und unwichtigen Begriffe festzulegen. Denn häufig entpuppt sich ein scheinbar wichtiger Begriff in der Realität als nicht so entscheidend. Umgekehrt können scheinbar unwichtige Begriffe entscheidend sein. Daher sollte im ersten Schritt der Experte oder die Expertin manuell die Suchergebnisse prüfen und nebenbei das Machine-Learning-System mitlaufen lassen. So kann es selbst lernen, welche Kriterien relevant sind.

Daraus ergibt sich jedoch der zweite Fallstrick: Das ML-System übernimmt beim selbstständigen Lernen mögliche unbewusste Vorurteile und Vorlieben des Experten (Unconscious Bias) oder erzeugt solche durch Begriffe, die nur zufällig mit wichtigen Stichwörtern einhergehen, aber keinen echten Zusammenhang damit haben. Wenn zum Beispiel ein Großteil der Studien aus den USA kommt, heißt das nicht, dass Studien aus anderen Ländern weniger Relevanz hätten. So entstehen möglicherweise False Negatives und False Positives. Daher sollten Unternehmen sehr sorgfältig beim Training der ML-Systeme vorgehen und sowohl die Stichwörter als auch die Ergebnisse sehr genau prüfen. Nur mit einem iterativen Prozess, der dem menschlichen Lernen gleicht, kann das System durch regelmäßiges Wiederholen und Überprüfen optimiert werden.

Zudem ist ein angemessenes Machine-Learning-Modell auszuwählen. Im Falle des Pharmaunternehmens handelt es sich um die Methode Two Class Logistic Regression, auf dessen Basis der Algorithmus die Wahrscheinlichkeit der Auswahl beziehungsweise der Treffsicherheit vorhersagt. Wenn das gewählte Modell dann verifiziert gute Ergebnisse liefert, kann das automatisierte Vorab-Screening sukzessive entfernt werden. Auf diese Weise kann man dann prüfen, ob das System auch weiterhin alle relevanten Inhalte erfasst – oder gar bislang unentdeckte Studien aufdeckt.

Herausforderung: Datenquellen

Eine große Herausforderung ist die Integration der Datenquellen. Dabei müssen Unternehmen folgende wichtige Fragen beantworten:

  • Wie lassen sich die Daten in automatisierte Systeme integrieren?
  • Liegen die entsprechenden Nutzungsrechte insbesondere für den automatisierten Zugriff vor?
  • Was filtert der Dienstleister des Portals bereits selbst heraus?
  • Wonach wird gefiltert?
  • Geht durch die Filterung etwas verloren und ist „der Rest“ regelmäßig zu screenen?
  • Wie sind die resultierenden Datensätze zu bewerten?

Eine Plattform für alle Mitarbeitenden

Da die automatisierte Analyse die menschliche Prüfung nicht ersetzt, müssen alle Mitarbeitenden sowohl über Datenquellen und Filtereinstellungen als auch über den Bearbeitungsstatus informiert sein. Ein großer Vorteil des Systems ist an dieser Stelle, dass sämtliche Schritte in einer auf Microsoft 365 basierenden Plattform ausgeführt werden. Diese integriert alle Inhalte des Portals, sodass sie sich direkt abrufen lassen. Dabei wird jede Zeile in einen Datensatz überführt. Es gibt dementsprechend keine Medienbrüche mehr, wenn die Experten auf die Übersicht, die Weiterleitung oder die gesamte Studie klicken. Diese Funktionen und Inhalte liegen alle in einer einheitlichen Anwendung vor.

Herausforderung: Mensch

Um alle Mitarbeitenden in Planung, Einführung und Nutzung der automatisierten Systeme einzubinden, ist ein dediziertes Change Management hilfreich. Dann erkennen alle Beteiligten den konkreten Nutzen für ihre tägliche Arbeit und verlieren ihre mögliche Angst, durch einen „Roboter ersetzt zu werden“. In dieser Phase sollte auch Vertrauen bei den Mitarbeitenden aufgebaut werden, dass die maschinellen Systeme keine wichtigen Ergebnisse übersehen oder Themen verwechseln. So kann das ML-System anfangs parallel zu den herkömmlichen manuellen Prozessen laufen, um die Ergebnisse vergleichen zu können und eventuelle Fehler auszubessern. Dann erkennen die Mitarbeitenden auch die Zuverlässigkeit des Systems.

Fazit

Eine automatische Analyse großer Datenmengen erfordert einen gewissen manuellen Aufwand zur Vorbereitung. Dies reicht von der Einbindung der Datenquellen über das positive oder negative Markieren von Daten bis zur Festlegung geeigneter Stichwörter. Dennoch liefert der nachvollziehbare Auswahlprozess und das Training von Machine-Learning-Systemen langfristig Erfolgsfaktoren: Bereits die Reduktion an einzelnen Mailings trägt zur Strukturierung und zum Ausbau eines gezielten Data-Analytics-Prozesses bei. So können Unternehmen künftig fundierte Entscheidungen auf einer optimierten Datengrundlage treffen.

(ID:46982991)