Eines der interessanten neuen Werkzeuge die ich in meinem täglichen Arbeitsleben verwende ist das IBM Watson Knowledge Studio.
Mit dem Watson Knowledge Studio (kurz WKS) können wir domänenspezifisches Expertenwissen in eine für lernende Systeme verständliche Form bringen. Auf Basis dieses Wissen trainieren wir dann einen Algorithmus – Maschinelles Lernen – der dieses Wissen auf neuen, unbekannten Texten anwenden kann.
Ich kann damit also der Maschine beibringen welche Begriffe und Zusammenhänge in einem Text wichtig für mich sind. Ausgestattet mit diesem Wissen kann die Maschine dann zum Beispiel in sekundenschnelle tausende von Seiten für mich lesen und analysieren und mir gezielt die für mich relevanten Informationen präsentieren.
Leider gibt es wenig Informationen zum IBM Watson Knowledge Studio in Deutsch. Daher möchte ich in diesem und den folgenden Beiträgen beschreiben wie wir konkret in solchen Projekten vorgehen und auch ein paar Einblicke schaffen wie sich diese neue Vorgehensweise von früheren Textanalyseansätzen unterscheidet.
Maschinelles Textverständnis früher und heute
Traditionell haben wir die Analyse von unstrukturierten Texten über Wörterbücher und syntaktische Regeln gemacht. Damit kommt man auch durchaus sehr weit, es gibt aber Grenzen. Wenn ich zum Beispiel wichtige Begriffe rein über Wörterbücher finden möchte habe ich ein Problem wenn Wörter falsch geschrieben sind oder neue wichtige Begriffe auftauchen, an die ich vorher nicht gedacht habe oder die mir komplett unbekannt sind.
Dies kann man zwar zum Teil über syntaktische Regeln abfangen, die zum Beispiel Signalverben in Beziehung zu Nomen im gleichen Satz stellen, aber solche Regeln händisch zu entwerfen ist immer recht aufwendig und fehleranfällig.
Mit dem neuen Ansatz des maschinellen Lernen trainiere ich das System darauf aus dem Textzusammenhang zu erkennen was wichtig ist, nicht auf Basis der einzelnen Worte aus einem Wörterbuch. Das ist besonders bei der Erkennung neuer unbekannter Begriffe eine sehr erfolgreiche Vorgehensweise.
Über IBM Watson Knowledge Studio
IBM Watson Knowledge Studio ist eine Cloud-basierte Anwendung, mit der diese neuen Algorithmen speziell auf meinen Bereich hin trainiert werden können. Und zwar von jedermann, man muss dafür keine besondere Ausbildung oder besonders tiefe technische Kenntnisse mitbringen.
Wie machen wir das nun konkret? Der wesentliche Schritt ist das wir dem System auf Basis von Beispieltexten beibringen welche Begriffe und Zusammenhänge für uns wichtig sind. Es ist also ein „supervised machine learning“, also maschinelles Lernen unter Aufsicht.
Die Vorgehensweise an sich ist ein bißchen so wie wenn ich einen Text lese und mit einem Textmarker markiere was mich interessiert. Dieses markieren nennen wir „Human Annotation“, also vom Menschen gemachte Annotationen.
Das sieht dann so aus:
Damit erstelle ich das sogenannte „Ground Truth“, also das Basiswissen.
Dieses Wissen nutzt dann die Maschine um durch maschinelles Lernen die wichtigen Begriffe und ihre Zusammenhänge zu verstehen.
Es entsteht ein Modell das ich nun auf neue Texte loslassen kann und das mir auch in diesen neuen Texten meine wichtigen Begriffe und Zusammenhänge automatisch markiert oder extrahiert.
Mehr Informationen zu IBM Watson Knowledge Studio gibt es unter den folgenden Links, meist in Englisch:
- IBM Watson Knowledge Studio
- Video: Teach Watson with Watson Knowledge Studio
- Video: Watson Knowledge Studio Deep Dive: Overview
Knowledge Studio im Einsatz
Typischerweise läuft ein Projekt mit Knowledge Studio bei uns in folgenden Schritten ab:
- Verstehen der Domäne und des Problems des Kunden.
- Entwerfen eines Typsystems, also der wichtigen Begriffe (Entitäten) und deren Zusammenhänge (Relationen) die gefunden werden sollen.
- Bereitstellen und Vorverarbeitung von relevanten Beispieldokumenten.
- Menschliches Annotieren der Beispieldokumente.
- Trainieren des Maschine Learning Modells.
- Test des Modells. Bei ungenügender Qualität zurück zu entweder 2 oder 3 und nächste Iteration.
- Anwenden des Modells auf weiteren Daten um damit das Geschäftsproblem des Kunden zu lösen, zum Beispiel in der Textanalyse.
Wer WKS selbst ausprobieren möchte kann hier eine kostenlose 30-tägige Testversion vom Knowledge Studio anfordern.
Im nächsten Beitrag „Entwurf eines Typsystems in IBM Watson Knowledge Studio“ beschreiben ich als ersten Schritt die Erstellung eines einfachen Typsystems für WKS.