Archiv, C4T-Projekt

Semantic New/s/Leak

Ein Algorithmus ermöglicht die schnelle Recherche in gigantischen, unstrukturierten Datensätzen

In Zeiten der Digitalisierung sehen sich Journalistinnen und Journalisten oftmals mit unzähligen, unstrukturierten Datensätzen konfrontiert, deren Größenordnung sich teils von mehreren Tausend bis hin zu Millionen Dokumenten erstrecken kann. Das Finden der ‚Nadel im Heuhaufen‘ und das damit einhergehende Identifizieren der eigentlichen ‚Story‘ innerhalb dieser Textwüsten sowie dem Datenchaos bedeutet für Rechercheure einen zum Teil immensen Zeitaufwand. 2016 demonstrierte die journalistische Arbeit zu den Panama-Papers den massiven Recherche-Aufwand solcher Geschichten par excellence: Die an der Enthüllungsgeschichte beteiligten Investigativ-Journalistinnen und -Journalisten benötigten allerdings Monate für ihre auf Daten basierende Berichterstattung, obwohl sie innerhalb eines internationalen Teams kollaborierten.

Professor Chris Biemann der Universität Hamburg entwickelte mit seinem Team der Abteilung Language Technology in Kooperation mit dem Hamburger Verlagshaus „Der Spiegel“ einen Softwareprototypen, der die Recherchearbeit von Datenjournalistinnen und -journalisten unterstützt: Im Rahmen des von der Volkswagenstiftung finanzierten Projekts „new/s/leak – network of serchable leaks“ entwickelte das Forschungsteam einen Prototypen, der übereinstimmende Namen, Organisationen und Orte innerhalb riesiger Datenmengen automatisch identifiziert, um sie im Anschluss innerhalb eines Netzwerk-Diagramms zu visualisieren. Auf diese Weise lassen sich Strukturen in unstrukturierten Daten sichtbar machen und Zusammenhänge schneller erkennen, wodurch beispielsweise wichtige Akteure einer Geschichte im Rahmen digitaler Dokumentkollektionen herausgefiltert werden können. Mithilfe der Software lassen sich also unbekannte Dokumentbestände schneller erschließen und analysieren, was insbesondere angesichts des journalistischen Zeitdrucks überaus hilfreich ist.

Sprachliche Muster erkennen: Ein Algorithmus lernt hinzu

Möglich ist dies durch einen Algorithmus, der stetig hinzulernt und eigenständig auf vorab klassifizierte Daten reagiert: Innerhalb von 30.000 Sätzen markierten Biemanns wissenschaftliche Hilfskräfte Textabschnitte, in denen Personen, Orte, Organisationen oder andere Sorten von Namen genannt wurden. Mit diesen Informationen ‚fütterten‘ sie den Algorithmus, der anhand dieser Daten eigene Regeln entwickelt, um selbstständig zu erkennen, innerhalb welcher sprachlichen Muster ‚Namen‘ zu finden sind. Im Englischen lässt sich dies beispielsweise durch die Großschreibung und der Verwendung spezieller Verben wie ‚said‘ der Software leicht vermitteln – umso mehr Textstellen markiert sind, umso besser leitet der Algorithmus in einer Art Training eigene Muster zur Erkennung ab. „Am Ende des Trainingsprozesses kennt der Algorithmus viele solcher Regeln. Maschinelles Lernen funktioniert so, dass sich der Algorithmus aus einer Vielzahl möglicher Beobachtungen – ‚Features‘ genannt – diejenigen heraussucht, die für solche Regeln nützlich sind. Für jedes Feature merkt sich der Algorithmus, mit welchem Output — Personenname, Organisation oder Ort — es assoziiert ist. Und wenn ich das Modell dann auf neue Daten anwende, überprüft die Maschine die verschiedenen Features und entscheidet darauf basierend, ob es sich um einen Namen handelt oder nicht“, erklärt Chris Biemann. Insgesamt können mit „New/s/Leak“ nun Informationen aus Dokumentkollektionen in über 40 Sprachen extrahiert und visualisiert werden, wodurch komplexe und tiefe Recherchen im Journalismus unterstützt werden.

„Calls for Transfer“ ermöglicht die Ergänzung einer semantischen Suche

Jedoch braucht es für die journalistische Arbeit im produktiven Alltag noch mehr, als die automatische Auswahl und Visualisierung von herausgezogenen Namen und Orten. Um investigativen Journalismus breit zu unterstützen, sind Professor Biemann, dessen Team und seine Kooperationspartner „Der Spiegel“ und das „European Investigative Kollaboration Network“ aktuell im Rahmen eines von „Calls for Transfer“ finanzierten Projekts dabei, den bereits entwickelten Prototypen durch ein neues Release zu ergänzen und damit noch fähiger wie innovativer zu gestalten. Mithilfe einer semantischen Ähnlichkeitssuche sollen Dokumente automatisch identifiziert werden können, die trotz unterschiedlichem Sprachgebrauch und Vokabular ähnliche Konzepte und damit zusammenhängende Inhalte ausdrücken. Hierfür setzt Professor Biemann herkömmliche Methoden etablierter Suchmaschinen ein, die er mit neuen Verfahren des Dokument-Embeddings verknüpft. Auf diese Weise werden Suchvorgänge und Recherchen möglich, die ohne die Verwendung bestimmter Schlüsselwörter auskommen: Mit der von Professor Biemann entwickelten Methode lässt sich also in Zukunft die berühmte ‚Nadel im Heuhaufen‘ finden, ohne zu wissen, wie diese aussehen könnte.

Mehr Sichtbarkeit auch für Bürgerinnen und Bürger der Hansestadt

Darüber hinaus entstehen in dem „Calls for Transfer“-Projekt nicht nur Ergänzungen der Rechercheoptionen durch eine semantische Suche und eine daran angepasste Visualisierung der extrahierten Daten, sondern auch neue Anwendungsmöglichkeiten der eingesetzten Technologie: Neben der Investigativ-Recherche innerhalb riesiger, geleakter Textbestände soll der Prototyp auch im Bereich Open Government Data angewandt werden können. In Hamburg werden Verwaltungsdokumente aufgrund des Transparenzgesetztes aus dem Jahr 2012 der Öffentlichkeit auf dem Hamburger Transparenzportal in Volltexten zugänglich gemacht. Die new/s/leak Software soll nun diese Texte tiefer durchsuchbar machen: Anstatt sich bei der Suche lediglich an Stichworten orientieren zu müssen, sollen Bürgerinnen und Bürger durch die Software die Möglichkeit erhalten, bestimmte Organisationen, Namen oder auch gleiche thematische Schwerpunkte innerhalb von Protokollen aller Bezirksversammlungen aufzurufen.

Die letzte große Erweiterung angesichts des gerade in Arbeit befindlichen Release wird sich auf die Visualisierung beziehen: Damit Informationen über das Layout der durchsuchten Dokumente nicht verloren gehen, sollen Suchergebnisse auch in den Originaldokumenten angezeigt werden. Die Visualisierung der mittels eines lernenden Algorithmus ‚herausgefischten‘ Ergebnisse gewinnt dadurch einen weiteren Effekt: Gerade das Validieren von Fakten und Informationen ist für Journalistinnen und Journalisten von großer Bedeutung. Durch den vereinfachten Zugang zum Original lässt sich auch diese damit schneller abschließen, wodurch die investigative Berichterstattung enorm erleichtert wird.

Das C4T-Projekt wird noch im Laufe dieses Jahres abgeschlossen.

Mehr zu C4T

Weitere Informationen und Antworten auf häufig gestellte Fragen finden sich hier:

PROJEKTSEITE C4T

Förderrichtlinie Calls for Transfer: PDF-Download

Beantragungsformular: Download

Kontakt 

Ansprechpartnerinnen Calls for Transfer

Mareike Post
Projektleitung der Fördermaßnahme „Calls for Transfer“
Hamburg Innovation GmbH
Telefon: +49 40 76629-3153
E-Mail: post@hamburginnovation.de

Katja Vogler
Projektassistentin Fördermaßnahme „Calls for Transfer“
Hamburg Innovation GmbH
Telefon: +49 40 76629-3158
E-Mail: vogler@hamburginnovation.de

Stories zu C4T

Plastik in Öl umwandeln (Science Scout)

Semantic New/s/Leak (Science Scout)

Im Dialog mit Maschinen (Science Scout)

Durchbruch in der Medizinphysik (Science Scout)

Neue Lösung für das globale Plastikproblem (Science Scout)

RELA
TED

Wissenstransfer per Brettspiel

Kulturelle Blüte und sichtbares Erbe muslimischer Kultur in Europa Aus der Zeit der Ausdehnung muslimischer Herrschaftsgebiete im Mittelmeerraum ab 630 sind bis heute architektonische Zeugnisse

Weiterlesen