Die Idee

Ausgangsproblem

Jeden Tag, jede Stunde wird im Internet eine schier unendliche Zahl von Fakten zu den Brennpunkten auf dieser Welt publiziert. Darunter sind zeitintensiv recherchierte, mit Hintergrundwissen angereicherte journalistische Beiträge, Blog-Artikel, die aktuelle Ereignisse in die Erfahrungswelt der Autoren einzubinden versuchen, Augenzeugenberichte in sozialen Netzwerken und unzählige Kommentare von Internetnutzern, die sich zu diversen Medienveröffentlichungen äußern.

Als politikinteressierter Internetnutzer möchte ich mir zu einem bestimmten Thema/Ereignis eine Meinung bilden. Wie aber filtere ich aus dem unübersehbaren Datenstrom diejenigen relevanten Beiträge heraus, die mir in meiner knapp bemessenen Zeit eine möglichst ‚objektive‘ Übersicht über das Thema geben können?

Relevanz verknüpft sich bei mir mit gewissen Ansprüchen an die zu filternden Informationen. Themenspezifität, Aktualität, Sachlichkeit, Unparteilichkeit, Vielfalt der Standpunkte und Nennung von Referenzen wären dabei denkbare Hauptkriterien.

Abb. Big Data Simulation
Wie finde ich aus der schier unendlichen Menge aktueller Nachrichten das für mich Relevante heraus?

State of the Art

Welche Möglichkeiten hätte ich aktuell, zu Beginn des Jahres 2017, um mir einen Nachrichtenüberblick zu einem speziellen Thema zu verschaffen?

    • Suchmaschinen: ⇒ Google-News - ordnet die Suchergebnisse nach von Google definierten, inhaltsunabhängigen Relevanzkriterien wie Verlinkung, Zitation, Besucherzahlen o.ä., ⇒ Tersee - ist extrem schnell und aktuell. Sortiert die Treffer chronologisch nach Aktualität. Angezeigte verwandte Suchbegriffe können für eine Feinsuche verwendet werden.
    • Aggregatoren: ⇒ Flipboard gestattet dem Nutzer individuell News aus aktuell (Flipboard 3.0) 34.000 fixen Themen zu abonnieren. ⇒ Facebook Paper ist ähnlich. Beide ermöglichen das Teilen ihrer individuellen Einstellungen über soziale Netzwerke.
    • Einzelmedienrecherche: Diverse, z.B. ⇒ Spiegel Online. In der Regel kann man Artikel thematisch über eine vorab selektierte Rubrik (Politik, Wirtschaft, Sport etc.) filtern, oder aber über die klassische Zeichenkettensuche.

Keines der derzeit verfügbaren Portale bietet die Möglichkeit, nach vom Nutzer selbstbestimmten inhaltlichen und qualitätsdefinierten Kriterien zu suchen. Diesem Anspruch am nächsten kommt die brandneue Suchmaschine des Berliner Start-Up's Tersee, deren Unzulänglichkeit im Moment jedoch noch darin besteht, dass eine große Anzahl paralleler Meldungen ähnlichen Inhalts in der Trefferliste erscheint, und nicht zwischen hochwertigem Qualitätsjournalismus und einem Artikel auf Boulevardniveau unterschieden werden kann.

Neu bei iKANTOS

1. Die kontextabhängige Suche

Alle Worte einer Sprache stehen untereinander in einem Sinnzusammenhang. Die Bedeutung bestimmter Wörter erschließt sich erst aus der semantischen Umgebung, in der sie verwendet werden. »Jaguar« kann sowohl die Bezeichnung für ein Tier als auch der Name einer Automarke sein. Es kommt auf den Kontext an, in dem das Wort genannt wird. »Jaguar + Fell« definiert eindeutig das Tier, während »Jaguar + Motor« das Auto adressiert. Eine intelligente Suche nutzt die in einer externen Wissensbasis gespeicherten Beziehungen zwischen Worten und Wortgruppen (Ontologie), um im Sinne des speziellen Nutzers genauere Ergebnisse zu liefern. Im Falle des Jaguars würde eine intelligente Suchmaschine im ersten Schritt zwar alle Jaguartreffer kontextunabhängig auflisten, gleichzeitig aber fragen, in welchem Sinne die Suche gemeint sei: als Tier oder Automarke.

Der Nutzen der Einbindung einer Ontologie lässt sich an einem aktuellen Beispiel der politischen Berichterstattung illustrieren: Würde man die Zeichenkette »Ukraine-Konflikt« als Suchkriterium eingeben, würden alle in Bezug zum Thema Ukraine-Konflikt stehenden Artikel als Treffer gelistet werden, auch solche, die die Suchanfrage »Ukraine-Konflikt« gar nicht enthalten, statt dessen aber »Separatisten + Donezk« oder »Jazeniuk + Gasstreit«. Es wird sozusagen mit einer ‚weichen‘ Wortwolke gesucht: sofern mit der Suchanfrage in enger Beziehung stehende Worte im Beitragstext enthalten sind, werden diese ebenfalls als Treffer qualifiziert. Zusätzlich zu den Suchergebnissen werden die für die Suche verwendete und weitere ihr nahestehenden Wortwolken (sogenannte Ontologie-Konzepte) angezeigt. Mit diesen kann der Nutzer dann ein Feintuning seiner Suche vornehmen, in deren Folge sich die Anzahl der Treffer deutlich, das heißt auf ein überschaubares Maß reduzieren läßt.

Ein Beispiel für eine kontextabhängige Suche, an dem sich iKANTOS-News orientiert, ist die von unserem Projektmitglied TRANSINSIGHT entwickelte Suchmaschine wissenschaftlicher Publikationen http://GoPubMed .org.

Abb. GoPubmed Screenshot
Kontextabhängige Suche in wissenschaftlichen Publikationen zu biologisch und/oder medizinischen Themen..

2. Der Qualitätsfilter

Die für die kontextabhängige Suche verwendeten semantischen Algorithmen können weit mehr. Sie können bis zu einem gewissen Grad den Inhalt der Texte automatisch, ohne ein Eingreifen des Menschen analysieren.

Betrachten wir beispielsweise die verwendete Wortwahl. In einem Artikel eines bekannten Nachrichtenmagazins vom 19.07.2014 zum Absturz von Malaysian Airlines Flug MH17 heißt es: „Separatisten gestehen Abtransport von Leichen ein“. Dem Leser wird suggeriert, die Separatisten hätten ein Fehlverhalten zugegeben. Statt dessen hätte man auch neutral schreiben können: „Separatisten berichten vom Abtransport von Leichen“. Entsprechende hochtrainierte semantische Algorithmen auf der Basis einer gut gebauten Ontologie werden hier sofort eine Tendenz zur Vorverurteilung erkennen. So können diese Algorithmen einen Beitrag zur Bewertung des Qualitätskriteriums ‚Neutralität/Unparteilichkeit in der Berichterstattung‘ leisten.

Analog lässt sich überprüfen, in welchem Verhältnis der zu analysierende Text zu anderen bereits publizierten Artikeln oder allgemeinen Fakten steht: stimmen die verwendeten Ortsbezeichnungen und/oder Bezüge zu anderen Ereignissen oder gibt es ähnliche (abgeschriebene und neu formulierte) Passagen. Auf diese Weise können automatisierte in kurzer Zeit ein Qualitätsprofil von journalistischen Beiträgen erstellen.

iKANTOS-News ermöglicht dem Nutzer, seine Filter auf Basis genau dieser Qualitätskriterien einzustellen.

Realität und Vision

Wo stehen wir im iKANTOS-Projekt? Die Softwaremodule für die kontextabhängige Suche können für iKANTOS-News von der Transinsight-Crew kurzfristig angepasst werden. Aufwand bereitet dabei vor allem die Erstellung der für die Suche notwendigen externen Wissensbasis (Ontologie). Hier hilft uns unser Team vom Datenlabor Berlin. Diverse semantische Algorithmen die zur Qualitätsbewertung von journalistischen Texten herangezogen werden können, gibt es bereits, andere müssen noch programmiert werden. In der Diskussion mit unserem Team und den externen Partnern muss entschieden werden, wie viele unserer Wünsche wir mit einem vertretbaren Budget in der dafür kurzen geplanten Zeit realisiert werden können. Die Erstellung des detailabgestimmten Projektplans steht als nächster Schritt zur Umsetzung an.
[Stand: Januar 2017]