Digitale Rasterfahndung

Auf den Spuren von Google

Das Ganze ist allerdings noch mit vielen Herausforderungen verbunden“, warnt Nigel Collier, Computerlinguist am Nationalen Institut für Informatik in Japan. Statt nach Terroristen sucht er im Web nach Krankheiten, genauer gesagt nach deren Ausbreitung. Er begibt sich dabei auf die Spuren von Google: Der Suchmaschinenanbieter registriert bereits seit einigen Jahren, in welchen Ländern beispielsweise oft nach Begriffen wie „Grippe“ und den damit verbundenen Symptomen gegoogelt wird. Mit Hilfe dieser Daten erstellt das Unternehmen automatisch eine Karte möglicher Epidemie-Herde.

Eine Reihe von Forschergruppen versucht, diesen Ansatz nun auf eine breitere Datenbasis zu stellen – darunter auch Collier, mit einem Projekt namens Biocaster. „Eines der großen Probleme ist die Menge an Daten, die wir in Echtzeit bearbeiten müssen“, sagt der Informatiker. Allein die von Collier beobachteten Webseiten und Newsletter bringen es an einem durchschnittlichen Tag auf etwa 27 000 Dokumente. Hinzu kommt der beinahe unüberschaubare Datenfluss aus den sozialen Netzwerken.

Aus diesem Wust ermittelt das Programm zunächst die Dokumente, in denen es tatsächlich um Krankheiten geht. Es sortiert doppelt gemeldete Fälle aus und erkennt die ernstzunehmenden Bedrohungen. Am Ende sollen nicht mehr als vier oder fünf Warnungen pro Tag aufkommen. Im Gegensatz zu den Terrorismusforschern aus Arizona setzt Collier dabei auf ein System, das Linguisten eine Ontologie nennen: Im Zentrum von Biocaster steht eine Begriffswelt, in der die Bezeichnungen, Symptome, Pathogene und sprachlichen Zusammenhänge für 300 unterschiedliche Krankheiten verzeichnet sind – ausgearbeitet in zwölf verschiedenen Sprachen.

Da wir es oft mit neuen Krankheiten zu tun bekommen, muss dieses System allerdings lernfähig sein und sich an aktuelle Entwicklungen anpassen“, sagt Collier. Es darf auch nicht zu wahllos vorgehen: Wenn der kanadische Teenie-Star Justin Bieber mal wieder Schlagzeilen macht und bei Twitter das „Bieber Fever“ grassiert, darf der Alarm-Algorithmus den Starkult nicht mit einem Virenausbruch verwechseln. „Wir wollen schließlich niemand nachts um zwei wegen dieser neuen Krankheit aus dem Bett holen“, sagt Collier und schmunzelt.

Schwierigkeiten machen auch noch Krankheiten, die sich wie die Schweinegrippe langsam von Land zu Land ausbreiten. Sie generieren zwar eine große Menge an Nachrichten, es fehlen aber die charakteristischen Aufmerksamkeitsspitzen einer lokalen Epidemie. Und manchmal weist die Biocaster-Software in die Irre, so wie kürzlich bei den jüngsten Krankenhauskeimen in Bremen. Dazu hatten sich viele Bundespolitiker und Behörden geäußert, daher verortete die Software den Ausbruch in Berlin. Dennoch ist Collier ganz zufrieden: Ein Vergleich berechneter Warnungen mit Daten der US-Seuchenbehörde habe ermutigende Ergebnisse geliefert.

Sein Kollege Filippo Menczer von der Indiana University setzt dagegen lieber auf Kontakte statt auf Inhalte. Menczer will wissen, wie sich Ideen in sozialen Netzwerken breitmachen – allen voran in Twitter. Dazu ermittelt er, wie oft einzelne Tweets von anderen Menschen weiterverbreitet oder kommentiert werden, Twitter-Nutzer sprechen dabei in der Regel von „Retweets“ beziehungsweise „Mentions“.

Ob jemand Demokrat oder Republikaner ist, lässt sich zum Beispiel allein daran erkennen, wessen Nachrichten er retweetet“, sagt Menczer. Das amerikanische Zwei-Parteien-System führe dazu, dass Nachrichten aus dem einen Lager auch vorwiegend innerhalb dieser Gruppe weiterverbreitet werden; zu Tweets der gegnerischen Seite gibt es dagegen allenfalls spöttische Kommentare. Das reicht, um die parteipolitische Präferenz eines Nutzers mit einer Sicherheit von 95 Prozent vorherzusagen. Die Analyse des Inhalts von Tweets erreicht nur eine Trefferwahrscheinlichkeit von 91 Prozent.

„Truthy“, wie Menczer sein Programm nennt, kann auch ermitteln, ob Trends in sozialen Netzwerken eine breite Basis haben oder ob sie bewusst von Parteien gestartet wurden, zum Beispiel, um den politischen Gegner mit Schmutz zu bewerfen. Da die Aufmerksamkeit für solch eine Verleumdungskampagne nur mit Twitter-Konten erreicht werden kann, die sich ständig gegenseitig retweeten, fällt die Konstellation in der „Truthy“-Analyse sofort auf. „Wir können solche Fälschungen mit einer Sicherheit von mehr als 95 Prozent ermitteln“, sagt Menczer.

Gerade erst hat ihm die Forschungsabteilung des Pentagons dafür zwei Millionen Dollar zur Verfügung gestellt. Die staatlichen Schnüffler interessiert allerdings nicht nur, welche politischen Ansichten die Bürger haben und welche aufrührerischen Ideen echt sind. Die Ausschreibungen von Pentagon und FBI zeigen noch ein weiteres Ziel: Die beiden Organisationen wollen auch wissen, wie sie im Web gezielt Stimmung machen können – und zwar, ohne dabei selbst enttarnt zu werden.

09.03.2012, Süddeutsche Zeitung

Advertisements

Ein Kommentar zu “Digitale Rasterfahndung

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s