Nicolas Müller, wissenschaftlicher Mitarbeiter in der Abteilung Cognitive Security Technologies des Fraunhofer AISEC

Die Bedrohungen sind dieselben, aber die Möglichkeiten steigen - Chancen und Grenzen von Maschinellem Lernen in der IT-Security

28.1.2020

Machine Learning hat sich im Laufe des letzten Jahrzehnts zunehmend im Alltag etabliert. Einer der Hauptgründe dafür ist, dass es Wissenschaftlern immer wieder gelingt, Probleme zu lösen, die mit herkömmlichen Ansätzen nicht handhabbar waren. Beispiele sind die Übersetzung von natürlicher Sprache (etwa Deutsch zu Französisch) oder die automatisierte Erkennung von Bildern oder Methoden in der Steuerung von autonomen Agenten (Stichwort: Reinforcement Learning). Motiviert von diesen Erfolgen spielt Machine Learning auch in der Cybersicherheit eine immer größere Rolle. So lassen sich mithilfe von Machine Learning große Datenströme analysieren und Muster erkennen, die auf Angriffe oder Missbrauchsverhalten hinweisen. Diese Mustererkennung entlastet Administratoren und Cyber-Sicherheitsexperten in ihrer Arbeit.

Eine große Herausforderung für Sicherheitstechnologien sind die sogenannten ‚False-Positives‘, also Fehlalarme in Situationen, in denen eigentlich kein Angriff bzw. Missbrauchsverhalten auftritt. Nutzer haben gegenüber diesen Falschmeldungen eine sehr geringe Toleranz, da die Software sie bei diesen Alarmen zum Eingreifen aufruft – und auf diese Weise Mehrarbeit verursacht. Die Konsequenz daraus: Nach wiederholt auftretenden False-Positives ist die Geduld am Ende und der Nutzer akzeptiert das Warnsystem nicht mehr. Bei mehr als Millionen täglicher Aktivitäten, wie es im Serversystem eines mittelständischen Unternehmens häufig der Fall ist, sollten die Systeme eine False-Positive-Rate von weit weniger als ein Prozent aufweisen.

Die False-Positives in KI-Systemen zu eliminieren, scheint auf den ersten Blick einfacher als es in der Praxis ist. Denn es gibt unzählige Grenzfälle, die sich zwar mit menschlichem Wissen und Instinkt gut als Fehlalarm zuordnen lassen, Machine-Learning-Algorithmen hingegen schnell überfordern. Ein Beispiel ist das Kreditkartenverhalten eines Kunden, im Zeitverlauf betrachtet: Hat der Besitzer der Karte durchschnittlich einen monatlichen Umsatz von rund 500 Euro in Deutschland getätigt und wird dann ein vierstelliger Betrag im Ausland abgebucht, kann diese Bewegung einen automatisierten Alarm auslösen. Ein menschlicher Mitarbeiter kann bei der manuellen Prüfung allerdings schnell erkennen, wenn der Kunde nur verreist ist und im Ausland beispielsweise ein Auto gemietet oder eine Hotelrechnung bezahlt hat.

Derartiges menschliches Verständnis in KI-Systeme zu integrieren, ist eine der großen aktuellen Herausforderungen der Machine-Learning Forschung. Eine Lösung hierfür können fortgeschrittene Lernverfahren sein, die die Transaktionen nicht isoliert betrachten, sondern korrelieren. Unter Umständen hat der Kunde nämlich zwei Monate zuvor eine Flugbuchung über die Karte bezahlt, was den Rückschluss einer Reise zulässt.

 

Herausforderungen Lerndaten

Übertragen auf den Netzwerkverkehr in einem Unternehmen mit mehreren hundert oder gar tausend Anwendern und noch mehr Endpunkten gilt es zunächst ein tiefes Verständnis der Ausgangslage zu gewinnen: Dazu gehört einerseits die Architektur des gesamten Systems und das Verhalten der Anwender zu verstehen, andererseits ein umfassendes Wissen um Angriffsvektoren und Lernalgorithmen der Anomalieerkennung zu erhalten. Damit jedoch der Algorithmus lernen kann, benötigt er Daten. Deshalb ist eine saubere Datenbasis unerlässlich – die jedoch in kaum einer Organisation existiert. Unstrukturierte, fehlerhafte, in den unterschiedlichsten Formaten und als Duplikate vorliegende Daten sind eher die Regel. Hier kommt die Expertise von Data Scientists ins Spiel: Sie sind es, die mit den Daten und all ihren Fehlern und Schwächen umgehen müssen. Das Unternehmensnetzwerk in einem mittelständischen Unternehmen besteht aus vielen unterschiedlichen Systemen, die miteinander interagieren: Web- und E-Mail-Server, Datenbanken sowie Anwendungen aller Art. Ihre Kommunikation ist zwar standardisiert – jedoch lediglich bilateral. Resultat ist ein babylonisches Sprachgewirr im Netzwerk, das scheinbar nur aus Sonderfällen besteht. Der Algorithmus muss lernen, diese Kakophonie in Normverhalten und Abweichung zu unterscheiden.

Wie lassen sich diese Herausforderungen angehen? Das übergeordnete Ziel ist, Angriffsversuche zu erkennen und zu unterbinden. Dazu müssen zunächst die Angriffsvektoren bekannt sein. Im nächsten Schritt gilt es zu entscheiden, welche Ziele im Netzwerk am wichtigsten zu schützen sind – dort, wo die sensibelsten Daten und Prozesse liegen, also beispielsweise der Zahlungsverkehr. Dann gilt es, diese Bereiche zu analysieren, also deren Normalverhalten zu beobachten und über Parameter zu quantifizieren. Dazu zählen die laufenden Prozesse, der übliche Netzwerkverkehr, die Zugriffe über User und vieles mehr. In diesem Schritt gilt es auch bereits abweichendes, also bösartiges Verhalten, wie schädlichen Code oder erfolgte Angriffsversuche, zu eliminieren, damit diese nicht als ‚Normalverhalten‘ in das System eingelernt werden. Die bereinigten Daten dienen dann als Trainingsbasis für den Algorithmus – Abweichungen davon wird er künftig als Anomalie erkennen und Alarm schlagen.

 

Bedrohungsszenario Data Poisoning

Bekanntlich ist das Feld der IT-Security ein Hase-und-Igel-Spiel und auch Sicherheitsverfahren, die Machine Lerning nutzen, sind da keine Ausnahme. Deren gezielte Manipulation ist ein eigenes Bedrohungsszenario, auch bekannt als Data Poisoning. Darunter versteht man das ‚Vergiften‘ von Datensätzen, anhand derer die Maschine lernt. Dabei versuchen Angreifer das System während des Lernprozesses zu manipulieren, beispielsweise mit gezielt als ‚harmlos‘ deklarierten Viren und Würmern. Werden diese als Trainingsdaten verwendet, wäre das KI-System vergiftet, und bösartiges Verhalten wird als Gutartiges klassifiziert.

Das kann auch umgekehrt der Fall sein: Indem gutartiges Verhalten als bösartiges ausgegeben wird, gerät das System völlig außer Kontrolle, wird vom strapazierten User abgeschaltet und somit von den Angreifern letztlich ausgehebelt. Die Reinheit der Trainingsdaten ist daher extrem wichtig für alle datenbasierten Machine-Learning Verfahren. Diesbezüglich forscht auch das Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC – dieses wissenschaftliche Papier des Autors gibt weitere Details zu diesem Forschungsgebiet.

Damit sich IT-Sicherheitsverantwortliche in Unternehmen mit den Chancen von Machine Learning für den Schutz ihres Netzwerks vertraut machen können, bietet die Fraunhofer Academy das Seminar Maschinelles Lernen für mehr Sicherheit an. Teilnehmende erfahren dort mehr über die Grundlagen und Einsatzbereiche von maschinellem Lernen auf diesem Gebiet, die neuesten Entwicklungen und sind in der Lage einzuschätzen, was die Technologien tatsächlich zu leisten im Stande sind. Sie verstehen die Konzepte und Arbeitsweisen der Algorithmen sowie den Umgang mit Daten und Fehlern. Maschinelles Lernen ist aus zeitgemäßen IT-Securitylösungen bereits heute nicht mehr wegzudenken. Ein profundes Wissen und Verständnis der Funktionsweise ist deshalb zwingende Voraussetzung, um über das geeignete KI-gestützte Schutzkonzept für die Infrastruktur des eigenen Unternehmens zu entscheiden.