Zum Inhalt springen

Exabeam Introduces First Connected System for AI Agent Behavior Analytics and AI Security Posture Insight — Mehr lesen

Sicherheitsanalysen mit Big Data: Vergangenheit, Gegenwart und Zukunft

  • 8 minutes to read

Inhaltsverzeichnis

    Big-Data-Analysen für die Sicherheit (oder Cybersicherheitsanalysen) sind ein wachsender Trend, der Sicherheitsanalysten und Tool-Anbietern hilft, Protokoll- und Ereignisdaten deutlich besser zu nutzen. In der Vergangenheit waren SIEMs darauf beschränkt, Korrelationsregeln manuell zu definieren, was instabil und schwer zu pflegen war und zu vielen Fehlalarmen führte.

    Neue Techniken des maschinellen Lernens können Sicherheitssystemen helfen, Muster und Bedrohungen ohne vorherige Definitionen, Regeln oder Angriffssignaturen mit deutlich höherer Genauigkeit zu erkennen. Um effektiv zu sein, benötigt maschinelles Lernen jedoch sehr große Datenmengen. Die Herausforderung besteht darin, so viel mehr Daten als je zuvor zu speichern, sie zeitnah zu analysieren und neue Erkenntnisse zu gewinnen.

    Über diesen Erklärer:

    Dieser Inhalt ist Teil einer Reihe zum Thema Security Information and Event Management (SIEM).


    Wie können Sicherheitsanalysen mit Big Data Cyberbedrohungen bekämpfen?

    Traditionell nutzten Sicherheitstechnologien zwei primäre Analysetechniken zur Erkennung von Sicherheitsvorfällen:

    • Korrelationsregeln– Manuell definierte Regeln, die eine Abfolge von Ereignissen angeben, die auf eine Anomalie hinweisen, die eine Sicherheitsbedrohung, Schwachstelle oder einen aktiven Sicherheitsvorfall darstellen könnte.
    • Netzwerkschwachstellen und Risikobewertung– Scannen von Netzwerken auf bekannte Angriffsmuster und bekannte Schwachstellen, wie z. B. offene Ports und unsichere Protokolle.

    Der gemeinsame Nenner dieser älteren Techniken ist, dass sie bekanntes Fehlverhalten gut erkennen können. Sie weisen jedoch zwei wesentliche Nachteile auf:

    • Falsch-Positive– Da sie auf starren, vordefinierten Regeln und Signaturen basieren, kommt es häufig zu Falsch-Positiven, was zu Alarmmüdigkeit führt.
    • Unerwartete Ereignisse– Was passiert, wenn ein neuer Angriffstyp versucht wird, für den noch keine Regel erstellt wurde? Was passiert, wenn eine unbekannte Art von Malware Ihre Systeme infiziert? Herkömmliche Systeme, die auf Korrelationsregeln basieren, haben Schwierigkeiten, unbekannte Bedrohungen zu erkennen.

    Um diese Art von Analysen durchführen zu können, sind neue Analysemethoden sowie der Zugriff auf größere Datenmengen als je zuvor erforderlich.

    EXPLAINER Security Big Data Analytics

    Data Science, maschinelles Lernen und Cybersicherheit

    Was ist Data Science?

    Data Science ist eine neue Disziplin, die wissenschaftliche und mathematische Analysen von Datensätzen sowie menschliches Verständnis und Erkundung nutzt, um aus Big Data geschäftliche Erkenntnisse abzuleiten.

    Im Kontext der Sicherheit– Data Science hilft Sicherheitsanalysten und Sicherheitstools, Sicherheitsdaten besser zu nutzen, versteckte Muster zu entdecken und das Systemverhalten besser zu verstehen.

    Was ist maschinelles Lernen in der Cybersicherheit?

    Maschinelles Lernen ist Teil des allgemeinen Bereichs der künstlichen Intelligenz (KI). Dabei werden statistische Techniken eingesetzt, um Maschinen das Lernen zu ermöglichen, ohne dass sie explizit programmiert werden müssen.

    Im Kontext der Sicherheit– Maschinelles Lernen geht über Korrelationsregeln hinaus, untersucht unbekannte Muster und verwendet Algorithmen zur Vorhersage, Klassifizierung und Gewinnung von Erkenntnissen.

    Künstliche Intelligenz (KI) wird als Bestandteil vieler Sicherheitsanalyselösungen bezeichnet. Verlassen Sie sich nicht auf die Aussagen der Anbieter – prüfen Sie, was genau der Begriff „KI“ beinhaltet. Wie erstellen Anbieter ihre Modelle? Welche Algorithmen werden verwendet? Werfen Sie einen Blick hinter die Kulissen, um zu verstehen, was genau angeboten wird.

    Überwachtes Lernen vs. maschinelles Lernen

    EXPLAINER Security Big Data Analytics

    Beim überwachten Lernen lernt die Maschine anhand eines Datensatzes, der Eingaben und bekannte Ausgaben enthält. Es wird eine Funktion oder ein Modell erstellt, das es ermöglicht, die Ausgabevariablen für neue, unbekannte Ausgaben vorherzusagen.

    Im Kontext der Sicherheit – Sicherheitstools lernen, neues Verhalten zu analysieren und festzustellen, ob es „ähnlich“ dem zuvor bekannten guten oder schlechten Verhalten ist.

    Überwachtes Lernen vs. maschinelles Lernen

    EXPLAINER Security Big Data Analytics

    Beim unüberwachten Lernen lernt das System aus einem Datensatz, der nur Eingabevariablen enthält. Es gibt keine richtige Antwort, stattdessen wird der Algorithmus dazu angehalten, neue Muster in den Daten zu entdecken.Block hinzufügen

    Im Kontext der Sicherheit– Sicherheitstools nutzen unüberwachtes Lernen, um abnormales Verhalten zu erkennen und darauf zu reagieren (ohne es zu klassifizieren oder zu verstehen, ob es gut oder schlecht ist).

    Was ist Deep Learning in der Cybersicherheit?

    Deep-Learning-Techniken simulieren das menschliche Gehirn, indem sie Netzwerke digitaler „Neuronen“ erstellen und diese nutzen, um kleine Datenmengen zu verarbeiten und ein Gesamtbild zu erstellen. Deep Learning wird am häufigsten bei unstrukturierten Daten angewendet und kann automatisch die signifikanten Merkmale von Datenartefakten erlernen. Die meisten modernen Deep-Learning-Anwendungen nutzen überwachtes Lernen. Block hinzufügen

    Im Sicherheitskontext wird Deep Learning hauptsächlich bei der Analyse von Paketströmen und binären Malware-Dateien verwendet, um Merkmale von Verkehrsmustern und Softwareprogrammen zu entdecken und bösartige Aktivitäten zu identifizieren.

    Was ist Data Mining in der Cybersicherheit?

    Data Mining ist der Einsatz analytischer Techniken, vor allem Deep Learning, um verborgene Erkenntnisse in großen Datenmengen zu gewinnen. So können mithilfe von Data Mining beispielsweise verborgene Beziehungen zwischen Entitäten aufgedeckt, häufige Ereignisfolgen zur Unterstützung von Vorhersagen ermittelt und Klassifizierungsmodelle entwickelt werden, die die Gruppierung von Entitäten in nützliche Kategorien erleichtern.

    Im Sicherheitskontext– Data-Mining-Techniken werden von Sicherheitstools verwendet, um Aufgaben wie die Anomalieerkennung in sehr großen Datensätzen, die Klassifizierung von Vorfällen oder Netzwerkereignissen und die Vorhersage zukünftiger Angriffe auf der Grundlage historischer Daten durchzuführen.

    Was ist User Entity Verhaltensanalyse (UEBA)?

    UEBA-Lösungen basieren auf dem Konzept des Baselining. Sie erstellen Profile, die das Standardverhalten von Benutzern, Hosts und Geräten (sogenannten Entitäten) in einer IT-Umgebung modellieren. Mithilfe von Machine-Learning-Techniken identifizieren sie Aktivitäten, die im Vergleich zu den festgelegten Baselines anormal sind, und erkennen Sicherheitsvorfälle.

    Der Hauptvorteil von UEBA gegenüber herkömmlichen Sicherheitslösungen besteht darin, dass es unbekannte oder schwer fassbare Bedrohungen wie Zero-Day-Angriffe und Insider-Bedrohungen erkennen kann. Darüber hinaus reduziert UEBA die Anzahl falscher Positivmeldungen, da es sich an das tatsächliche Systemverhalten anpasst und dieses lernt, anstatt sich auf vordefinierte Regeln zu verlassen, die im aktuellen Kontext möglicherweise nicht relevant sind.

    Tipps vom Experten

    Steve Moore

    Steve Moore ist Vice President und Chief Security Strategist bei Exabeam. Er entwickelt Lösungen zur Bedrohungserkennung und berät Kunden zu Sicherheitsprogrammen und der Reaktion auf Sicherheitsverletzungen. Er ist Moderator des „The New CISO Podcast“, Mitglied des Forbes Tech Council und Mitbegründer von TEN18 bei Exabeam.

    Meiner Erfahrung nach gibt es hier umsetzbare Tipps, die Ihnen dabei helfen, Big Data-Sicherheitsanalysen und SIEM-Funktionen der nächsten Generation effektiv zu nutzen:

    Nutzen Sie die Dimensionsreduzierung für schnellere Erkenntnisse
    Verwenden Sie Principal Component Analysis (PCA) oder ähnliche Techniken, um Störungen zu reduzieren und sich auf Variablen mit hoher Auswirkung zu konzentrieren. Priorisieren Sie beispielsweise Anomalien basierend auf der Kritikalität der Anlage oder der Nähe zu sensiblen Daten.

    Konzentrieren Sie sich auf die Datenqualität vor der Skalierung
    Der Wert von Big Data hängt von seiner Genauigkeit ab. Stellen Sie sicher, dass die Protokollquellen konsistent sind, Zeitstempel synchronisiert sind und Metadaten (z. B. Benutzer-IDs oder Asset-Tags) angereichert werden, bevor sie in Analysesysteme eingespeist werden.

    Kombinieren Sie überwachte und unüberwachte Modelle
    Nutzen Sie überwachtes Lernen für bekannte Bedrohungen und Compliance-Anforderungen und verlassen Sie sich gleichzeitig auf unüberwachte Modelle wie Clustering oder Isolation Forest zur Erkennung neuer Bedrohungen. Dieser hybride Ansatz verbessert die Gesamtabdeckung.

    Optimieren Sie Datenaufbewahrungsstrategien für Analysen
    Bewahren Sie kritische Datenteilmengen, wie z. B. Authentifizierungsversuche oder Berechtigungsänderungen, in leistungsstärkeren Speicherebenen auf. Diese eignen sich besonders für die Verlaufsanalyse und die Echtzeit-Anomalieerkennung.

    Korrelieren Sie Endpunkt- und Netzwerkanalysen
    Kombinieren Sie Deep Learning anhand von Endpunktdaten (z. B. Dateiausführung oder Speichernutzung) mit dem Netzwerkverhalten (z. B. Verkehrsanomalien), um komplexe Angriffe wie Lateral Movement oder Advanced Persistent Threats (APTs) zu erkennen.


    Algorithmen zum Erkennen von Ausreißern und Anomalien

    Zufälliger Wald

    Random Forest ist ein leistungsstarker überwachter Lernalgorithmus, der die Mängel klassischer Entscheidungsbaumalgorithmen behebt. Ein Entscheidungsbaum versucht, das Verhalten an einen hierarchischen Baum bekannter Parameter anzupassen.

    Im folgenden Baum beispielsweise ist die Kundenzufriedenheit nach zwei Variablen verteilt: Produktfarbe und Kundenalter. Ein Entscheidungsbaumalgorithmus würde fälschlicherweise vorhersagen, dass eine andere Farbe oder ein leicht anderes Alter ein guter Indikator für die Zufriedenheit sei. Dies wird als Überanpassung bezeichnet – das Modell verwendet unzureichende oder ungenaue Daten, um Vorhersagen auf Grundlage neuer Daten zu treffen.

    EXPLAINER Security Big Data Analytics

    Random Forest zerlegt Entscheidungsbäume automatisch in eine große Anzahl von Unterbäumen oder Stümpfen. Jeder Unterbaum hebt unterschiedliche Informationen über die zu analysierende Population hervor. Anschließend wird das Ergebnis jedes Unterbaums ermittelt und durch Mehrheitsbeschluss aller Unterbäume das Endergebnis ermittelt (eine Technik namens „Bagging“).

    Durch die Kombination aller Unterbäume kann Random Forest die Fehler jedes einzelnen Baums aufheben und die Modellanpassung erheblich verbessern.

    Sicherheitsanalysen mit Big Data: Vergangenheit, Gegenwart und Zukunft

    Im Sicherheitskontext kann Random Forest dabei helfen, sequenzielle Ereignispfade zu analysieren und Vorhersagen über neue Ereignisse zu verbessern, selbst wenn die zugrunde liegenden Daten unzureichend oder falsch strukturiert sind.

    Dimensionsreduzierung

    Bei der Dimensionsreduktion handelt es sich um den Prozess der Konvertierung eines Datensatzes mit einer großen Anzahl von Dimensionen (oder Parametern, die die Daten beschreiben) in einen Datensatz mit weniger Dimensionen, ohne dass wichtige Informationen verloren gehen.

    Wenn die Daten beispielsweise eine Längenangabe in Zentimetern und eine andere in Zoll enthalten, ist eine dieser Dimensionen redundant und liefert keine wirklichen Informationen, wie die hohe Korrelation zeigt. Durch das Entfernen einer dieser Dimensionen lassen sich die Daten leichter erklären.

    Im Allgemeinen kann ein Dimensionsreduktionsalgorithmus bestimmen, welche Dimensionen keine relevanten Informationen hinzufügen, und einen Datensatz mit n Dimensionen auf k reduzieren, wobei k < n.

    Neben der Korrelationsanalyse gibt es noch weitere Möglichkeiten zum Entfernen redundanter Dimensionen, darunter die Analyse fehlender Werte, Variablen mit geringer Varianz im gesamten Datensatz, die Verwendung von Entscheidungsbäumen zum automatischen Auswählen der am wenigsten wichtigen Variablen und die Erweiterung dieser Bäume mit Random Forest, Faktorenanalyse, Backward Feature Elimination (BFE) und Principal Component Analysis (PCA).

    Im Sicherheitskontext– Sicherheitsdaten bestehen typischerweise aus Protokollen mit einer großen Anzahl von Datenpunkten zu Ereignissen in IT-Systemen. Mithilfe der Dimensionsreduktion können Dimensionen entfernt werden, die für die Beantwortung der Frage nicht erforderlich sind. Dies hilft Sicherheitstools, Anomalien genauer zu identifizieren.

    Sicherheitsanalysen mit Big Data: Vergangenheit, Gegenwart und Zukunft

    Isolationswald

    Isolation Forest ist eine relativ neue Technik zur Erkennung von Anomalien und Ausreißern. Dabei werden Datenpunkte isoliert, indem ein Merkmal der Daten zufällig ausgewählt und anschließend ein Wert zwischen dem Maximal- und Minimalwert dieses Merkmals zufällig ausgewählt wird. Dieser Vorgang wird so lange wiederholt, bis sich das Merkmal deutlich vom Rest des Datensatzes unterscheidet.

    Das System wiederholt diesen Vorgang für eine große Anzahl von Features und erstellt für jedes Feature einen zufälligen Entscheidungsbaum. Anschließend wird für jedes Feature ein Anomalie-Score berechnet, der auf den folgenden Annahmen basiert:

    • Bei Merkmalen, bei denen es sich tatsächlich um Anomalien handelt, sind nur wenige Isolationsschritte erforderlich, um sie weit vom Rest des Datensatzes zu unterscheiden.
    • Bei Merkmalen, die keine Anomalien darstellen, sind zahlreiche Isolationsschritte erforderlich, um weit vom Datensatz entfernt zu sein.

    Es wird ein Schwellenwert definiert und Merkmale, die relativ lange Entscheidungsbäume benötigen, um vollständig isoliert zu werden, werden als „normal“ eingestuft, der Rest als „abnormal“.

    Im Sicherheitskontext ist Isolation Forest eine Technik, die von UEBA und anderen Sicherheitstools der nächsten Generation verwendet werden kann, um Datenpunkte zu identifizieren, die im Vergleich zu den umgebenden Daten anomal sind.


    SIEM und Big Data Analytics

    Security Information and Event Management (SIEM)-Systeme sind eine Kernkomponente großer Sicherheitsorganisationen. Sie erfassen, organisieren und analysieren Protokolldaten und Warnmeldungen von Sicherheitstools im gesamten Unternehmen. Traditionell wurden SIEM-Korrelationsregeln verwendet, um Sicherheitsvorfälle automatisch zu identifizieren und entsprechende Warnmeldungen auszulösen.

    Da SIEMs Kontext zu Benutzern, Geräten und Ereignissen in nahezu allen IT-Systemen des Unternehmens liefern, bieten sie eine ideale Grundlage für fortschrittliche Analysetechniken. Moderne SIEMs lassen sich entweder in fortschrittliche Analyseplattformen wie UEBA integrieren oder bieten diese Funktionen als integralen Bestandteil ihres Produkts.

    SIEMs der nächsten Generation können maschinelles Lernen, Deep Learning und UEBA nutzen, um über Korrelationsregeln hinauszugehen und Folgendes bereitzustellen:

    • Komplexe Bedrohungserkennung –Moderne Angriffe bestehen oft aus mehreren Ereignistypen, die für sich genommen harmlos erscheinen. Erweiterte Datenanalysen können Daten für mehrere Ereignisse über einen historischen Zeitraum hinweg analysieren und verdächtige Aktivitäten erfassen.
    • Analyse des Entitätsverhaltens –SIEMs können das normale Basisverhalten kritischer Anlagen wie Server, medizinischer Geräte oder Industriemaschinen erlernen und automatisch Anomalien erkennen, die auf eine Bedrohung hindeuten.
    • Erkennung lateraler Bewegungen –Angreifer, die in ein Unternehmen eindringen, bewegen sich typischerweise durch ein Netzwerk, greifen auf verschiedene Rechner zu und wechseln die Anmeldeinformationen, um ihren Zugriff auf vertrauliche Daten zu erweitern. SIEMs können Daten aus dem gesamten Netzwerk und mehreren Systemressourcen analysieren und mithilfe von maschinellem Lernen laterale Bewegungen erkennen.
    • Interne Bedrohungen –SIEMs können erkennen, wenn sich eine Person oder eine Systemressource ungewöhnlich verhält. Sie können die Verbindung zwischen einem fehlerhaften Benutzerkonto und anderen Datenpunkten herstellen, um einen böswilligen Insider oder die Kompromittierung eines Insider-Kontos zu entdecken.
    • Erkennung neuer Angriffsarten –Durch die Nutzung erweiterter Analysefunktionen können SIEMs Zero-Day-Angriffe oder Malware, die keinem bekannten Binärmuster entspricht, erfassen und vor solchen Angriffen warnen.

    Exabeam ist ein Beispiel für ein SIEM der nächsten Generation mit integrierten erweiterten Analysefunktionen– darunter die Erkennung komplexer Bedrohungen, automatische Ereigniszeitleisten, dynamische Peer-Gruppierung ähnlicher Benutzer oder Entitäten, Erkennung lateraler Bewegungen und automatische Erkennung des Asset-Eigentums.

    Mehr über Exabeam erfahren

    Vertiefen Sie Ihr Wissen mit Webinaren, Leitfäden und Analystenberichten.