Die Herausforderung, Data Science Zero-Trust zu machen

Wir freuen uns, die Transform 2022 am 19. Juli und virtuell vom 20. bis 28. Juli wieder persönlich zu präsentieren. Nehmen Sie an aufschlussreichen Gesprächen und spannenden Networking-Möglichkeiten teil. Registrieren Sie sich heute!


Am 21. März Präsident Biden gewarnt von Cyberangriffen aus Russland und bekräftigte die Notwendigkeit, den Zustand der Cybersicherheit im Inland zu verbessern. Wir leben in einer Welt, in der Angreifer viele Möglichkeiten haben, unsere Systeme zu infiltrieren. Daher müssen Sicherheitsexperten von heute unter der Prämisse handeln, dass keinem Teil eines Netzwerks vertraut werden sollte. Böswillige Akteure haben im Cyberspace zunehmend freie Hand, sodass an jedem Knoten mit einem Ausfall zu rechnen ist. Dies ist als „Zero-Trust“-Architektur bekannt. In der digitalen Welt müssen wir also jetzt davon ausgehen, dass der Feind überall ist, und entsprechend handeln.

Eine aktuelle Exekutivverordnung der Biden-Administration speziell anruft für einen Zero-Trust-Ansatz zur Sicherung der Daten der US-Regierung, der auf dem des Verteidigungsministeriums aufbaut eigene Zero-Trust-Strategie Anfang dieses Jahres veröffentlicht.

Die digitale Welt ist heute so grundlegend unsicher, dass eine Zero-Trust-Strategie überall dort gerechtfertigt ist, wo Datenverarbeitung stattfindet – mit einer Ausnahme: Data Science.

Es ist noch nicht möglich, die Zero-Trust-Grundsätze zu akzeptieren und gleichzeitig Data-Science-Aktivitäten und die daraus hervorgehenden KI-Systeme zu ermöglichen. Das bedeutet, dass ebenso der Einsatz von KI gefordert wird wachsenebenso die Kluft zwischen den Anforderungen der Cybersicherheit und der Fähigkeit eines Unternehmens, in Data Science und KI zu investieren.

Einen Weg zu finden, sich entwickelnde Sicherheitspraktiken auf die Datenwissenschaft anzuwenden, ist zum dringendsten politischen Problem in der Welt der Technologie geworden.

Das Problem mit Zero Trust für Daten

Die Datenwissenschaft beruht auf menschlichem Urteilsvermögen, was bedeutet, dass bei der Erstellung analytischer Modelle jemandem irgendwo vertraut werden muss. Wie sonst können wir große Datenmengen nehmen, den Wert der Daten bewerten, die Daten bereinigen und transformieren und dann Modelle basierend auf den Erkenntnissen der Daten erstellen?

Wenn wir alle vertrauenswürdigen Akteure vollständig aus dem Lebenszyklus der analytischen Modellierung entfernen würden, wie es die logische Schlussfolgerung des Zero-Trust-Ansatzes ist, würde dieser Lebenszyklus zusammenbrechen – es gäbe keinen Datenwissenschaftler, der sich an der Modellierung beteiligen könnte.

In der Praxis verbringen Data Scientists nur etwa 20 % ihrer Zeit mit dem, was man als „Data Science“ bezeichnen könnte. Die anderen 80 % ihrer Zeit verbringen sie mit mühsameren Tätigkeiten wie der Auswertung, Bereinigung und Transformation von Rohdatensätzen, um Daten für die Modellierung vorzubereiten – ein Prozess, der zusammenfassend als „Datenmunging“ bezeichnet wird.

Data Munging ist das Herzstück aller Analysen. Ohne Munging gibt es keine Modelle. Und ohne Vertrauen kann es kein Munging geben. Munging erfordert einen Rohzugriff auf Daten, es erfordert die Fähigkeit, diese Daten auf eine Vielzahl von unvorhersehbaren Arten zu ändern, und es erfordert häufig uneingeschränkte Zeit, die mit den Rohdaten selbst verbracht wird.

Vergleichen Sie nun die Anforderungen von Munging mit den Anforderungen von Zero Trust. Hier ist zum Beispiel, wie die Nationales Institut für Standards und Technologie (NIST) beschreibt den Vorgang der Umsetzung von Zero Trust in der Praxis:

…Schutzmaßnahmen umfassen normalerweise die Minimierung des Zugriffs auf Ressourcen (wie Daten und Rechenressourcen und Anwendungen/Dienste) auf nur die Subjekte und Vermögenswerte, die als zugriffsbedürftig identifiziert wurden, sowie die kontinuierliche Authentifizierung und Autorisierung der Identität und des Sicherheitsstatus jeder Zugriffsanfrage…

Damit Zero Trust funktioniert, muss nach dieser Beschreibung jede Anfrage zum Zugriff auf Daten einzeln und kontinuierlich authentifiziert werden („Benötigt die richtige Person den richtigen Zugriff auf die Daten?“) und autorisiert werden („Soll der angeforderte Zugriff gewährt werden oder nicht? “). In der Praxis ist dies vergleichbar mit dem Einfügen einer administrativen Aufsicht zwischen einem Autor und seiner Tastatur, wobei jede Taste überprüft und genehmigt wird, bevor sie gedrückt wird. Einfacher ausgedrückt: Die Notwendigkeit des Munge – des reinen, unverfälschten Zugriffs auf Rohdaten – untergräbt jede Grundvoraussetzung von Zero Trust.

Also, was tun?

Zero Trust für Data Science

Es gibt drei Grundprinzipien, die dabei helfen können, die aufkommenden Anforderungen von Zero Trust an den Bedürfnissen der Datenwissenschaft auszurichten: Minimierung, verteilte Daten und hohe Beobachtbarkeit.

Wir beginnen mit Minimierung, ein Konzept, das bereits in eine Vielzahl von Datenschutzgesetzen und -vorschriften eingebettet ist und ein seit langem geltendes Prinzip in der Informationssicherheitsgemeinschaft ist. Das Prinzip der Minimierung besagt, dass nie mehr Daten zugänglich sind, als für bestimmte Aufgaben benötigt werden. Dadurch wird sichergestellt, dass im Falle eines Verstoßes gewisse Grenzen für die Offenlegung von Daten bestehen. Wenn wir in Begriffen von „Angriffsflächen“ denken, stellt die Minimierung sicher, dass die Angriffsfläche so flach wie möglich ist – jeder erfolgreiche Angriff wird gebremst, da der Angreifer, selbst wenn er erfolgreich ist, nicht auf alle zugrunde liegenden Daten zugreifen kann, sondern nur auf einen Teil davon .

Das bedeutet, dass Data Scientists, bevor sie sich mit Rohdaten beschäftigen, begründen sollten, wie viele Daten und in welcher Form sie benötigen. Benötigen sie vollständige Sozialversicherungsnummern? Selten. Brauchen sie vollständige Geburtsdaten? Manchmal. Hashing oder andere grundlegende Anonymisierungs- oder Pseudonymisierungspraktiken sollten so weit wie möglich angewendet werden Grundlinie Abwehrmaßnahme. Die Sicherstellung, dass grundlegende Minimierungspraktiken auf die Daten angewendet werden, dient dazu, die Auswirkungen eines erfolgreichen Angriffs abzuschwächen, und stellt den ersten und besten Weg dar, Zero Trust auf die Datenwissenschaft anzuwenden.

Es gibt Zeiten, in denen eine Minimierung angesichts der Anforderungen des Datenwissenschaftlers und seines Anwendungsfalls möglicherweise nicht möglich ist. Beispielsweise im Bereich Healthcare und Life Sciences führt bisweilen kein Weg daran vorbei, Patienten- oder Diagnosedaten für die Modellierung zu verwenden. In diesem Fall sind die folgenden zwei Grundsätze sogar noch wichtiger.

Der Grundsatz von verteilte Daten erfordert die dezentrale Speicherung von Daten, um die Auswirkungen eines einzelnen Verstoßes zu begrenzen. Während die Angriffsfläche durch Minimierung flach gehalten wird, sorgen verteilte Daten dafür, dass die Angriffsfläche so groß wie möglich ist, was den Zeit- und Ressourcenaufwand für jeden erfolgreichen Angriff erhöht.

Während beispielsweise eine Vielzahl von Abteilungen und Behörden in der US-Regierung massiven Hacks ausgesetzt waren, ist dies bei einer Organisation nicht der Fall: der Kongress. Dies liegt nicht daran, dass die First Branch selbst die Nuancen der Cybersicherheit besser beherrscht als ihre Konkurrenten, sondern einfach daran, dass es aus Sicht der Cybersicherheit keinen „Kongress“ gibt. Jede der über 540 Niederlassungen verwaltet ihre eigenen IT-Ressourcen separat, was bedeutet, dass ein Eindringling sich erfolgreich in Hunderte von separaten Umgebungen hacken müsste und nicht nur in eine. Wie Dan Geer warnte vor fast zwei Jahrzehnten, Diversity gehört zu den besten Schutzmaßnahmen für Single-Source-Ausfälle. Je verteilter die Daten sind, desto schwieriger wird es, sie zu zentralisieren und damit zu kompromittieren, und desto besser werden sie im Laufe der Zeit geschützt.

Eine Warnung jedoch: Diverse Computerumgebungen sind komplex, und die Komplexität selbst ist zeit- und ressourcenintensiv. Die Akzeptanz dieser Art von Vielfalt in vielerlei Hinsicht widerspricht dem Trend zur Einführung von Single-Cloud-Computing-Umgebungen, die darauf ausgelegt sind, die IT-Anforderungen zu vereinfachen und Unternehmen von einem isolierten Datenansatz wegzuführen. Data-Mesh-Architekturen tragen dazu bei, eine dezentralisierte Architektur beizubehalten und gleichzeitig den Zugriff auf Daten über eine einzige Datenzugriffsebene zu vereinheitlichen. In der Praxis können jedoch einige Einschränkungen für verteilte Daten gerechtfertigt sein. Und das bringt uns zu unserem letzten Punkt: hohe Beobachtbarkeit.

Hohe Beobachtbarkeit ist die Überwachung so vieler Aktivitäten im Cyberspace wie möglich, um eine überzeugende Basis für das bilden zu können, was als „normales“ Verhalten gilt, damit bedeutende Abweichungen von dieser Basis erkannt werden können. Dies kann auf der Datenschicht angewendet werden, um zu verfolgen, wie die zugrunde liegenden Daten aussehen und wie sie sich im Laufe der Zeit ändern. Es kann auf die Abfrageebene angewendet werden, um zu verstehen, wie und wann die Daten aus welchem ​​Grund abgefragt werden und wie jede einzelne Abfrage aussieht. Und es kann auf die Benutzerebene angewendet werden, um zu verstehen, welche einzelnen Benutzer wann auf die Daten zugreifen, und diese Elemente sowohl in Echtzeit als auch während Audits zu überwachen.

Grundsätzlich muss einigen Datenwissenschaftlern irgendwo voll vertraut werden, wenn sie ihre Arbeit erfolgreich erledigen sollen, und die Beobachtbarkeit ist die letzte und beste Verteidigung, die Organisationen haben, um ihre Daten zu sichern und sicherzustellen, dass jede Kompromittierung erkannt wird, auch wenn dies nicht der Fall sein kann verhindert.

Beachten Sie, dass die Beobachtbarkeit nur in Schichten Schutz bietet. Unternehmen müssen jede Ebene und ihre Interaktionen verfolgen, um ihre Bedrohungsumgebung vollständig zu verstehen und ihre Daten und Analysen zu schützen. Beispielsweise kann eine anomale Aktivität auf der Abfrageebene angesichts der Benutzeraktivität (ist es der erste Arbeitstag des Benutzers?) oder aufgrund von Änderungen an den Daten selbst (haben sich die Daten so stark verändert, dass eine umfangreichere Abfrage wurde benötigt, um festzustellen, wie sich die Daten geändert haben?). Nur wenn sie verstehen, wie Änderungen und Muster auf jeder Ebene interagieren, können Unternehmen ein ausreichend breites Verständnis ihrer Daten entwickeln, um einen Zero-Trust-Ansatz zu implementieren und gleichzeitig Data Science in der Praxis zu ermöglichen.

Was nun?

Die Einführung eines Zero-Trust-Ansatzes in Data-Science-Umgebungen ist zugegebenermaßen alles andere als einfach. Einigen scheint es zumindest in der Praxis unmöglich, die Grundsätze der Minimierung, der verteilten Daten und der hohen Beobachtbarkeit auf diese Umgebungen anzuwenden. Aber wenn Sie keine Schritte unternehmen, um Ihre Data-Science-Umgebung zu sichern, werden die Schwierigkeiten, Zero Trust auf diese Umgebung anzuwenden, mit der Zeit immer akuter, wodurch ganze Data-Science-Programme und KI-Systeme grundlegend unsicher werden. Jetzt heißt es loslegen, auch wenn der Weg noch nicht ganz klar ist.

Matthew Carroll ist CEO von Immuta.

DatenEntscheider

Willkommen in der VentureBeat-Community!

DataDecisionMakers ist der Ort, an dem Experten, einschließlich der technischen Mitarbeiter, die mit Daten arbeiten, datenbezogene Erkenntnisse und Innovationen austauschen können.

Wenn Sie über innovative Ideen und aktuelle Informationen, Best Practices und die Zukunft von Daten und Datentechnologie lesen möchten, besuchen Sie uns bei DataDecisionMakers.

Vielleicht denken Sie sogar darüber nach, einen eigenen Artikel beizusteuern!

Lesen Sie mehr von DataDecisionMakers


Source: VentureBeat by venturebeat.com.

*The article has been translated based on the content of VentureBeat by venturebeat.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!