Principes de base de la chasse aux menaces : se mettre au manuel

ÉCRIT PAR

Adam Swan

Chef d'ingénierie en chasse aux menaces

[post-views]

septembre 25, 2019 · 9 min de lecture

Principes de base de la chasse aux menaces : se mettre au manuel

Table des matières :

L’objectif de ce blog est d’expliquer la nécessité des méthodes d’analyse manuelles (non basées sur des alertes) dans la traque des menaces. Un exemple d’analyse manuelle efficace via l’agrégation/compte des piles est fourni.

L’automatisation est nécessaire

L’automatisation est absolument cruciale et en tant que traqueurs de menaces, nous devons automatiser autant que possible là où c’est possible.

Cependant, l’automatisation repose sur des suppositions concernant les données ou sur l’efficacité de l’automatisation dans un environnement donné. Souvent, ces suppositions ont été faites pour le traqueur de menaces par d’autres analystes, ingénieurs, propriétaires de systèmes, etc. Par exemple, une supposition courante est la mise sur liste blanche des événements de création de processus à partir de System Center Configuration Monitor (SCCM) ou d’autres produits de gestion des bouts de la chaîne dans les détections basées sur des alertes. Un autre exemple est celui des ingénieurs SIEM filtrant les journaux inutilisés pour économiser des ressources. Les attaquants sont de plus en plus conscients d’identifier ces suppositions et de rester cachés en leur sein. Par exemple, des outils ont été développés pour identifier les faiblesses dans la configuration sysmon d’un système [1].

En décortiquant et en inspectant les couches de suppositions, les traqueurs de menaces peuvent réussir à identifier des lacunes dans la visibilité et chasser ces lacunes pour découvrir une compromission. Cet article de blog se concentre sur la suppression de certaines de ces suppositions en utilisant des agrégations pour examiner efficacement les données intéressantes manuellement.

Les approches manuelles sont nécessaires

Peut-être que le principe dominant de la traque des menaces est « Partir du principe qu’il y a une compromission ». Répondre à une compromission implique (presque) toujours une analyse et une intervention humaines manuelles, surtout lors du périmètre. Une délimitation efficace ne se limite pas à examiner des alertes. Une délimitation efficace implique une analyse manuelle des hôtes déjà compromis pour rechercher des indicateurs et des comportements qui peuvent être recherchés dans le reste de l’environnement. Ainsi, en tant que traqueurs de menaces, si nous « partons du principe qu’il y a une compromission », une analyse manuelle est intrinsèquement nécessaire.
Une autre façon de voir les choses est d’observer qu’en ne révisant que des données basées sur des alertes, nous supposons qu’un attaquant réussi déclenchera au moins une règle/alerte dans notre environnement suffisamment claire et exploitable pour que nous puissions prendre une décision qui résulte en l’identification de la compromission.

Cela étant dit, les traqueurs de menaces ne devraient pas se surcharger avec l’analyse manuelle de chaque journal pour chaque source de données dans l’environnement. Au lieu de cela, nous devons identifier un moyen de nous permettre de revoir des données pertinentes et de prendre des décisions aussi efficacement que possible.

Décortiquer la logique utilisée pour alerter sur les événements et agréger sur les champs et contextes que nous utilisons dans notre alerte est un exemple d’analyse manuelle efficace pour la plupart des environnements.

L’agrégation comme exemple (Compte des piles)

Une des méthodes les plus simples et les plus efficaces pour des approches de chasse manuelles est l’agrégation sur des champs intéressants/pertinents de la collecte de données passive dans un contexte spécifique.

Si vous avez déjà utilisé les tableaux croisés dynamiques de Microsoft Office, la commande stats de Splunk ou la commande “top” de Arcsight, vous êtes familier avec ce concept.Remarque : Cette technique est également communément appelée comptage des piles, empilement de données, empilage, ou tableaux croisés dynamiques :). Je crois que les chasseurs novices seront plus familiers avec le concept d’agrégation donc j’utilise ce terme ici. Fireeye semble être le premier à publier ce concept dans le contexte de la traque des menaces [2].

Remarque : Les données passives sont une source de données qui vous informe d’un événement, qu’il soit pertinent pour la sécurité ou non. Par exemple, une source de données passive peut vous indiquer qu’un processus a été créé, qu’une connexion réseau a été établie, qu’un fichier a été lu/écrit, etc. Les journaux hôtes, tels que Windows Event Logs, sont de bons exemples de sources de données passives. Les sources de données passives constituent une grande partie de l’épine dorsale de la plupart des programmes de traque des menaces.À titre d’exemple, l’Image 1 montre une partie d’une agrégation de tous les événements de connexions réseau sysmon avec le port de destination 22 (SSH) dans un environnement sur 30 jours. Un traqueur de menaces pourrait utiliser cette agrégation pour « chasser » les processus qui ne seraient normalement pas associés à des connexions sur le port 22.

Image 1 : Agrégation simple dans Kibana

Image Une:
Champ d’agrégation: Nom du processusContexte: Processus utilisant le port 22 en 30 joursRésultats: 120Temps d’analyse: < 1 minLe contexte est essentiel pour la traque avec les agrégations et il contient l’intention de votre hypothèse de chasse. Le contexte d’une agrégation est typiquement défini dans la requête sous-jacente et exposé à l’analyste via les champs que nous agrégeons et observons. Dans l’Image 1, le contexte de « Processus utilisant le port 22 » est converti en logique de requête (symon_eid == 3 ET port de destination == 22) et en agrégeant/affichant le champ contenant les noms des processus.

Il est important de trouver un équilibre entre la portée étroite ou large du contexte au sein d’une agrégation. Par exemple, dans l’Image 2, j’ai élargi le contexte par rapport à l’image précédente pour renvoyer tous les processus avec des connexions réseau. Il est possible de trouver du mal dans ce contexte, cependant, il sera plus difficile de prendre des décisions sur les données à moins qu’il n’y ait un nom de processus inhabituel évident ou un processus pour lequel il n’y aurait jamais réellement d’activité réseau (ce qui est de moins en moins courant).Image 2:
Champ d’agrégation: Nom du processusContexte: Processus avec connexions réseauRésultats: 1000+Temps d’analyse: 1 min

Image 2 : Une agrégation moins efficace sans suffisamment de contexteEnfin, les agrégations deviennent moins efficaces lorsque les champs qui ne seront pas utilisés pour prendre des décisions sont agrégés. Dans l’Image 3, j’ai ajouté le champ « ID du processus » à notre dernière agrégation. Connaître l’ID du processus peut être utile une fois que nous identifions un processus inhabituel, cependant, cela crée une entrée dupliquée pour chaque combinaison unique de nom de processus et d’ID. Dans l’exemple courant, les résultats ont plus que quadruplé et de nombreux noms de processus ont été dupliqués. Il est important d’agréger sur les champs qui vous permettent de prendre des décisions. Les informations qui peuvent être requises pour identifier un hôte ou un utilisateur spécifique pour le triage devraient être identifiées à l’aide d’une requête supplémentaire avec un contexte étroit. Dans l’exemple tiré de l’image 1, si nous voulions identifier qui utilisait putty pour SSH, nous pouvons utiliser la logique (process_name==”*putty.exe” AND sysmon_eid==3). À mon avis, c’est un domaine où Kibana surpasse les autres outils d’analytique que j’ai utilisés car pivoter entre requêtes et tableaux de bord est très efficace via leur système de filtrage épinglable [4].

Image 3:
Champ d’agrégation: Nom du processus + ID du processusContexte: Processus avec connexions réseauRésultats: 1000+Temps d’analyse: 10 mins

Image 3 : Une agrégation moins efficace avec des champs non contextuels
Remarque : Dans certains systèmes comme Kibana d’Elasticsearch, il est facile de pivoter d’un tableau de données à un autre en utilisant leurs tableaux de bord. Sinon, une fois que vous identifiez une agrégation intéressante un analyste passera typiquement à l’examen des machines hôtes ou comptes qui ont été observés effectuant le comportement intéressant.

Remarque : Vous devez être conscient du piège de la détection d’anomalies. Ne vous fiez pas au concept de « ce qui est commun est bon et ce qui est inhabituel est mauvais » dans les agrégations/comptes de piles. Ce n’est pas nécessairement vrai, car les compromissions impliquent généralement plusieurs machines et les adversaires peuvent essayer de tirer parti de cette supposition pour créer du bruit et paraître normaux. De plus, des logiciels de niche et des cas d’utilisation existent dans presque chaque environnement. Il est facile de se laisser entraîner à trier chaque pile « la moins commune » et perdre du temps à identifier les faux positifs. Connaître l’environnement avant compromission et affiner votre instinct au sujet du comportement des acteurs malveillants [3] vous aidera ici.

Mais est-ce que ça évolue ?

L’analyse manuelle des journaux ne s’adapte pas aussi bien que les alertes car un analyste observera typiquement un seul contexte à la fois. Par exemple, examiner une seule agrégation avec des dizaines voire des centaines de milliers de résultats est courant. Le plus longtemps que vous voudrez vous retrouver à examiner une agrégation est probablement de 10 minutes. Si en tant que traqueur de menaces vous vous trouvez submergé, vous pourriez essayer de réduire le contexte. Par exemple, vous pouvez diviser un environnement de 20 000 hôtes en deux environnements de 10 000 hôtes avec une logique de requête qui sépare les hôtes par leurs noms. Alternativement, vous pourriez identifier des actifs/comptes critiques contenant les « pépites d’or » ou les « clés du royaume » et effectuer une analyse manuelle sur ceux-ci.

Il est possible de créer du contenu, de réviser des alertes et de trier des hôtes de manière assez efficace pour avoir du temps pour des techniques de chasse aux menaces plus manuelles.

Le contenu SIEM disponible dans le TDM de SOC Prime [5] est riche en contenu qui peut être complètement automatisé en tant qu’alertes ainsi qu’en contenu pour permettre des approches plus manuelles de la traque des menaces.

Ressources et remerciements pour les travaux précédents :
[1] https://github.com/mkorman90/sysmon-config-bypass-finder
[2] https://www.fireeye.com/blog/threat-research/2012/11/indepth-data-stacking.html
[3] https://socprime.com/blog/warming-up-using-attck-for-self-advancement/
[4] https://www.elastic.co/guide/en/kibana/current/field-filter.html
[5] https://tdm.socprime.com/login/

Cet article vous a-t-il été utile ?

Aimez-le et partagez-le avec vos collègues.

Rejoignez la plateforme Detection as Code de SOC Prime pour améliorer la visibilité des menaces les plus pertinentes pour votre entreprise. Pour vous aider à démarrer et générer une valeur immédiate, réservez dès maintenant une réunion avec les experts de SOC Prime.

Inscrivez-vous gratuitement Réserver une réunion

Articles connexes

Blog, SIEM & EDR — 9 min de lecture

Surmonter la Complexité des Schémas de Données pour Votre SIEM & XDR avec le Module de Gestion de Contenu Continu de SOC Prime

Eugene Tkachenko

Blog, Plateforme SOC Prime — 5 min de lecture

Uncoder CTI : Instructions étape par étape

Eugene Tkachenko

Blog, SIEM & EDR — 7 min de lecture

Activer la gestion continue du contenu avec la plateforme SOC Prime

Veronika Telychko

Name	Descripiton
PHPSESSID	Preserves user session state across page requests. Cookie generated by applications based on the PHP language. This is a general purpose identifier used to maintain user session variables. It is normally a random generated number, how it is used can be specific to the site, but a good example is maintaining a logged-in status for a user between pages.
sp_i	Used to store information about authenticated User.
sp_r	Used to store information about authenticated User.
sp_a	Used to store information about authenticated User.

Name	Descripiton
tuuid	Collects anonymous data related to the user's visits to the website, such as the number of visits, average time spent on the website and what pages have been loaded.
tuuid_last_update	Collects anonymous data related to the user's visits to the website, such as the number of visits, average time spent on the website and what pages have been loaded.
um	Collects anonymous data related to the user's visits to the website, such as the number of visits, average time spent on the website and what pages have been loaded.
umeh	Collects anonymous data related to the user's visits to the website, such as the number of visits, average time spent on the website and what pages have been loaded.
na_sc_x	Used by the social sharing platform AddThis to keep a record of parts of the site that has been visited in order to recommend other parts of the site.
APID	Collects anonymous data related to the user's visits to the website.
IDSYNC	Collects anonymous data related to the user's visits to the website.
_cc_aud	Collects anonymous statistical data related to the user's website visits, such as the number of visits, average time spent on the website and what pages have been loaded. The purpose is to segment the website's users according to factors such as demographics and geographical location, in order to enable media and marketing agencies to structure and understand their target groups to enable customised online advertising.
_cc_cc	Collects anonymous statistical data related to the user's website visits, such as the number of visits, average time spent on the website and what pages have been loaded. The purpose is to segment the website's users according to factors such as demographics and geographical location, in order to enable media and marketing agencies to structure and understand their target groups to enable customised online advertising.
_cc_dc	Collects anonymous statistical data related to the user's website visits, such as the number of visits, average time spent on the website and what pages have been loaded. The purpose is to segment the website's users according to factors such as demographics and geographical location, in order to enable media and marketing agencies to structure and understand their target groups to enable customised online advertising.
_cc_id	Collects anonymous statistical data related to the user's website visits, such as the number of visits, average time spent on the website and what pages have been loaded. The purpose is to segment the website's users according to factors such as demographics and geographical location, in order to enable media and marketing agencies to structure and understand their target groups to enable customised online advertising.
dpm	Via a unique ID that is used for semantic content analysis, the user's navigation on the website is registered and linked to offline data from surveys and similar registrations to display targeted ads.
acs	Collects anonymous data related to the user's visits to the website, such as the number of visits, average time spent on the website and what pages have been loaded, with the purpose of displaying targeted ads.
clid	Collects anonymous data related to the user's visits to the website, such as the number of visits, average time spent on the website and what pages have been loaded, with the purpose of displaying targeted ads.
KRTBCOOKIE_#	Registers a unique ID that identifies the user's device during return visits across websites that use the same ad network. The ID is used to allow targeted ads.
PUBMDCID	Registers a unique ID that identifies the user's device during return visits across websites that use the same ad network. The ID is used to allow targeted ads.
PugT	Registers a unique ID that identifies the user's device during return visits across websites that use the same ad network. The ID is used to allow targeted ads.
ssi	Registers a unique ID that identifies a returning user's device. The ID is used for targeted ads.
_tmid	Registers a unique ID that identifies the user's device upon return visits. The ID is used to target ads in video clips.
wam-sync	Used by the advertising platform Weborama to determine the visitor's interests based on pages visits, content clicked and other actions on the website.
wui	Used by the advertising platform Weborama to determine the visitor's interests based on pages visits, content clicked and other actions on the website.
AFFICHE_W	Used by the advertising platform Weborama to determine the visitor's interests based on pages visits, content clicked and other actions on the website.
B	Collects anonymous data related to the user's website visits, such as the number of visits, average time spent on the website and what pages have been loaded. The registered data is used to categorise the users' interest and demographical profiles with the purpose of customising the website content depending on the visitor.
1P_JAR	These cookies are used to gather website statistics, and track conversion rates.
APISID	Google set a number of cookies on any page that includes a Google reCAPTCHA. While we have no control over the cookies set by Google, they appear to include a mixture of pieces of information to measure the number and behaviour of Google reCAPTCHA users.
HSID	Google set a number of cookies on any page that includes a Google reCAPTCHA. While we have no control over the cookies set by Google, they appear to include a mixture of pieces of information to measure the number and behaviour of Google reCAPTCHA users.
NID	Google set a number of cookies on any page that includes a Google reCAPTCHA. While we have no control over the cookies set by Google, they appear to include a mixture of pieces of information to measure the number and behaviour of Google reCAPTCHA users.
SAPISID	Google set a number of cookies on any page that includes a Google reCAPTCHA. While we have no control over the cookies set by Google, they appear to include a mixture of pieces of information to measure the number and behaviour of Google reCAPTCHA users.
SID	Google set a number of cookies on any page that includes a Google reCAPTCHA. While we have no control over the cookies set by Google, they appear to include a mixture of pieces of information to measure the number and behaviour of Google reCAPTCHA users.
SIDCC	Security cookie to protect users data from unauthorised access.
SSID	Google set a number of cookies on any page that includes a Google reCAPTCHA. While we have no control over the cookies set by Google, they appear to include a mixture of pieces of information to measure the number and behaviour of Google reCAPTCHA users.
__utmx	This cookie is associated with Google Website Optimizer, a tool designed to help site owners improve their wbesites. It is used to distinguish between two varaitions a webpage that might be shown to a visitor as part of an A/B split test. This helps site owners to detemine which version of a page performs better, and therefore helps to improve the website.
__utmxx	This cookie is associated with Google Website Optimizer, a tool designed to help site owners improve their wbesites. It is used to distinguish between two varaitions a webpage that might be shown to a visitor as part of an A/B split test. This helps site owners to detemine which version of a page performs better, and therefore helps to improve the website.

Name	Descripiton
_hjid	Hotjar cookie. This cookie is set when the customer first lands on a page with the Hotjar script. It is used to persist the random user ID, unique to that site on the browser. This ensures that behavior in subsequent visits to the same site will be attributed to the same user ID.
_hjIncludedInSample	This cookie is associated with web analytics functionality and services from Hot Jar, a Malta based company. It uniquely identifies a visitor during a single browser session and indicates they are included in an audience sample.
intercom-id-[xxx]	This cookie is used by Intercom as a session so that users can continue a chat as they move through the site.
intercom-session-[xxx]	Used to keeping track of sessions and remember logins and conversations.
demdex	Via a unique ID that is used for semantic content analysis, the user's navigation on the website is registered and linked to offline data from surveys and similar registrations to display targeted ads.
CookieConsent	Stores the user's cookie consent state for the current domain.
__cfduid	Used by the content network, Cloudflare, to identify trusted web traffic.
ss	These cookies enable the website to provide enhanced functionality and personalisation . They may be set by us or by third party providers whose services we have added to our pages. These services may include the Live Chat facility, Contact Us form(s), the Product Quotation forms and submission process, and the Email Newsletter sign up functionality .

Name	Descripiton
_ga	This cookie name is asssociated with Google Universal Analytics - which is a significant update to Google's more commonly used analytics service. This cookie is used to distinguish unique users by assigning a randomly generated number as a client identifier. It is included in each page. Registers a unique ID that is used to generate statistical data on how the visitor uses the website. request in a site and used to calculate visitor, session and campaign data for the sites analytics reports. By default it is set to expire after 2 years, although this is customisable by website owners.
_gat	Used by Google Analytics to throttle request rate. This cookie name is associated with Google Universal Analytics, according to documentation it is used to throttle the request rate - limiting the collection of data on high traffic sites. It expires after 10 minutes.
_gid	This cookie name is asssociated with Google Universal Analytics. This appears to be a new cookie and as of Spring 2017 no information is available from Google. It appears to store and update a unique value for each page visited. Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
IDE	Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
r/collect	Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
test_cookie	Used to check if the user's browser supports cookies.
collect	Used to send data to Google Analytics about the visitor's device and behaviour. Tracks the visitor across devices and marketing channels.
ads/user-lists/#	These cookies may be set through our site by our advertising partners. They may be used by those companies to build a profile of your interests and show you relevant adverts on other sites.
c	Registers anonymised user data, such as IP address, geographical location, visited websites, and what ads the user has clicked, with the purpose of optimising ad display based on the user's movement on websites that use the same ad network.
khaos	Registers anonymised user data, such as IP address, geographical location, visited websites, and what ads the user has clicked, with the purpose of optimising ad display based on the user's movement on websites that use the same ad network.
put_#	Registers anonymised user data, such as IP address, geographical location, visited websites, and what ads the user has clicked, with the purpose of optimising ad display based on the user's movement on websites that use the same ad network.
rpb	Registers anonymised user data, such as IP address, geographical location, visited websites, and what ads the user has clicked, with the purpose of optimising ad display based on the user's movement on websites that use the same ad network.
rpx	Registers anonymised user data, such as IP address, geographical location, visited websites, and what ads the user has clicked, with the purpose of optimising ad display based on the user's movement on websites that use the same ad network.
tap.php	Registers anonymised user data, such as IP address, geographical location, visited websites, and what ads the user has clicked, with the purpose of optimising ad display based on the user's movement on websites that use the same ad network.