Minulou časťou sme začali rozoberať tretí stupienok kyberbezpečnostnej hierarchie potrieb – potrebu detekcie. Konkrétnejšie sme sa zaoberali detekciou vzorov, ktoré konkrétne popisujú neautorizovanú činnosť. Príkladom takýchto vzorov sú napr. AV signatúry, IDS pravidlá alebo korelácie v štandardných SIEM systémoch.
Hlavným problémom tohto prístupu je veľká špecifickosť vzorov – zodpovedajú konkrétnej operácii alebo deju a pri zmene útoku je nutné tento vzor upraviť alebo vyrobiť nový, čo so sebou prináša netriviálnu časovú náročnosť a tiež nutnosť určitej expertnej znalosti v príprave detekčných metód. Tento problém sa s premenlivým úspechom snažia adresovať rôzne projekty a nástroje, ako je napr. MITRE ATT&CK, Sigma alebo YARA. Stále však ide svojim spôsobom o prístup blacklistingu – snažiť sa popísať všetky možné neautorizované operácie. Opačný prístup, whitelisting, vidíme u druhého typu detekcií – detekcie anomálií, kde základnou činnosťou je popísanie štandardného alebo žiadaného stavu a detekčné metódy sa sústredia na akékoľvek odchýlky.
Detekcia anomálií
Tento prístup k detekciám nie je nový, prvé detekcie založené na štatistických metódach siahajú desiatky rokov dozadu, ničmenej rýchly vývoj v oblasti spracovania veľkých dát a strojového učenia mal za následok ich veľké rozšírenie v posledných rokoch. Pojem anomália asi nemusím vysvetľovať, čo je podstatné, je skôr spôsob určenia toho, čo je normálne. Dlhú dobu boli na to využívané štandardné štatistické metódy s pomerne typickou aplikáciou na detekciu sieťových anomálii – objem komunikácie, dĺžka komunikácie, využitie portov a rôzne ďalšie metriky a ich kombinácie.
Typickým jednoduchým príkladom na ilustráciu môže byť napríklad detekcia anomálií v objeme prenesených dát nejakej IP adresy za 15 minút. Ak objem stúpne oproti predchádzajúcim 15 minútam o viac ako 1000%, je to anomália. Vidíme hneď minimálne 1 problém – čo sa stane, keď človek príde ráno do práce, zapne počítač a zrazu prirodzene prenesie obrovské množstvo dát oproti 15 minútam, keď ešte v práci nebol. Mohli by sme to vyriešiť tak, že metóda bude fungovať iba v nejakom čase. Čo ale s počítačmi, ktoré sú využívané v iných časoch? Možno použijeme priemer za dlhší čas? Takto môžeme pokračovať donekonečna. Čo je horšie, každá takáto eventualita, s ktorou musíme počítať, nás stojí ďalší kúsok výkonu a času.
Ak sme pri detekciách vzorov hovorili, že „presne toto je zlé a keď to nájdeš, tak ma upozorni„, tu hovoríme, že „takto je to všeobecne normálne, všetko čo je inak je zle…ale vlastne toto nie je zle, a vlastne ani toto…a upozorni ma, až keď skontroluješ týchto 20 výnimiek“. Snažím sa povedať, že navrhnúť dobrú detekčnú metódu založenú na štatistických metódach môže byť oveľa náročnejšie než v prípade vzorov.
Pomoc prišla s rozvojom analýzy veľkých dát a strojového učenia, ktorý bol možný vďaka rastúcemu výkonu počítačov. Nepovedal by som, že sme zrazu vyriešili všetky problémy detekcie anomálií, ale dokázali sme sa posunúť od rôznych štatistických metód ku kvalitatívnej analýze, dokážeme sledovať oveľa viac faktorov naraz a rýchlejšie ich vyhodnocovať. Takéto detekčné metódy nachádzame hlavne v rôznych User and/or Entity Behavior Analysis (UBA, EBA, UEBA) riešeniach, ktoré sa snažia namodelovať nad obrovským množstvom dát, ako vyzerajú činnosti daného užívateľa alebo zariadenia normálne a rôzne odchýlky od tohto normálu predstavujú anomálie. Tieto nástroje nevyhodnocujú už len počty a štatistiku, ale dokážu vidieť aj „dovnútra“, dokážu spracovať obsah komunikácie, spustené programy, stromy procesov a pod.
S tým však prichádzajú ďalšie nové problémy riešené v oblasti strojového učenia, najmä čo sa týka získavania kvalitných dát, návrhu a testovania modelov strojového učenia, či overiteľnosti výsledných detekcií.
Práve overiteľnosť však nie je problémom len u detekcie anomálií, ale spolu s korektnosťou a ďalšími všeobecnými vlastnosťami detekcií, sa dotýka aj detekcie vzorov, o čom si viac povieme v nasledujúcom čísle.
Dávid Kosť, Lead Security Analyst, Axenta a.s.
Peter Jankovský, CTO, Axenta a.s.
Obrázek: Matt Swann