Tietoturva paremmaksi big datan ja lokianalyysin avulla

Metsät koostuvat puista, joista jokaisella on oma merkityksensä kokonaisuuden toimivuudessa. Samaan tapaan yrityksen tietoturva koostuu sadoista yksittäisistä asioista, joista jokainen auttaa parantamaan yrityksen tietoturvaa. Jarno Kurlinin (2020) insinööri (YAMK), digitaaliset ratkaisut -koulutusohjelmaan tehdyssä Lokitiedon analysointimenetelmä – opinnäytetyössä tutkittiin lokitiedon analysointimenetelmistä erityisesti sitä, millä tavalla poikkeavuuksia voidaan havaita big dataa analysoitaessa.

Big dataksi kutsutaan sellaista tietoa, jota ei voida analysoida perinteisin datankäsittelytyökaluin. Tieto on usein raakamuodossa tai vain puoliksi jäsenneltyä, eikä ole aivan selvää, kannattaako tällaista dataa edes säilyttää. IBM määrittelee big datan piirteiksi määrän, vaihtelevuuden ja nopeuden. Määrät ovat erittäin isoja, datan laatu vaihtelee jäsennellystä jäsentelemättömään ja dataa kertyy erittäin nopeasti (kuva 1). (Zikopoulos et al. 2012, 3-9.)

KUVA 1. Big dataan liittyviä termejä. Kuva: Wikimedia Commons.

Tilastolliset menetelmät kuuluvat nykyaikaisen tutkimuksen tärkeimpiin menetelmiin kaikilla aloilla (Nummenmaa et al. 2014, 3-4). Nummenmaa et al. mukaan tilastollisten menetelmien avulla voidaan kuvailla tutkimusaineistoa, arvioida riskejä sekä luoda ennusteita päätöksenteon tueksi. Koneoppimisen algoritmien avulla datasta voidaan löytää sellaista tietoa, jota ei tilastomenetelmin pystytä havaitsemaan. Kurlinin mukaan koneoppimisen algoritmeihin kuuluvat esimerkiksi K-nearest neighbors, Support vector machine, Naive Bayes, K-means, Hierakkinen klusterointi sekä erilaiset päätöspuualgoritmit (Kurlin 2020).

Poikkeavuuksien havaitseminen lokidatasta

Kurlinin (2020) opinnäytetyön päätavoitteena oli tutkia, kuinka suuresta lokitietomassasta voitaisiin löytää poikkeavuuksia. Toisena tavoitteena oli selvittää, kuinka poikkeavuuksia etsivä algoritmi saadaan löytämään poikkeavuudet yksittäisen käyttäjän toiminnassa kirjautumistietoja analysoimalla. Kolmantena tavoitteena oli tutkia, kuinka yrityksen tietoturvaa voidaan parantaa näiden poikkeamahavaintojen avulla. Työssä tutustuttiin käytettävissä olevan lokidatan rakenteeseen sekä ominaisuuksiin. Analysoitava lokidata kerättiin Graylog-järjestelmään Office365-palveluista. Teoriaosuudessa läpi käydyistä koneoppimisen algoritmeista testattiin neljää erilaista datan luokittelualgoritmia, joiden avulla etsittiin datasta sellaisia poikkeavuuksia, joita tutkimalla yrityksen tietoturvaa voitaisiin parantaa. (Kurlin 2020.)

Työn lopputuloksena toteutettiin R-ohjelmointikielen avulla Random forests -päätöspuihin pohjautuva luokittelualgoritmi, joka pystyy ennustamaan viikonpäivän, päivän tietyn tunnin ja kirjautumisen lähdemaan perusteella sen, onnistuuko vai epäonnistuuko käyttäjän kirjautuminen. Ennusteen kokonaistarkkuudeksi saatiin 95,4 %, ja sen avulla pystytään parantamaan yrityksen tietoturvaa esimerkiksi vaatimalla vahvempaa kirjautumiskäytäntöä sellaisilta henkilöiltä, joiden kirjautumiset eivät ole ennusteen mukaisia. (Kurlin 2020.)

Kirjoittajat

Jarno Kurlin valmistui LAB-ammattikorkeakoulusta, tekniikan alan insinööriksi (ylempi AMK), digitaaliset ratkaisut -koulutuksesta ja työskentelee system specialistina Stala-Yhtiöissä.

Lehtori Minna Asplund, TkL, toimii koordinaattorina insinööri (ylempi AMK), digitaaliset ratkaisut -koulutuksessa.

Lähteet

Kurlin, J. 2020 Lokitiedon analysointimenetelmä: Poikkeavuuksien havaitseminen. Opinnäytetyö YAMK. LAB-ammattikorkeakoulu. [Viitattu 10.5.2020]. Saatavissa: http://urn.fi/URN:NBN:fi:amk-202005138768

Nummenmaa, L., Holopainen, M. & Pulkkinen, P. 2014. Tilastollisten menetelmien perusteet. Helsinki: Sanoma Pro.

Zikopoulos, P., Eaton, C., deRoos D., Deutsch, T. & Lapis, G. 2011. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. McGraw-Hill Osborne Media

Kuva

KUVA 1. Wikimedia Commons. [Viitattu 10.5.2020]. Saatavissa: https://commons.wikimedia.org/wiki/File:BigData_2267x1146_white.png

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *