Maailma suurima majandustarkvaratootja SAP AG Eesti haru juhataja Tiit Parts selgitas, et internetimaailma uus kuum sõna big data analüüs on sisuliselt teaduslik selgeltnägemine, et pakkuda inimesele täpselt seda, mida ta vajab.
Partsi sõnul tähendab big data analüüs sihtgrupi kohta kogutud ja salvestatud andmete kokku kogumist, käsitlemist ja siis mingiks eesmärgiks kasutamist. Sellist infot on igaühe kohta nii Eestis kui maailmas kogunenud viimaste aastakümnetega nii internetis kui ka läbi ostude ja igapäevaelu toimingute tohutu hulk. Facebook ja Google teavad inimese kohta ilmselt rohkem kui tema enda abikaasa. Kui sellele lisada veel eri asutustes, poodides või registrites kogutud statistika, siis on pilt täielik.
Uus tarkvara ja masinate kasvanud arvutusvõimsus võimaldavad nüüd esmakordselt seda seisvat infot kokku panna ja analüüsida. Big data analüüs võtab kaootiliselt inimese kohta leiduvad andmed ja loob neist loogilised seosed ja teeb prognoose - nagu teaduslik selgeltnägemine.
Sellise analüüsiga saab sisuliselt inimese soove ja mõtteid lugeda ning ennetada ja see pakub Partsi sõnul näiteks kaupmeestele palju uusi võimalusi. See võimaldab ettevõttel pakkuda täpselt seda, mida inimene otsib ja vajab ja säästab sellest, millest ta huvitatud pole. Sisuliselt nagu personaalne meditsiin, mis lähtub iga inimese genotüübist ja muudest detailsetest näitajatest.
Andmeanalüüsis on Facebook ja Google juba praegu väga edukad. "Olete tähele pannud, et kui vaatad internetikaubajast näiteks kingasid, siis koheselt hakatakse sulle näitama kingareklaame. Sihitud reklaam toimib kui omamoodi spämmifilter – inimest teavitatakse ainult asjadest, mis teda huvitavad. Ja ettevõte hoiab kokku suure hulga pimedalt massi tulistatud reklaamiraha," selgitas Parts.
Selline loogika- ja analüüsimootor on ülikeeruline, aga praegu tehnikamaailmas väga kuum sõna. "Maailma suurim äritarkvaratootja SAP on selliseks analüüsiks välja arendanud näiteks HANA analüüsitarkvara, mis on senistest võimalustest tuhandeid kordi kiirem ja juba katsetavad seda ka esimesed Eesti firmad," kinnitas Parts.
"Selge see, et inimestele ei meeldi, et nende järgi nuhitakse ja analüüsi juures on oluline privaatsus. Üldiselt tehakse analüüse pigem sihtgruppide ja mitte isikupõhiselt. Analüüsis kasutatavad andmeid ei koguta ühte superandmebaasi, vaid need genereeritakse vastavalt päringule ja kustutatakse peale kasutamist," lisas ta. "Big data võimaldab ka näiteks riigil kodanikule palju lähemale tulla, aimates tema soove ja vajadusi niiöelda õhust."
Microsofti big data eksperdi Peter Myersi sõnul annab enneolematuid tulemusi erinevate suurte andmekogumite kombineerimine – näiteks pangandusandmete ristamine sotsiaalmeediast pärit infoga.
Peter Myers, Microsofti big data ekspert Mis on big data ja miks sellest praegu nii palju räägitakse?
Big data on termin kirjeldamaks andmemahte, mis on tõesti hoomamatult suured ja ülesehituselt keerulised. Tänapäeva nutiseadmete ja sensorite plahvatuslik kasv, mis on tulnud suures osas sotsiaalmeedia ja mobiilpõhiste rakenduste levikust, on hüppeliselt kasvatanud ka andmemahte.
Tehnoloogia käib selle muutusega kaasas ning pakub uudseid andmete salvestamise ja analüüsimise võimalusi. Paralleelselt andmemahu kasvuga on analüütika ja varundamise kulud langenud, mistõttu on big data analüütikast saanud ettevõtete jaoks praktiline ja majanduslikult otstarbekas lahendus eesseisvate küsimuste lahendamiseks. Usutavasti jätkub see trend ka lähitulevikus.
Mida see üha suurem maht meil siis nüüd teha võimaldab?
Big datat tuleks võtta lihtsalt kui veel üht andmete allikat – kuigi see nõuab teistsugust analüüsi ja hoiustamist. Kuna big data näol on tegemist ühe täiendava andmete kogumiga, siis saab selle pinnalt analüüsida nii minevikku, praegusele hetkele lähedast hetke ja luua mustreid tuleviku trendide ennustamiseks.
Mida me big data abil saame, on võimalus analüüsida ja järeldusi teha suurtest, keerukatest ja tihti ka struktureerimata andmekogumitest või isegi mitmest sellisest.
Nõnda võivad sündida vastused küsimustele, millel varem vastuseid ei olnud, sest need andmemahud tundusid ebapraktilised ja neile oli raske rakendust leida.
Kuidas sellises olukorras pirvaatsust kaitsta? On tehnoloogiaid andmete anonümiseerimiseks, aga teisalt võib big data inimesi väga täpselt profileerida. On see uut tüüpi oht?
Big data analüütika algoritmide arenenedes on see mure tekkinud ja see on täiesti põhjendatud. Ma ei usu, et see väljakutse on midagi uut, pigem on see kogu aeg olnud ja sellega tegeletakse.
Big data integreerimine veelgi suuremate andmemahtudega annab võimaluse teha kombineeritud analüüse täiesti uute stsenaariumite kohta – näiteks kombineerides pangandusest tekkivad andmed sotsiaalmeedia andmetega.
Mis puutub andmekaitsesse, siis ei erine big data ladustamine ja analüüs tavapäraste andmekogumite töötlemisest, sest sellele kohanduvad samuti rahvusvahelised standardid ja riiklikud regulatsioonid. Ja need standardid ja regulatsioonid tagavad isikuandmete kaitse.
Big datast räägitakse kõige rohkem seoses äri ja ettevõtete toimimisega. Kas see aitab automaatseid otsuseid teha ja inimelementi vähendada?
Masinõppe (machine learning) areng pakub võimalusi uue, süvitsi mineva teabe saamiseks. Seda teavet saab rakendada eri viisidel, mis äri käegakatsutavalt muudavad. Näiteks on big data täiendav andmete allikas selleks, et treenida ennustusmudelite tööd. Üsna hiljuti sai võimalikuks suurte andmemahtude kombineerimine, töö suure hulga erisuguste andmetega ning mustrite väljajoonistamine andmemahtude pinnalt.
Mis trendid big data järgmiseks toob?
Sellele vastamiseks on mul vaja masinõppe mudelit! (Naerab.) Ajalugu on näidanud, et kui tekib vajadus ladustada ja analüüsida suuremaid andmemahte, mis on keerukad, ning teha seda järjest kiiremini, siis leiutatakse selleks ka viise. Hea näide on Hadoop tarkvara moodulid ja paketid ning nende pidev areng.