Stordata er en betegnelse på store mengder med digitale data. Hva som menes med begrepet har endret seg over tid. Hvor stor en datamengde må være for å bli kalt stordata er derfor avhengig av både tid og sammenheng.
Stordata og data-analytikk
Begrepet stordata er nå tett koblet til data-analytikk («data analytics») der en bruker matematiske analyser og statistikk kombinert med programvare basert på maskinæring og dyplæring – to sentrale prinsipper innen kunstig intelligens – til å finne sammenhenger og trender. I dag snakker en oftest om stordatasom store event-baserte datasamlinger samlet av firmaer som Amazon og Google, sosiale medietjenester som Facebook og Snapchat, eller data høstet fra tingenes internet.
Stordata benyttes ofte i sammenheng med åpne teknologier som Apache Hadoop og CEP (Complex Event Processing) og bruker store parallelle datasystemer for sine analyser.
Hvordan defineres stordata
Stordata blir beskrevet i form av flere V-er. Her er eksempler på flere av dem. De første tre til fire er de mest kjente og brukte:
- Volum («Volume»): mengden av data
- Velositet («Velocity»): hastighet, altså hvor fort dataene genereres
- Varitet («Variety»): hvor forkjellig er dataene i samlingen (for eksempel bilder, klikkdata, eller sensoravlesninger)
- Variabilitet («Variability»): dette kan være flere ting, for eksempel hvor mange feil er det i dataene, hvor mye er påvirkningen av sammenstillingen av flere type datakilder, eller hvor raskt de blir samlet når disse har stor variasjon
- Varasitet («Varacity»): sannhet, altså hvor mye tiltro en har til datamengden. Dette blir en utfordring jo større og mer varierte datasettene er
- Validitet («Validity»), ligner varasitet og referer til hvor nøyaktige og korrekte dataene er i forhold til den bruk en ser for seg. Ofte bruker en mer tid på å rense og organisere data enn å analysere den
- Vunerabilitet («Vunerability»): sårbarhet. Stordata medfører ekstra utfordringer relatert til sikkerhet
- Volatilitet («Volatility»): flytighet, altså hvor lett dataene blir utdaterte
- Verdi («Value»): hvor mye et firma kan tjene på sine investeringer i stordata
Utfordringer
De viktigste utfordringene knyttet til bruk av stordata kan deles inn i tre hovedkategorier:
- forsvarlig håndtering av etiske og juridiske forhold
- utvikling av analyse- og visualiseringsmetoder
- utvikling av infrastruktur
Etiske og juridiske aspekter
Datamaterialet som benyttes i stordataanalyse kan være samlet inn langt tilbake i tid fra mange forskjellige kilder, og gjerne til helt andre formål enn det man oppdager under analysen. Mye stordataanalyse var i virkeligheten gjenbruk av data i stor stil, men i dag samles data raskere og i enda større mengder fra Internett. Dette kan bidra til verdifull innsikt, men stiller også høye krav til forsvarlig håndtering av dataene, bevissthet hos dem som avgir data og lovverk som regulerer virksomheten. Datatilsynet i Norge er veldig opptatt av at vi må være oppmerksomme på personvern i forbindelse med stordata. Et nytt begrep her er såkalt Big Data Governance, altsåhvordan forsikre at data er pålitelig, sikret og klar til bruk.
Analysemetodikk
Stordata kan også være «store» i den forstand at de danner premissene for selve analyseprosessen. Ofte er datamaterialet så uoversiktlig at vi verken vet hva vi kan finne eller hvor vi skal lete. Da kan vi bruke kunstig intelligens, inkludert maskinlæring og dyplæring, samt ulike teknikker til å visualisere dataene fra ulike synsvinkler. Datamaterialet blir da et slags landskap hvor vi kan lete oss frem ved hjelp av egen erfaring og intuisjon.
Infrastruktur
Det å håndtere slike store datasett har vært sett på som svært ressurskrevende. Blant annet må man ha tilgang på utstyr og programvare som sikrer tilstrekkelig datakvalitet. Man må også disponere tilstrekkelig transport- og lagringskapasitet samt tilstrekkelig regnekraft for å kunne bearbeide og analysere dataene. Utbygging og utvikling av slike ressurser kan være både kostnadskrevende og teknologisk utfordrende.
Men, selv om datamengdene er sterkt økende, gjør større firma som Amazon, Google og Facebook, dette i dag i stor stil og ofte selger resultene videre til annonsører og andre firma, som dermed får tilgang til relevante brukerdata.
Historie
Begrepet Big Data ble tatt i bruk i vitenskapelig litteratur på slutten av 1990-tallet. Meteorologer var blant de første som studerte slike datamengder. Ved hjelp av værobservasjoner over lang tid og datasimulering kan de studere hvordan mange forskjellige fysiske prosesser spiller sammen for å danne været rundt oss.
En tradisjonell definisjon av stordata er datasamlinger som kan inneholde mye informasjon, men som er for store, for mangeartede og for ustrukturerte til at man kan benytte tradisjonelle transaksjonelle databaseteknikker for å hente ut denne informasjonen.
Utvikling av teknologi og infrastruktur for datainnsamling, datakommunikasjon og datalagring har ført til en drastisk økning av tilgangen på stordata. I dag samler vi inn store mengder data fra våre fysiske omgivelser og menneskelig aktivitet over hele kloden.
Eksterne lenker
- forskning.no: Regn med meg
- forskning.no: Vil forske på det du legger igjen på nettet
- Datatilsynets rapport Big Data – personvernprinsipper under press
- Tom Schafer: "42 Vs of Big Data Science", April 2017