Big data - copyright og overvåking

. i kategorien Aktuelt

 

IFLA-logo-2014 small(19. august) Big data – data-mining - du kan like godt lære deg uttrykkene med en gang, det blir like kult som MOOCs. Det handler om hva bibliotek kan hjelpe forskere med når det gjelder å grave seg inn i enorme mengder av data for å framskaffe nye forskningsdata.

Av Lars Egeland, Læringssenterdirektør, Høgskolen i Oslo og Akershus (HiOA)

Ulike foredrag om big data var tema hele tirsdag formiddag. – Bibliotekarer har vært opptatt av å skaffe fram bøker og informasjon, men nå bør de begynne å interessere seg for å analysere data, mente Peter Leonard fra Yale, USA. - De humanistiske forskerne har ingen erfaring i å jobbe med store data, mens forskningsbibliotek har både forskningsbibliotekarer og data-bibliotekarer som kan gjøre dette.

Det er to formål med å foreta analyser av store mengder tekst: Å se etter noe som du tror er der for å få antakelsene bekreftet. Og å la dataene organisere seg sjøl slik at uventede funn kan dukke opp.  Leonard viste til en analyse av all tekst i bladet Vogue fra 1900 til 2010. Analysen viste det man kunne anta, nemlig at bruken av ordet WOMEN  økte sterkt fra 1970. Så man på bruk av ordene SKIRTS, PANTS, FROCK økte PANTS fra samme tid. Det var heller ikke overraskende. Men hvis man lot ordene organisere seg sjøl i forhold til hverandre, kunne man finne at Vogue faktisk har skrevet en del om kvinner og helse, brystkreft opptrer ofte samme med begrepet kvinen fra 1982 og mot nyere tid. På 1970-tallet handlet det om prevensjon, og i 1910 om tuberkolose, mekanisk massasje og riktig holdning for en vakker figur.

Christoph Bruch fra Helmholtz som er Tysklands største vitenskapelige organisasjon, understreket at vitenskap er avhengig av åpenhet og kontroll. Derfor er det viktig at ikke data-mining, eller TDM /Text data-mining, blir gjenstand for avtalelisenser eller underlegges andre copyright-begrensninger. - Data er nummer, tegn eller bilder. Informasjon er kombinerte data. Kunnskap er informasjon som støtter ikke-trivielle påstander om et fenomen. TDM er teknikken for å analysere og trekke ut nye innsikter og kunnskap fra store datamengder, sa Bruch. Denne forskninga er avhengig av tilgjengelighet for å finne dataene, tilgjengelighet for å vurdere kvalitet, og forståelighet for å vurdere. – Det er ikke lenger mulig for en forsker å lese alt, vi trenger hjelp av en maskin – derfor TDM, mente Bruch.

Data-mining i big data er avhengig av at man allerede har tilgang. Om man leser artikler og finner ut noe nytt så er det forskeren som eier de nye funnene. På samme måte må det være med data-mining.

Data-mining er ikke nevnt i dagens copyright-lovgiving fordi det er så nytt. Nå diskuteres det imidlertid for fullt. Susan Reilly fra LIBER (organisasjonen for europeiske forskningsbibliotek) fortalte at de hadde marsjert ut sammen med forskerorganisasjonene, når EU inviterte til møte om data-mining. – Vi må avvise et system med lisenser og avtaler, dette må være lovlig bruk av data uten ekstra avtaler, sa hun.

 

Formidling av bøker på nett – emosjonene avgjør

Professor Jean-Luc Marini fra Lyon, og ikke minst hans doktorstudent, Ski Fanjuan, arbeider med e-salg. Deres innledning vår både interessant og skremmende. De arbeider med hva som kan fremme salg av varer på nettet. De mente at kjøpsbeslutningene ikke er rasjonelle og basert på kunnskap, men at de er emosjonelle, intuitive beslutninger.

De konsentrerte seg spesielt om ulike tjenester for å anbefale varer til kundene, varer man kan tro at kundene trenger, men det store markedet er varer som kundene ikke vet at de trenger. Det handler om å identifisere de ubevisste behovene. De jobber med statistikk om hva som er populært, data om den enkelte varen, demografi, om hva slags samfunn brukeren tilhører, og hva andre har kjøpt. Til sammen er det definert sju matematiske algoritmer som alle som jobber innen dette feltet bruker.

Til nå har de imidlertid ikke kunne avgjøre virkningen av den enkelte algoritmen. Problemet er at det vil variere ikke bare mellom brukerne, men også i forhold til hva slags emosjonell stemning brukeren er i nå. Brukeren skal foreta mange handlinger og beslutninger: Klikke på en vare, browse videre, legge i ønskeliste, bestille, betale. Marini og Fanjuan studerte hvor det oppsto brudd. De mente at dette var mer effektivt enn å spørre brukeren, fordi brukeren vil svare feil, mens de kan avsløre hvordan brukeren egentlig tenker. De to var begeistret for at denne metoden skulle brukes i å pushe biblioteksbøker.

 

Massiv overvåking og bibliotek

FAIFE (http://www.ifla.org/faife) organiserte en sesjon om overvåking og bibliotek. Det var i form av en paneldebatt mellom en amerikansk advokat for Electronic Forefront (https://www.eff.org/) , en britisk bibliotekar og forsker, en fransk advokat, bibliotekar og opphavsrettsaktivist og dessuten en representant for Google. NSA var invitert, men kunne ikke delta. De var sikkert tilstede likevel, sa en av talerne fra salen.

For bibliotekene kan det være et dilemma å kreve tilgang til all informasjon og økt gjennomsiktighet, da blir det ikke igjen noe privatliv. Diskusjonen handlet om hva bibliotek bør gjøre for å sikre at informasjonsbruk fra egne institusjoner er vanskelig å overvåke, og hvordan man kan gi råd om hvordan folk kan sikre eget privatliv bedre. Rekk opp handa alle som har endret sine privacy-instillinger på nettet etter Snowden-avsløringene, spurte Stuart Hamilton, ass. Generalsekretær i IFLA. Under halvparten av salen rakk opp handa. Jeg følte det var nødvendig å si at vi faktisk ikke må glemme at vi har denne diskusjonen som følge av avsløringen om massiv amerikansk overvåking. Det ville vært umulig å bekjempe et regime som Nazi-Tyskland om Hitler hadde hatt de verktøyene som USA nå bruker. Som forkjempere for ytringsfrihet må vi sikre at ytringsfriheten blir trygg i forhold til overvåking og framtidige angrep. Derfor kan ikke bibliotekarer kompromisse med å understreke at datasikkerhet ikke er et individuelt ansvar - men et politisk - og at massiv overvåking må anses som en forbrytelse.

 

Flere postere

I går skrev jeg om hvilke postere som jeg hadde merket meg. Almuth Gastinger fra NTUB hadde merket seg noen andre:

Kendra Albright fra USA har en poster med tittelen «A dangerous method» som handler om noe av det samme: En psykoanalytisk tilnærming til å utforske emosjoner i informasjonssøking.

Denise Kwan – også fra USA – har en poster om lederskap og hva slags lederskap erfarne bibliotekarer setter pris på. Du finner et abstract her:
http://pqdtopen.proquest.com/pqdtopen/doc/1433293905.html?FMT=ABS
Hele doktorarbeidet som posteren er basert på finnes her i full text pdf:
http://pqdtopen.proquest.com/pqdtopen/doc/1433293905.html?FMT=AI

Rikka Sinisalo fra Finland presenterte et system for å organisere brukernes tilbakemeldinger til biblioteket på en flott poster.

 

Legg til kommentar


Sikkerhetskode
Vis ny kode