Information 1. september 2000, studiestart, side 8
Af Robin Engelhardt
Hvordan vil fremtidens søgemaskiner se ud? De vil i hvert fald gøre
mere, end bare at spytte et utal af dokumenter ud, som man så selv skal
rode rundt i for at finde den rette information. De vil hjælpe brugeren
med at formulere en søgning ved at forudse brugerens ønsker, de
vil opspore data fra mange kilder og derefter sammensætte dem i et enkelt
og forståeligt format, men de vil især basere sig på den struktur,
hvormed dokumenter og dermed mennesker krydsrefererer til hinanden på.
Hyperlinksene, som er den metode man bruger til at klikke frem og tilbage på
Internettet på, er faktisk en vigtig men stadig relativ skjult reserve
til at få informationer - ikke kun ud af dokumenter - men også ud
af Internettets brugere. Standard-søgemaskiner som AltaVista, HotBot,
Excite, Infoseek, Lycos og FAST Search bruger de gode gamle »heuristiske«
sorteringsrutiner til at rangordne alle dokumenter, der måtte indeholde
et bestemt søgeord.
Hvordan virker de?
Problemet i dag er bare, at der findes alt for mange websider, som indeholder
det søgte ord, og det er mere eller mindre umuligt at finde de mest relevante
sider. Derfor går de nye søgemaskiner over til at analysere tekstmændgen
ud fra bestemte kvalitetskriterier. Den rudimentære idé bag dette
fundamentale princip for alle søgemaskiner, er den såkaldte »relevance
ranking«, som går ud på følgende: Enhver tekst indeholder
jo mønstre, for hvis den ikke gjorde det, ville teksten være tilfældig
støj og ikke information.
Mønstrene kan beskrives matematisk, således at computeren kan finde
mønstrene og udføre diverse statistiske og matematiske operationer
på dem. Én af operationerne kunne for eksempel være den simple
optælling af, hvor mange gange et søgeord findes i teksten. Jo
oftere ordet eller ordene er nævnt i forhold til den samlede tekstmængde,
jo mere relevant antages dokumentet at være for brugeren. Mange hjemmesider
udnytter denne teknik ved at skrive lange lister af ord måske endda med
usynlig skrift på websiden. På den måde kommer disse hjemmesider
højere op i hierarkiet af søgemaskinernes resultatliste, og får
derfor flere besøg. Andre rangordningsprincipper kunne for eksempel være,
hvorvidt det søgte ord findes i overskriften, i indledningen, i abstractet
eller i stikordssamlingen. Jo højere op, jo mere relevant, kunne være
et af kriterierne.
Uoverskuelighed
Man kunne også lede efter klaser eller klynger af de søgte ord,
hvilket typisk giver en endnu bedre rangorden for de fundne dokumenter. Søgemaskiner
kunne også trunkere ordene, dvs. forkorte eller forlænge dem i deres
forskellige tider og kasa. Leder man efter »ridning«, kan søgemaskine
for eksempel inkludere tekster, der indeholder ordene »ride«, »rider«,
»rideskole«, »ridehest« og »hestevædeløb«.
Denne fremgangsmåde kan være fornuftig, hvis man er meget bred i
sin søgning, og endnu ikke rigtig ved, hvad man leder efter. Men det
kan også være et problem, fordi en medtagelse af alle synonymer
(»automobil« for »bil«, »surfe« og »lede«
for »browse«, etc.) kan resultere i en uoverskuelig flertydighed.
Denne flertydighed, også kaldt polysemi, bliver dog overvældende
ved ord som for eksempel »Jaguar«, hvor resultatet er tusinder af
sider om bilen, tusinder om vildkatten i junglen og atter tusinde om football-holdet
fra National Football League i USA, plus en masse andet junk. Det gælder
derfor om at finde en passende afvejning af de forskellige rating-metoder, som
desuden skal imødekomme brugerens mangeartede krav til en søgning.
Alle de teknikker, der her er blevet beskrevet er selvfølgelig allerede
brugt. Søgemaskiner som Lycos, HotBot, Alta Vista, Infoseek, FAST Search,
Northern Light og Direct Hit bruger dem som automatisk udgangspunkt for en søgning
og opnår ganske gode resultater med dem.
En skjult reserve
Blandt de mere spændende tiltag indenfor udviklingen af nye søgemaskiner,
er det såkaldte Clever projekt, som udnytter et af Nettets mest værdifulde
ressourcer: De myriader af hyperlinks, som forbinder websiderne med hinanden.
Ved at analysere forbindelserne mellem websiderne kan systemet automatisk lokalisere
primært to typer af websider: Autoriteter og hubs. Autoriteter anses som
de bedste kilder af information om et bestemt emne, og hubsene er de bedste
samlinger af links til sådanne autoriteter.
Søgemaskinen Google har faktisk allerede anvendt det skema i en mindre
målestok. Sergey Brin og Lawrence Page fra Stanford University, som står
bag udviklingen af Google, har implementeret et ratingsystem, der går
ud fra antallet af links, som peger til et bestemt dokument. Jo flere mennesker,
der besøger en side, jo mere populær er den, og jo højere
kommer den op i hierarkiet på resultatlisten. I praksis summerer Google
blot scoren på de andre lokationer, der peger på dokumentet. På
den måde kan Google altid svare hurtigt, fordi den blot lister siderne
op efter deres præordinerede rating.
En anerkendelse...
Clever-projektet er en videreførelse af den idé. Ud over popularitetsrating
kigger man her tilbage på de pegende dokumenter og udnytter dermed den
sociologiske effekt, der opstår som resultat af, at mennesker fra naturen
af er motiveret til at danne relationer altså hubs. En underliggende antagelse
for den metode er selvfølgelig, at et link er en implicit anerkendelse
af dokumentet, det peger til. I mange tilfælde er det fuldstændig
forkert, fordi en link enten blot kan være et neutralt udsagn (»klik
her for at komme tilbage til hovedmenuen«) eller en speciel fremhævelse
af et latterligt eller dårligt dokument (»prøv se, hvad den
idiot skriver«).
Men fordi Nettet har vokset sig så stort, har det vist sig, at det statistiske
gennemsnit passer meget godt til den antagelse. I et nyt studie fra fagbladet
Public Understand. Sci., skrevet af Richard Rogers og Noortje Marres har det
desuden vist sig, at alle interessegrupper på Nettet om det er statslige
organisationer, interesseorganisationer, firmaer eller enkeltindivider - alle
organiserer deres hyperlinks i forhold til hinandes positioner.
... og et tegn på despekt
I deres analyse af klima-debatten vist de for eksempel, at man kan opdele aktørerne
i tre klasser: ».gov«-klassen som er de (mellem)statsligt accepterede
videnskabelige undersøgelser og resultater. http://».org«
, som er NGO ere og andre interessegrupper, samt http://».com« som
er de olie-, bil-, osv. producerende firmaer. Deres indbyrdes måde at
hyperlinke på, afslører, hvordan deres holdninger er, hvem de positionerer
sig i forhold til, og hvem de udelukker fra det gode selskab.
For eksempel er .gov-siderne ganske selvtilstrækkelige og refererer stort
set kun til hinanden. http://».org«-siderne er meget omfangsrige
og selektivt liberale, mens .com-siderne slet ikke er selvreferentielle (dvs.
de omtaler ikke hinanden, fordi de er konkurrenter), og endnu mere selektive
end .org. Manglende links er altså et tegn for manglende anerkendelse.
Hyperlinks er ikke kun neutrale springbræt til anden information på
Nettet, men derimod interessestyrede midler til at indlemme eller udelukke bestemte
debattører. I øvrigt har denne viden en stor betydning for firmaer
eller organisationer, der vil komme ind i »det gode selskab« af
en bestemt debat eller et bestemt emneområde. Hyperlinkdiplomati er en
kunst, der skal læres.