Information 25. august 2000, 1. sektion, side 8
Af Robin Engelhardt
I disse dage vokser Internettet med voldsom hast. Antallet af websider, der
er forbundet med hyperlinks, antages at være på mellem to og tre
milliarder - med en beregnet fordobling i løbet af næste år.
Hvis man også medregner de dynamiske genererede websider og det endnu
hurtigere voksende antal databaser, som er tilsluttet Internettet, kommer antallet
af dokumenter op på en svimlende sum af 600 milliarder igen med
en forventet fordobling i begyndelsen af det næste år. Konsekvensen
af den eksploderende vækst er, at selv de største og mest kraftfulde
søgemaskiner ikke kan følge med. For at kunne udnytte Internettet
optimalt er der således opstået et stigende behov for bedre redskaber
til at finde rundt i denne gigantiske høstak, om det så er på
bekostning af en mere hierarkisk strukturering af nettet.
Men man skal huske på, at det ikke er Nettet som sådan, der kan
eller skal struktureres. Information vil være fri, og Internettets anarkistiske
og autonome opbygning kan der ikke ændres ved, uden at det vil resultere
i ufrihed eller kaos. I stedet vil fremtiden være præget af en automatiseret,
intelligent og måske privat software, som vil være i stand til at
optimere opsporingen af præcis den information, man har brug for. For
at illustrere problemet vil man forlange, at fremtidens søgemaskiner
skal kunne svare hurtigt og tilfredsstillende på de følgende to
spørgsmål: »Hvor mange køkkenredskaber vil Belgien
producere i de næste fem år?« og »Hvilke bakterier er
blevet resistente over for medicin?« Alle nødvendige informationer
til at svare er på Nettet, de skal bare kunne manipuleres på en
sådan måde, at vi kan få et entydigt svar. Men hvad er det
mere præcis for nogle redskaber, og hvornår vil de komme? Svarene
er ikke engang kendt af de største eksperter på området.
Afløseren for HTML, kaldet XML (eXtensive Markup Language), vil sandsynligvis
ændre meget i fremtiden, men ellers er det meget svært at sige noget
konkret, især fordi udviklingen går stadig hurtigere og fordi intelligent
informationssøgning lige nu er den største flaskehals inden for
Internettets udvikling.
Som første krav til at forstå problemets omfang, må man være
klar over følgende: Perfekt og fyldestgørende opsporing af al
slags information vil man aldrig kunne opnå. Det ligger allerede i sagens
natur. Informationer uploades dagligt, er ofte adgangsbegrænsede og er
gengivet i utallige formater og sprog. Det andet og endnu større problem
er i dag, at systemerne hverken hjælper brugeren til at starte en søgning
på den rigtige måde eller hjælper ham eller hende med at forstå
og analysere de data, der umotiveret popper op som resultat. Brugeren vil have
svar, ikke dokumenter. Og derfor må et fremtidens søgesystem ikke
kun hjælpe brugeren med at formulere en søgning, men også
forudse brugerens ønsker, opspore data fra mange kilder og derefter sammensætte
dem i et enkelt og forståeligt format.
Søgemaskiner er faktisk blevet meget bedre på visse områder.
Især har man lært at udnytte den skjulte information, der ligger
i den måde, dokumenter linker til hinanden på via de såkaldte
hyperlinks. Det kan man for eksempel møde på Google, hvor man giver
hvert hit en rating alt efter hvor populær websiden er, hvilket igen er
en funktion af antallet af hyperlinks til siden. På trods af de mange
sofistikerede værtøjer, søgemaskinerne bruger i dag, kan
man ikke komme uden om, at der bliver nødt til at være en øget
fokus på de semantiske redskaber til tekstanalyse, og her er de såkaldte
Natural Language Processing-metoder (NLP) lovende redskaber. NLP udnytter ikke
kun informationer om de ord og sætninger, der søges på, men
fokuserer også mere bredt på deres mening og kontekst for på
den måde at fjerne flertydigheder og misforståelser i søgningerne.
Et intelligent NLP-system skal som forudsætning kunne forstå at
»Hilary Clinton« er det samme som »first lady« (i hvert
fald frem til januar 2001). Det skal ifølge Susan Feldman fra fagbladet
Datasearch også kunne forstå, at en bestemt forskningsgren
som for eskempel »information retrieval« inden for IT, efterhånden
er blevet udvidet med næsten-synonymer som »datamining« og
»knowledge management«.
Generelt kan man sige, at jo flere værktøjer man kan anvende til
at fange informationen, jo bedre chance er der for at finde den. Princippet
er det samme som når man øger opløsningen på et digitalt
billede: Jo flere pixels, jo højere kvalitet og jo større skarphed.
Et fremtidens NLP-system ville som sagt kunne finde de rette informationer til
de to indledende spørgsmål. Det kan for eksempel være nødvendigt
for Hollands erhvervsminister, der skal til møde om en halv time med
repræsentanter for sit lands køkkenindustri, at kende svaret til
det første spørgsmål hurtigt. I dag ville man skulle afsætte
et hold på fem personer til at undersøge sagen i en uge, og de
vil sikkert ikke bruge Nettet som deres primære kilde. Men informationerne
er tilstede på Nettet. Man skal blot vide, hvor de relevante dokumenter
findes, og hvordan de skal trækkes ud af computeren.
Fremtidens NLP-systemer ville ideelt set kunne magte opgaven inden for fem sekunder.
Kravene er for det første en syntaktisk og semantisk forståelse
af relationerne mellem ordene »Belgien«, »køkkenredskaber«,
»producere« og »de næste fem år«. Dernæst
kræves der en kontekstforståelse, som fortæller NLP-systemet,
at det ikke skal lede efter bruttonationalproduktet de sidste fem år,
og heller ikke efter et eksakt tal, men et fremtidigt estimat, baseret på
de bedst mulige skøn. Nogle af de mange lovende NLP-baserede teknologier
er følgende:
* Konceptforståelse (Concept mapping): Da sproget giver rig mulighed for
at udtrykke en bestemt idé på mange måder (synonymer, metaforer,
analogier, etc.) må computeren også kunne anvende disse teknikker
til at forstå en sætning. Dvs. den skal kunne opbygge et kontrolleret
vokabularium fra mange faggrene og sprog, og skal derfor kunne krydsreferere
mellem mange ordbøger, citatlister, tesauruser, ordsprogssamlinger, etc.
* Automatisk indeksering: (Machine-aided Automatic Indexing, MAI) er en teknik,
som allerede bruges i visse sammenhænge, og som med tiden vil erstatte
en del af bibliotekarernes manuelle indekseringarbejde. Prototyper af søgemaskiner
som Autonomy, Semio og Muscat forsøger sig med diverse metoder. For eksempel
bruger DR-LINK, som er udviklet af Elizabeth Liddy fra Syracuse University,
en automatiseret metode til at knytte emnekoder til hvert enkelt ord. MAI-systemer
vil kunne automatisere store dele af database-opbygningen.
* Automatisk opsummering: Hvis man søger på Northern Light eller
på Google vil der under hittene være en afskrift af teksten rundt
omkring det søgte ord. Dette er en speciel form for automatisk summering,
nemlig en trunkeret gengivelse af den originale tekst. I fremtiden vil man kunne
få summeringer, som krydsrefererer forskellige dokumenter, og det vil
ikke kun være en afskrift, men en ægte opsummering af, hvad der
står, ligesom abstraktet i denne artikel.
* Flere søgemaskiner arbejder allerede nu med automatisk oversættelse.
I fremtiden vil man kunne kombinere concept mapping og automatisk summering
til at opsummere fremmedsprogede tekster, selv om dokumentet ikke kan oversættes
som helhed.
* Relationsanalyse: Hvis man kan ekstrahere bestemte personer eller ord eller
enheder fra dokumenterne, vil de kunne spores på kryds og tværs
af Internettet. Semantiske kategorier som 1) »er en«, 2) »fordi«
kan bruges som en slags operatorer, der vil kunne finde en bestemt slags informationer
om begrebet. For ordet »ozon« vil resultatet være: »Ozon
er en luftart« fra den første. »Ozonlaget forsvinder fordi
CFC-gasser trænger op i stratosfæren« fra den anden.
* Spørgsmål-svar systemer: Hvis man i dag vil have svar på
et specifikt spøgsmål som f.eks. »Hvornår landede rumsonden
Pathfinder på Mars?«, så skal man i dag enten rode rundt i
et utal af dokumenter fra NASA s hjemmeside (input i søgemaskine »Mars
landing« dårlig idé!), eller man skal kunne bruge avancerede
booleske operatorer i søgningen f.eks. »+Mars +pahtfinder
+landing +site +date -host:nasa.gov -host:jpl.gov« for at indsnævre
søgningen (god idé).
I fremtiden vil en søgemaskine prompte svare »Den landede den 4.
juli 1997. Se her for yderligere informationer...« Andre elementer i fremtidens
NLP-systemer er visualisering, opdatering, beviskombinationer, talegenkendelse
osv. Som det ses, indeholder forskningen et væld af fagområder og
tværvidenskabelighed. Men det er først tilsammen, at de vil udgøre
en vitterlig revolutionerende generation af værktøjer til informationsmanipulation,
som kan svare tilfredsstillende på næsten alle slags spørgsmål.