Tiedonhaku

WWW:n sisältämien dokumenttien määrä on kasvanut räjähdysmäisesti jo pitemmän aikaa, ja kasvu tulee jatkumaan vielä pitkään. Jonkin erityisen tiedon löytäminen tästä valtaisasta heinäsuovasta ei ole mitenkään helppoa. Tätä varten on kehitetty monenlaisia tapoja etsiä tietoja WWW:stä. Yleisimmät ja tärkeimmät tavat ovat tavallinen selaaminen ja hakukoneiden käyttäminen.

Tiedonhaku selaamalla

Yleisin tapa etsiä tietoa on lähteä liikkeelle joltakin tutulta linkkisivustolta tai omista kirjanmerkeistä. Tietoa etsitään etenemällä sivuilla olevia linkkejä pitkin kunnes halutun tiedon sisältävä sivu löytyy. Tällaista hakutapaa tukemaan onkin syntynyt monia hierarkisia hakusivuja eli hakemistopalveluja. Tunnetuin ja käytetyin on Yahoo <URL: http://www.yahoo.com/>. Selaamalla etsimiseen on useita syitä:Käyttäjä ei välttämättä pysty tai ei halua määritellä tarkkoja hakusanoja tai etsittävää WWW-sivustoa ei ehkä löydä hakukoneella. Selatessaan johonkin asiaan liittyviä sivuja käyttäjä saattaa myös löytää jotakin myöhemmin tarvittavaa tietoa samasta aihepiiristä.

Hakutapoja

Suuret hakukoneet yrittävät indeksoida tietokantoihinsa koko WWW:n tietomäärän. Hakukone tutkii WWW:tä lukkien (engl. spider) avulla. Lukki on ohjelma, joka saa tutkittavakseen jonkin tietyn WWW-sivun. Lukki lukee sivun, indeksoi sen sisältämän tiedon ja lähettää edelleen lukkeja sivulla olevien linkkien takana oleville sivuille. Yhden sivun indeksointi kestää ehkä vain sekunnin, mutta linkkejä pitkin edetessä sivujen määrä kasvaa miljooniksi; aikaa kuluu siis paljon.

Hakukoneet rekisteröivät käyttäjien tekemät haut ja yrittävät niiden pohjalta parantaa tietokantaansa. Koneet yrittävät etsiä "syvemmältä" tietoa niistä hakusanoista,joita käytetään eniten. Indeksin pienentämiseksi hakukoneet eivät indeksoi ns. poistosanoja (engl. stop words), joita ovat prepositiot, etuliitteet, sidesanat, epämääräiset ja määräiset artikkelit yms.

Hakua vastaavat sivut voidaan järjestää sen mukaan miten monta kertaa haettu sana niissä esiintyy, mutta muitakin tapoja on. Monessa koneessa käytetään nykyään myös referenssien määrää eli sivuun osoittavien linkkien määrä. Sivu on sitä parempi, mitä enemmän siihen viitataan muilta WWW-sivuilta. Sivun titleä ja otsikoita (h1, h2, h3 jne.) käytetään myös usein sivujen järjestystä määriteltäessä.

WWW:n valtavan tietomäärän vuoksi yleisten hakukoneiden käyttäminen ei aina ole järkevää. Johonkin tiettyyn asiaan tai alaan erikoistunut hakukone saattaa joskus olla parempi vaihtoehto. Webopaedia on hyvä esimerkki hakukoneesta tai sanakirjasta, joka on keskittynyt lähinnä tietotekniikan ja tietoliikenteen sanoihin.

Avainsanahaku

Avainsanahaku (engl. keyword search) hakee käyttäjän hakusanat sisältävät dokumentit ja yrittää järjestää tuloksen dokumenttien laadun perusteella.

Googlen avainsanahaku

Boolen haku (boolean search)

Joillakin hakukoneilla pystytään tekemään mutkikkaampia hakuja käyttämällä loogisia operaattoreita AND (ja), OR (tai) ja NOT (ei).

Googlessa ei tarvitse käyttää AND-operaatiota vaan AND-operaatio on oletuksena ja hakutuloksessa vaaditaan kaikkien hakusanojen esiintymistä.

Googlen Boolen haku

Saman haun tekeminen joissain muissa hakukoneissa vaatii +-merkin lisäämistä jokaisen hakusanan eteen.

OR-operaatiota voi käyttää Googlessa OR-sanan avulla.

Googlen OR-haku

NOT-operaatiota vastaa Googlessa - (väliviiva) -merkki.

Googlen NOT-operaatio

Esimerkkihaku (query by example)

Käyttäjä antaa dokumentin ja hakukone hakee samantyyppiset dokumentit. Googlessa tämä onnistuu related-avainsanan avulla.

Googlen related-haku

Fraasihaku (phrase search)

Hakusana sijoitetaan lainausmerkkien sisään, jolloin hakukone hakee koko merkkijonoa eli fraasia.

Fraasihaku

Sanarunkohaku (stemming)

Sanarunkohaku osaa hakea sanoja pelkästään niiden alkuosan perusteella.

Sanarunkohaku

Altavistassa sanarunkohaku määritellään asteriski (*) -merkillä. Googlella ei pysty tekemään sanarunkohakuja.

Sumea haku (fuzzy search)

Sumea haku löytää tietoja, vaikka hakusanaa ei löytyisikään kirjoitusvirheen takia. Google osaa joissain tilanteissa ehdottaa uuttaa hakusanaa väärin kirjoitetun sanan tilalle.

sumea haku

Hakukoneita

Google <URL: http://www.google.fi/>

Google on kirjoitushetkellä suurin hakukone indeksoitujen sivujen perusteella laskettuna.

Googlen hakutekniikka eroaa oleellisesti useimmista muista hakukoneista. PageRank-teknologia järjestää hakutulokset sivujen tärkeyden mukaan, eikä sen mukaan kuinka monta kertaa hakusanat esiintyvät sivulla. Google päättelee sivun tärkeyden siitä kuinka paljon muilta sivuilta on linkkejä tälle tietylle sivulle. Edelleen Google painottaa jo tärkeiksi määriteltyjen sivujen linkkejä enemmän kuin sellaisten sivujen, joihin ei viitata muualta. Googlen sivupainotus toimiikin aivan erinomaisesti. Hyvin usein Google osaakin antaa heti ensimmäisenä hakutuloksena parhaan osoitteen.

Google näyttää hakutuloksissa sen kohdan tulossivusta, jossa haettavat termit sijaitsevat, eikä pätkää sivun alusta, kuten monet muut hakukoneet tekevät. Google myös tallentaa indeksoimansa sivut välimuistiin, jolloin tallennettuun kopioon pääsee käsiksi, vaikka alkuperäinen sivu on hetken poissa käytöstä tai yhteys ei toimi.

Hakulomakkeen asetukset voi tallentaa. Haluttaessa Google toimii täysin suomenkielisenä ja etsii tietoja vain halutulla kielellä.

Google sisältää myös useita erikoistuneita hakukoneita ja muita työkalua

Yahoo <URL: http://www.yahoo.com/>

Yahoo on kaikista käytetyin ja yksi vanhimpia hakupalveluita. Yahoon suosio perustuu erittäin laajaan ihmisvoimin ylläpidettyyn aihehakemistoon.

Britannica.com <URL: http://www.britannica.com/>

Britannica.com on Encyclopædia Britannican kustantajan tuottama hakupalvelu, johon kuuluu koko Britannica-tietosanakirja, Britannica Internet Guide, ajankohtaispalveluita, Merriam Webster -sanakirja ja paljon muuta. Kuten tietosanakirjan julkaisijalta voi odottaakin, Britannica.com on erittäin laadukas hakupalvelu.

Internet Movie DataBase (IMDB) <URL: http://www.imdb.com/>

IMDB on hieno esimerkki erikoistuneesta hakupalvelusta. IMDB sisältää lähes kaiken mahdollisen tiedon uusista, vanhoista ja tulevistakin elokuvista ja kaikista niihin liittyvistä henkilöistä.

Lisää hakukoneita

Lisää hakukoneita on listattu osoitteessa http://appro.mit.jyu.fi/haku/. Samassa osoitteessa voi luoda oman hakusivunsa tai lisätä haluamansa hakukoneet suoraan omaan selaimeensa.

Käyttäjien kommentit

Kommentoi tätä sivua Lisää uusi kommentti
Kurssimateriaalien käyttäminen kaupallisiin tarkoituksiin tai opetusmateriaalina ilman lupaa on ehdottomasti kielletty!
http://appro.mit.jyu.fi/doc/tyovaline/hakukoneet/
© Antti Ekonoja (anjoekon@jyu.fi) <http://users.jyu.fi/~anjoekon/>
Tommi Lahtonen (tommi.j.lahtonen@jyu.fi) <http://hazor.iki.fi/>
Jukka Mäntylä (jmantyla@iki.fi) <http://www.iki.fi/jmantyla/>
2003-10-03 15:19:16
Informaatioteknologia - Jyväskylän yliopiston IT-tiedekunta ja avoin yliopisto