Tiedonhaku
WWW:n sisältämien dokumenttien määrä on kasvanut räjähdysmäisesti jo pitemmän aikaa, ja kasvu tulee jatkumaan vielä pitkään. Jonkin erityisen tiedon löytäminen tästä valtaisasta heinäsuovasta ei ole mitenkään helppoa. Tätä varten on kehitetty monenlaisia tapoja etsiä tietoja WWW:stä. Yleisimmät ja tärkeimmät tavat ovat tavallinen selaaminen ja hakukoneiden käyttäminen.
Tiedonhaku selaamalla
Yleisin tapa etsiä tietoa on lähteä liikkeelle joltakin tutulta linkkisivustolta tai omista kirjanmerkeistä. Tietoa etsitään etenemällä sivuilla olevia linkkejä pitkin kunnes halutun tiedon sisältävä sivu löytyy. Tällaista hakutapaa tukemaan onkin syntynyt monia hierarkisia hakusivuja eli hakemistopalveluja. Tunnetuin ja käytetyin on Yahoo <URL: http://www.yahoo.com/>. Selaamalla etsimiseen on useita syitä:Käyttäjä ei välttämättä pysty tai ei halua määritellä tarkkoja hakusanoja tai etsittävää WWW-sivustoa ei ehkä löydä hakukoneella. Selatessaan johonkin asiaan liittyviä sivuja käyttäjä saattaa myös löytää jotakin myöhemmin tarvittavaa tietoa samasta aihepiiristä.
Hakutapoja
Suuret hakukoneet yrittävät indeksoida tietokantoihinsa koko WWW:n tietomäärän. Hakukone tutkii WWW:tä lukkien (engl. spider) avulla. Lukki on ohjelma, joka saa tutkittavakseen jonkin tietyn WWW-sivun. Lukki lukee sivun, indeksoi sen sisältämän tiedon ja lähettää edelleen lukkeja sivulla olevien linkkien takana oleville sivuille. Yhden sivun indeksointi kestää ehkä vain sekunnin, mutta linkkejä pitkin edetessä sivujen määrä kasvaa miljooniksi; aikaa kuluu siis paljon.
Hakukoneet rekisteröivät käyttäjien tekemät haut ja yrittävät niiden pohjalta parantaa tietokantaansa. Koneet yrittävät etsiä "syvemmältä" tietoa niistä hakusanoista,joita käytetään eniten. Indeksin pienentämiseksi hakukoneet eivät indeksoi ns. poistosanoja (engl. stop words), joita ovat prepositiot, etuliitteet, sidesanat, epämääräiset ja määräiset artikkelit yms.
Hakua vastaavat sivut voidaan järjestää sen
mukaan miten monta kertaa haettu sana niissä esiintyy, mutta
muitakin tapoja on. Monessa koneessa käytetään
nykyään myös referenssien määrää
eli sivuun osoittavien linkkien määrä. Sivu on
sitä parempi, mitä enemmän siihen viitataan muilta
WWW-sivuilta. Sivun titleä ja otsikoita (h1, h2, h3 jne.
)
käytetään myös usein sivujen
järjestystä määriteltäessä.
WWW:n valtavan tietomäärän vuoksi yleisten hakukoneiden käyttäminen ei aina ole järkevää. Johonkin tiettyyn asiaan tai alaan erikoistunut hakukone saattaa joskus olla parempi vaihtoehto. Webopaedia on hyvä esimerkki hakukoneesta tai sanakirjasta, joka on keskittynyt lähinnä tietotekniikan ja tietoliikenteen sanoihin.
Avainsanahaku
Avainsanahaku (engl. keyword search) hakee käyttäjän hakusanat sisältävät dokumentit ja yrittää järjestää tuloksen dokumenttien laadun perusteella.
Boolen haku (boolean search)
Joillakin hakukoneilla pystytään tekemään mutkikkaampia hakuja käyttämällä loogisia operaattoreita AND (ja), OR (tai) ja NOT (ei).
Googlessa ei tarvitse käyttää AND-operaatiota vaan AND-operaatio on oletuksena ja hakutuloksessa vaaditaan kaikkien hakusanojen esiintymistä.
Saman haun tekeminen joissain muissa hakukoneissa vaatii +-merkin lisäämistä jokaisen hakusanan eteen.
OR-operaatiota voi käyttää Googlessa OR-sanan avulla.
NOT-operaatiota vastaa Googlessa - (väliviiva) -merkki.
Esimerkkihaku (query by example)
Käyttäjä antaa dokumentin ja hakukone hakee samantyyppiset dokumentit. Googlessa tämä onnistuu related-avainsanan avulla.
Fraasihaku (phrase search)
Hakusana sijoitetaan lainausmerkkien sisään, jolloin hakukone hakee koko merkkijonoa eli fraasia.
Sanarunkohaku (stemming)
Sanarunkohaku osaa hakea sanoja pelkästään niiden alkuosan perusteella.
Altavistassa sanarunkohaku määritellään asteriski (*) -merkillä. Googlella ei pysty tekemään sanarunkohakuja.
Sumea haku (fuzzy search)
Sumea haku löytää tietoja, vaikka hakusanaa ei löytyisikään kirjoitusvirheen takia. Google osaa joissain tilanteissa ehdottaa uuttaa hakusanaa väärin kirjoitetun sanan tilalle.
Hakukoneita
Google <URL: http://www.google.fi/>
Google on kirjoitushetkellä suurin hakukone indeksoitujen sivujen perusteella laskettuna.
Googlen hakutekniikka eroaa oleellisesti useimmista muista hakukoneista. PageRank-teknologia järjestää hakutulokset sivujen tärkeyden mukaan, eikä sen mukaan kuinka monta kertaa hakusanat esiintyvät sivulla. Google päättelee sivun tärkeyden siitä kuinka paljon muilta sivuilta on linkkejä tälle tietylle sivulle. Edelleen Google painottaa jo tärkeiksi määriteltyjen sivujen linkkejä enemmän kuin sellaisten sivujen, joihin ei viitata muualta. Googlen sivupainotus toimiikin aivan erinomaisesti. Hyvin usein Google osaakin antaa heti ensimmäisenä hakutuloksena parhaan osoitteen.
Google näyttää hakutuloksissa sen kohdan tulossivusta, jossa haettavat termit sijaitsevat, eikä pätkää sivun alusta, kuten monet muut hakukoneet tekevät. Google myös tallentaa indeksoimansa sivut välimuistiin, jolloin tallennettuun kopioon pääsee käsiksi, vaikka alkuperäinen sivu on hetken poissa käytöstä tai yhteys ei toimi.
Hakulomakkeen asetukset voi tallentaa. Haluttaessa Google toimii täysin suomenkielisenä ja etsii tietoja vain halutulla kielellä.
Google sisältää myös useita erikoistuneita hakukoneita ja muita työkalua
- Google Catalogs <http://catalogs.google.com/>, jolla voi etsiä postimyyntiyritysten kataloogeista.
- Google Groups <http://www.google.com/grphp>, jolla voi etsiä usenet-keskusteluryhmäarkistosta, jopa vuodesta 1980 alkaen
- Google Image Search <http://www.google.com/imghp>, jolla voi etsiä kuvia
- Google News <http://news.google.com/>, jolla voi etsiä tuoreita uutisia
- Google Translate Tool <http://www.google.com/language_tools>, jolla voi kääntää sivun espanjasta, ranskasta, italiasta, saksasta tai portugalista englanniksi tai päinvastoin
- Laskin ja yksikkömuunnin
- Google directory <http://www.google.com/dirhp>, joka on Open Directory Projectiin <URL: http://dmoz.org/> pohjautuva Yahoon tapainen aihehakemisto
Yahoo <URL: http://www.yahoo.com/>
Yahoo on kaikista käytetyin ja yksi vanhimpia hakupalveluita. Yahoon suosio perustuu erittäin laajaan ihmisvoimin ylläpidettyyn aihehakemistoon.
Britannica.com <URL: http://www.britannica.com/>
Britannica.com on Encyclopædia Britannican kustantajan tuottama hakupalvelu, johon kuuluu koko Britannica-tietosanakirja, Britannica Internet Guide, ajankohtaispalveluita, Merriam Webster -sanakirja ja paljon muuta. Kuten tietosanakirjan julkaisijalta voi odottaakin, Britannica.com on erittäin laadukas hakupalvelu.
Internet Movie DataBase (IMDB) <URL: http://www.imdb.com/>
IMDB on hieno esimerkki erikoistuneesta hakupalvelusta. IMDB sisältää lähes kaiken mahdollisen tiedon uusista, vanhoista ja tulevistakin elokuvista ja kaikista niihin liittyvistä henkilöistä.
Lisää hakukoneita
Lisää hakukoneita on listattu osoitteessa http://appro.mit.jyu.fi/haku/. Samassa osoitteessa voi luoda oman hakusivunsa tai lisätä haluamansa hakukoneet suoraan omaan selaimeensa.
Käyttäjien kommentit