See artikkel vajab toimetamist. (Märts 2010) Palun aita artiklit toimetada. (Kuidas ja millal see märkus eemaldada?)
See artikkel ootab keeletoimetamist. Kui oskad, siis palun aita artiklit keeleliselt parandada. (Kuidas ja millal see märkus eemaldada?)
Andmekaeve põhikomponendid

Andmekaeve[1] ehk andmekaevandamine[2] (inglise keeles data mining) on automaatne protsess kasulike mustrite paljastamiseks suurtest andmehulkadest. Andmekaeve on võrdlemisi noor uurimisvaldkond ning selle abil püütakse leida andmeid, mis jäävad oma struktuuri või mahu tõttu traditsioonilistele meetodile varjatuks.

Andmekaeve hõlmab paljusid teadusharusid ja metoodikaid. Neist olulisemad on tehisintellekt (masinõpe, hägusloogika), statistika (sämplimine, hüpoteesi testimine) ja informaatika (otsimis- ja sorteerimisalgoritmid, andmebaasisüsteemid).

Definitsioonid

Mõiste "andmekaeve" kohta on mitmeid tunnustatud definitsioone:

Ajalugu

Andmekaevandus sai alguse 1980. aastate lõpus, kui kanda olid kinnitanud relatsioonandmebaasid ning tutvustati esimesi andmekaeve paradigmasid.

Suurem läbimurre toimus alles 1990. aastate keskel ning sestpeale võib andmekaevet vaadelda kui infotöötluse loomuliku arengusammu, mis järgnes arvutustehnika võimsuse kasvule ja andmetalletamise odavnemisele, sest olemasolev infohulk ei suutnud rahuldada kasvavat teadmistenälga, mida tol ajal süvendas interneti buum (dot.com).

Eesmärgid

Andmekaeve täiendab olulisel määral traditsioonilist andmeanalüüsi meetodit, pakkudes lahendusvõimalusi järgnevaile andmeanalüüsi probleemidele :

Teadmushõive ja andmekaeve

Traditsiooniliselt loetakse andmekaevandust teadmushõive üheks protsessiks.[3] [5]

Jiawei Han on oma raamatus "Data Mining – Concepts and Techniques" toonud andmekaeve nimetuse teadmushõivega samavääristamine põhjenduseks, et kolmandad osapooled (turundajad, andmebaasisüsteemide loojad) on võtnud ühe teadmushõive protsessi etapi ning üldistanud selle kogu protsessile.

Fayyad toob oma teoses [6] välja selgemini mõistetava põhjenduse – andmekaeve on teadmushõive tuum-etapp, teised teadmushõive etapid täidavad vaid toetavat rolli, seetõttu on loomulik andmekaeve mõiste ülekandumine teadmushõivele.

Teadmushõive protsessid

Teadmushõive protsess
  1. Andmete eeltöötlemine
    1. Andmete puhastamine – müra eemaldamine ja andmete ühtlustamine
    2. Andmete kombineerimine – erinevate andmeallikate koondamine
    3. Andmete alamosadeks jaotamine – edasiseks analüüsiks vajalike andmete hankimine ja valimine
    4. Andmete transformeerimine ja normeerimine – muutujate koondamine üheks, pidevate suuruste diskreetimine, sh ka binaarsete suuruste tekitamine
  2. Teadmiste hankimine
    1. Andmete kaevandamine – sobivate mudelite valik
  3. Järelanalüüs
    1. Tulemuste hindamine – testandmete rakendamine; Hinnatakse leitud mustri huviväärsust, selleks peab leitud tulemus olema hõlpsalt tõlgendatav, püsiv (või hinnatava muutlikkusega), kasulik ja informatiivne.
    2. Teadmiste rakendamine – tulemuste rakendamine ülesannetes või info lisamine eskertsüsteemidesse.

Teadmushõive süsteemi põhimõtteline skeem [5]

CRISP-DM protsessimudel

Juhtivate andmeanalüüsi ettevõtete loodud standard, mille eesmärk on kaitsta ärihuve ja ühtlustada andmekaeve protseduure, et protseduurid suudaksid tagada valdkonna ja vahendite sõltumatuse.

Protsesside lühiülevaade

  1. Valdkonnaga tutvumine -äriliste eesmärkide kinnitamine, alusteadmiste kogumine ja nendega tutvumine.
  2. Andmete mõistmine – andmete kogumine, struktuuri ja andmete kvaliteediga tutvumine.
  3. Andmete ettevalmistamine – suuruste tranformeerimine ja kohandamine algoritmidele sobivale kujule.
  4. Andmekaevandamine – sobivate tehnikate valimine ja rakendamine ettevalmistatud andmetel
  5. Tulemuste hindamine – hinnatakse tulemuste vastavust punktis 1 kokkulepitud äriliste eesmärkidega.
  6. Juurutamine – uute ja kasulike teadmiste integreerimine otsussüsteemidesse või lisamine teadmusbaasi.

Töömahu hinnanguline kulu protsesside kaupa

Protsess Ajakulu (%) Alamprotsessid Äripool Analüütik IT
Valdkonnaga tutvumine 5–10 Eesmärkide püstitamine, edukuse määratlemine X
Andmete mõistmine 10–15 algandmete kogumine, andmete uurimine, kvaliteedi esmahinnang X X
Andmete ettevalmistamine 30–60 andmete valimine, puhastamine, kohandamine X X
Modelleerimine 20–30 Tehnikate ja tööriistade valimine, mudelite koostamine X
Tulemuste hindamine 20–30 Kasulikuma mudeli valimine, mudeli tulemuste selgitamine X X
Rakendamine 5–10 Teadmiste rakendamine, monitoorimine ja hooldus X X X

Andmekaevetehnikad

Jagunevad üldiselt kahte kategooriasse:

Ekslikud tõlgendused

Ajakirjanduses võib kohata andmekaevanduse vääriti tõlgendamist ja mõiste liigset laiendamist, mille tulemusena on täiesti omaette tehnoloogiamõisted koondatud andmekaeve alla. Mõistete segiajamine on valdavalt tingitud andmekaeve noorusest, paljud mõisted pole kinnistunud ja tehnoloogiamõistete hulk suureneb väga kiiresti.

Statistika ja andmekaevandus

Andmekaeve algusperioodil põhjustas uus andmetöötluse metoodika tuliseid vaidlusi ja sagedast mõistete segiajamist. Traditsiooniliste statistikute jaoks oli andmekaeve mõiste segane ja nad pidasid seda pelgalt äriliste ettevõtmiste uueks turundustrikiks ning hiljem, kui andmekaeve oli saavutanud arvestatava kõlapinna, hakkasid mitmed juhtivad statistikud andmekaevanduse mõistet suruma statistika alla.[7][8]

Tänapäeval on mõiste "andmekaeve" paika loksunud ning Fayyadi raamatus[6] on esitatud selged piirid statistika ja andmekaeve vahel: "Statistikat defineeritakse kui meetodit andmete kogumiseks, esitlemiseks, kokkuvõtmiseks, hüpoteeside testimiseks ning järelduste tegemiseks, kasutades induktiivseid ja deduktiivseid arutluskäike. Andmekaevanduse eesmärgiks on eelkõige olemasolevatest andmetest huvitavate struktuuride määratlemine ning andmete vaheliste seoste ja mustrite leidmine, kasutades induktiivseid ja tehisintellekti tehnikaid. "

Väike erisuste loend

Rakendusvaldkonnad

Finants, kindlustus

Bioinformaatika

Kaupmehed

Telekommunikatsioon

Isikuandmete kaitse

Privaatsuspoliitika ja paranoiline (paraku mitte alati alusetu) hoiak erinevate eraeluliste andmete kogumisel tekitab sageli avalikke diskussioone erinevate andmete analüüsimise eetika kohta, seda ka Eestis.[9]

Reaalajaliste andmete töötlemise tundlikkuse ja kasulikkuse vahel tuleb teha kompromiss, sest saadud kasu on tavaliselt suurem. Näiteks nutitelefonide asukoha kaevandamine võimaldab paremini juhtida liiklust ning vähendada ummikuid. Samas küüniline allikate hägustamine ei pruugi veel tagada isikuandmete varjamist, sest mõnikord on võimalik mitme allika koondamisel tundlikud andmed taastada.[10]

Tarkvara

Organisatsioonid

Vaata ka

Viited

  1. EMS
  2. E-teatmik
  3. 3,0 3,1 VIpin Kumar, Pang-Ning Tan, Micheal Steinbach , "Introduction to Data Mining", USA, Pearson, 2006
  4. David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", USA, MIT Press, 2001
  5. 5,0 5,1 Jiawei Han, Micheline Kamber: "Data Mining – Concepts and Techniques", USA, Morgan Kaufmann, 2. trükk, 2005
  6. 6,0 6,1 Usama Fayyad, Georges Grinstein, Andreas Wierse, "Information Visualization in Data Mining and Knowledge Discovery", USA, Morgan Kaufman, 2001
  7. Mannila: "Why do statisticians "hate" us?"
  8. Jerome Friedman: "Data Mining and Statistics: What's the Connection?"
  9. Innar Liiv, "Andmekaevandamine", A&A 2002
  10. Carnegie Mellon intervjuu Tom. M. Mitchelliga 7. märts 2010

Välislingid