Istraživanje podataka

Istraživanje podataka (eng. data mining) je naučna oblast zasnovana na matematici, statistici i računarstvu, nastala zbog potrebe za efikasnom obradom velikih skupova podataka. Informatički razvoj naše civilizacije doneo je i ogromne skupove podataka, prikupljene različitim senzorima ili na neki drugi način, među kojima je teško naći neku određenu vezu između posmatranih veličina. U klasičnoj statistici obično se polazi od određenih pretpostavki (hipoteza), tj. unapred se zna šta je potrebno utvrditi. U istraživanju podataka nije unapred poznato šta se traži, tj. da li postoji neka veza, zakonitost, među podacima i koja. Otkrivanje sekvenci među podacima, automatska klasifikacija, predviđanje, klasterovanje i sumarizacija teme su i zadaci oblasti nazvane istraživanje podataka. Iako se metode često oslanjaju na statistiku, one se suštinski razlikuju po tome što obično podrazumevaju razvijanje posebnih algoritama efikasnih kada su u pitanju velike količine podataka.

Posebna vrsta istraživanja podataka jeste istraživanje podataka u tekstualnom obliku (istraživanje teksta). Nekada su veoma važne informacije i veze između njih sakrivene u različitim tekstovima, na primer naučnim člancima. Teoretski, kada bi čovek mogao da iščita sve te tekstove verovatno bi uočio neku postojeću vezu, ali u praksi to je nemoguće. Zbog toga se koristi algoritmi za automatsku obradu velikih količina teksta i pronalaženje određenih zakonitosti i relacija. Na primer, upotreba različitih preparata za borbu protiv neke štetočine verovatno je opisana u velikom broju radova. Kakva je efikasnost preparata, da li ima neželjenih dejstava i slično pitanja su čiji se odgovori nalaze u tim radovima. Obrada tekstova metodama istraživanja teksta mogla bi da izdvoje te odgovore kao posebnu informaciju.