Az adatbányászat nagyon jó fedőfogalom számos olyan elemzési technikára, amely viszonylag rejtett, nem ismert információ kinyerésére alkalmas. Ennek egy része a múlt vagy a jelen megismerését szolgálja, és egy része pedig a jövővel foglalkozik. Ezek közül is a legizgalmasabb, ma leginkább kutatott terület az ízlésvilág feltérképezése, illetve előrejelzése egy-egy termékkel kapcsolatban. Kit ne érdekelne, hogy hogyan fogják fogadni írását, zenéjét, ötletét, tetszik-e majd a kinézetünk másoknak? De egy jó előrejelző alkalmazható lehet pl. a tőzsdei hangulat előrejelzésére is, vagy hogy egy reklám mennyire fog eljutni a célcsoporthoz, esetleg, hogy elég vonzó egy üzleti ajánlatunk vagy az önéletrajzunk. Lehetséges, hogy az emberi viselkedés általában ennyire jól becsülhető algoritmikusan?
Elméletileg nincs cáfolat erre. A tudományágak között mind a pszichológia, mind a szociológia előretörőben van napjainkban, ezek a tudományágak pedig matematikai eszközökkel igazolható vagy cáfolható, de bizonyosan ellenőrizhető (magyarázható) állításokat tudnak tenni az emberi pszichére és viselkedésre vonatkozóan. A tudományágak sikere azt jelzi, hogy általában az ember (de nem az egyén!) viselkedése jó közelítéssel előrejelezhető. A gyakorlati tapasztalat azt is mutatja pl. a Netflix 1 millió dolláros versenyének tapasztalatai alapján, hogy az egyének filmekre leadott tetszési indexe kis hibával meghatározható. Sokakban ez azt az érzetet kelti, hogy a gépek képesek előre meghatározni vagy akár teremteni a divatot, vagy elválasztani a sikeres termékeket a sikertelenektől.
Nézzük meg a kérdést a technológia oldaláról. A Netflix esetében egy nagy adatbázis állt rendelkezésre, amelyben a felhasználók múltbéli minősítései találhatóak olyan filmekre, amelyeket már korábban láttak és/vagy kölcsönöztek. Ezek alapján a még nem látott filmekre kell egy algoritmusnak tippelni, hogy hogyan fogja a felhasználó értékelni az adott filmet egy ötös skálán. Az első és nagyon fontos tanulsága az adatelemzésnek az volt, hogy a rendelkezésre adatok közül pl. a 3 hónapnál régebbi információk rontanak a becslés jóságán, azaz az ízlés nem örökérvényű. Ráadásul egész más stratégiával érdemes értéket érdemes tippelni pl. a korai fogyasztóknál és a késői követőknél, a tömegfilmeknél és a rétegfilmeknél stb. A becslés átlagos négyzetes hibája alacsony, 0,7 körül van, azaz általában megbecsüli az algoritmus, hogy milyen két tetszési érték közé teszi a filmet a felhasználó – de néha jelentőseket is téved. Sokan esetek abba a hibába is, hogy a tematikai alapon próbálták rendszerezni a filmeket, és így a sikeresség értékének meghatározását. Ezzel két probléma is van: látszólag egy varázslófiúról szóló történet izgalmasabb egy differenciál egyenleteket oktató filmnél, de a siker sokszor nem tartalom, hanem prezentáció kérdése. A szerelem eshetőségeit boncolgató filmek szórása pedig szinte végtelen. Másrészt a tartalom általában megtalálja a közönségét, így pl. egy második világháborús film az azt nézők számára lehet vonzó, míg a nagy tömeg általában nem is kölcsönözné ki. A Netflix verseny számunkra második nagy tanulsága, hogy a becslés jósága – az ízlés, az évszak, a különféle hatások változásával – nagyon gyorsan romlik. De tapasztalat volt az is, hogy a Netflix versenyen alkalmazott megoldások közvetlenül nem vihetők át más területekre, ha ott a szociológiai hatások is érvényesülhetnek – pl. weboldalak esetében.
2001-ben alapították a Hit Song Science nevű céget Spanyolországban arra, hogy meghatározza melyik jelenleg ismeretlen előadó dala lesz igazán sikeres a lemezvásárlók között. Sikereket értek el a vállalkozás kezdetén: felfedezték Norah Jones-t (8 dalára tippelt slágergyanút a 14-ből – 10 millió példányban adták el az albumot), Maroon 5 egyik albumának dalai közül megmondták, hogy melyik a legvalószínűbb slágeresélyes szám (3x platina lemez lett). Üzleti sikert – jelentőset – mégsem értek el vele, mert rengeteg “zöldséget” is képes volt az algoritmus mondani; pl. Michael Jackson Billy Jean számát vacaknak értékelte a módszer, míg egy hatperces instrumentális zenét biztos slágernek ítélt. Miért volt sikertelen? Túl azon, hogy a zenei tartalom elemzése nem rendelkezhetett kognitív képességekkel, amely a szöveg- vagy zeneértést lehetővé tette volna, az ízlés, így a zenéhez való viszony olyan mértékben tud változni akár nagyon rövid idő alatt is, amit egy jó algoritmus nem képes úgy lekövetni, mint egy jelenben élő ember. Az egyéni ízlések önmagukban még talán előre is jelezhetőek, de a társadalmi hatások befolyásával együtt már jelentősen torzulhatnak. Egy véleménykutatással foglalkozó szakember szerint a legtöbb fókuszcsoportos vizsgálat során az egyéni ízlések sokszor háttérbe szorulnak a hangadók ízlésével szemben, ami jelzi, hogy a társadalmi hatás nem figyelmen kívül hagyható tényező; az emberek többsége igazodik a többségi ízléshez.
Sokkal jobb algoritmus ehhez képest, ha az ízlést mint szociológiai tényezőt jelezzük előre olyan segédeszközök segítségével, amelyeken a “hangadóhatás” jól nyomonkövethető. Erre jó lehet pl. a Twitter, a Facebook, a Digg igen nagy felhasználói létszámmal; ezeken az emberek azonnal és helyben csevegnek egymással. Például a még meg nem jelent filmekről. A bejegyzések alapján igen jól tippelhető pl. az első heti árbevétel a mozikban. Hogyan? Elegendő figyelni az ott elhangzó jelzőket (pl. SentiWordNet segítségével), valamint a témával foglalkozó bejegyzések számát. Hozzátesszük: ezt a módszert kipróbáltuk és korlátozott mértékben alkalmazható idegen nyelvre. Sajnos, a magyar nyelvre ez kevésbé hatékony, mivel az irónia, a szarkazmus, illetve a tagadó állítások (pl. “hát ez szuper…”, illetve “nem rossz”) gyakoriak a köznyelvben. De a New York-i székhelyű BuzzFeed ennél is továbbmegy, kifejezetten azt vizsgálja a hivatkozó oldalak alapján, hogy az emberek egy oldalt vagy annak tartalmát mennyire osztanak meg másokkal; azaz hány hivatkozó oldal jut az összes oldaltöltésre. Ebből az arányból a hír, videó, kép, akármi “virulens” (vö. vírus marketing) jellegét jól lehet becsülni. A módszert másokkal kombinálva jelenleg mi is elemezzük, és vizsgáljuk, a kezdeti eredmények nálunk is biztatóak.
