Data Pagmimina At mahuhulain Analytics Sa Web Data gawain? Nyet!
Strong Russian salita: Nyet [Walang]. Sa dulo ng pag-asa ko ang post na ito kayo ay sumasang-ayon. Pinakamasama kaso magkakaroon kayo ng pagkain para sa mga isipan.
Ito sa mga in-depth-post ng mga pabalat ng isang komplikadong paksa na maaaring hindi mag-apply sa lahat ng tao, ngunit ito ay sumasakop sa isang lugar na kung saan ang mga kumpanya ay may struggled upang subukan upang ipakita bumalik sa mga pamumuhunan na ginawa sa mga kasanayan, teknolohiya at oras. Ang mga post ng mga pangako liwanag at patnubay na sana ay magreresulta sa iyo sa pag-save ng tons ng paglala at yes kahit isang magandang tipak ng mga pagbabago.
Data Pagmimina at mahuhulain Analytics ay may isang ipinangako sa lupa, ang buwan at ang Sun Fo minsan ngayon, sa lahat ng mga channel namin gawin negosyo in Aking mga personal na palagay ay sa web na sila ay bumabagsak sa malayong maikling ng kahit na ang pinaka-pesimista pangako. Para sa ngayon.
Bilang isang taong ay lumago hanggang sa mundo ng tradisyunal na desisyon support systems (massively malaking data warehouses, negosyo ng katalinuhan sistema at mga kasangkapan, mga ERP & CRM systems) ako ay may nagkaroon ng pagkakataon na maging sa parehong sa marketing / business side pati na rin ang pagbuo at pagpapatupad gilid ng mga bagay-bagay.
Diyan ay wala palamigan kaysa imagining ang lahat ng mga magagandang bagay-bagay na darating kung ikaw lang lumipat sa kabila ng pag-uulat, at kahit na pagtatasa, sa mga gumagawa ng tunay na data pagmimina at mahuhulain analytics. Ito ay mahirap ngunit maaaring rewarding.
Napakaraming konsulta (yes ko mapagtanto ang kabalintunaan dito) ay nagbebenta ng mo ito tunay mabisa.
Sa purong web data sadly bagaman ito ay hindi gumagana.
Magkano ang bilang na maaaring pagnanais na ito, maraming bilang na maaaring ito mangyari. Ang iyong tradisyonal data pagmimina pagsisikap at mga mapagkukunan at $ $ $ na ginugol sa paggawa mahuhulain analytics ay napaka-ani ilang at bihirang naaaksyunang pananaw. Karamihan sa mga oras na ito ay patunayan na maging isang sub optimal sa paggamit ng oras at enerhiya.
[Ko makita ang mga matalinong analysts sa gitna ka bumaba ang iyong upuan at pag-ungol kahalayan sa ilalim ng iyong hininga.]
May ilang mga tunay malakas, at di-halata, elemento nagtatrabaho laban sa iyo kapag ito ay dumating sa paghahanap ng mga exploitable mga uso at mga pattern sa iyong web data, ang uri na ikaw ay ginagamit upang sa offline at ERP / CRM uri ng kapaligiran. Bago ka magpasyang ibuhos $ $ $ at mga sistema at mga tao sa inyong web analytics mahuhulain pagsisikap mangyaring isaalang-alang ang magpahinga ng ang post na ito.
Ako kamakailan lamang nagkaroon ng magandang pagkakataon upang ipakilala sa baya lugar ACM Data Pagmimina Special Interests Group. Narito ang huling slide ng aking pagtatanghal:
Ang slide, sa aking ngalan, captures ng kakanyahan ng hamon pagdating sa paggawa ng mahuhulain Analytics sa web data. Hayaan mo akong ipaliwanag.
# 1 Uri ng Data:
Ito ay mahalaga upang mapagtanto na ang mga web ang data para sa karamihan ng bahagi ay lubos na di-kilala, kadalasan ay hindi kumpleto at tunay tunay unstructured. Kapag nais mong gawin ang mga tradisyunal na data pagmimina (at hindi lamang analysis) at mahuhulain analytics ang lahat ng mga bagay-bagay ay lason.
Ikaw ay naghahanap ng mas malaki komplikadong mga uso at mga pattern sa ang data para sa mga tao, mga produkto, kinalabasan, pag-uugali ng higit sa sapat na panahon ng malaking oras sa gayon maaari mong mahanap ang isang bagay insightful na maaari ding exploitable.
Iyan ay talagang mahirap na gawin kapag ang mga pangunahing mga bagay na ikaw ay relying sa pagkuha ng data ay hindi nagpapakilala cookies at javascript tag na maaaring tunay, ay dapat namin sabihin, sensitive. At na lang ang mga dulo ng malaking bato ng yelo.
Ang lahat na ito ay maraming marami mahirap sa pag-uugali ng mga tao itali sa kinalabasan sila maaaring nagmamaneho (sa anumang uri ng mga website, na ecommerce o hindi). Oo kung makunan sa pag-login id's at may konektado na sa isang aktwal na mga tao ng mga detalye mula sa iyong mga offline na sistema at gawin ito para sa lahat ng nag-iisang tao na pagbisita ang problemang ito eases ng kaunti (ang lagda bahagi) ngunit karamihan ng mga ito ay patahimikin diyan.
# 2 Bilang ng variable:
Kumilos na ang mga tao sa crazy paraan offline, sila ay may maramihang mga hawakan ng points at Dont gamitin perpektong mga pangalan at address at iba pa ang lahat ng ito ay marami pa mabaliw sa online mundo.
Kami ay may usapan sa blog na ito kung paano ito ay hindi isang online na mundo o isang offline na mundo kundi ito ay isang nonline mundo! Nangangahulugan ito na ang daloy ng mga tao sa pagitan ng mga channel at hawakan ng points at doon ay maaaring isang kinalabasan (lead, pagbili, problema resolution) sa isang ganap na iba't-ibang channel na kaysa sa mga karamihan ng mga pakikipag-ugnayan ay. Maaari kang mag-akala kung paano ito ay lubos na magtaas ng iyong SAS o SPES o Clementine o iba pang mga bahay adulto solusyon.
Ito ay isa pang bagay na marami sa amin maliitin. Ito ay mas madaling Mine at pagkatapos ay mahuhulaan kapag may isang tiyak na halaga ng mga hindi-siloed-iral. Sa web sa Google ay sumali sa isang tao at ang kanyang parang buriko patong-sama ng isang bagong search engine. Hindi lamang ang naroon pretty marami walang mga balakid sa entry ngunit ito ay madali para sa iyong mga customer sa maglandi sa iyong mga kakumpitensiya at para sa iyong mga kakumpitensiya na gumanti sa iyo sa massively ng isang mahusay na paraan.
Kaya ang tatlong pagbisita sa pagbili ng pangkaraniwang? (Ano ang tungkol sa dalawang mga pagbisita sa isang tindahan sa pagitan?) Ay $ 15 off sa mga tao na mula sa Florida ang pinakamahusay na diskarte? (Ano ang mangyayari sa mga na kapag ang iyong mga kakumpitensiya patakbuhin agresibo PPC?) Ay "Tony" at ang lahat ng mga pagbisita na iniuugnay sa Tony tunay Tony? (Ano ang tungkol sa mga cookies at ang aking asawa at ako at Damini lahat ng surfing sa Amazon ang parehong login?)
At dito ay kung ano ang mangyayari, sa pamamagitan ng mga panahon na kayo control para sa mga variable ay maari count at account para sa (habang itsa lahat na maaari mong hindi) literal ikaw ay nag-iwan ng isang baso ng tubig (at ikaw na nagsimula sa isang karagatan na puno ng tubig ) at ang iyong abilidad na mahuhulaan ng kahit na ano para sa massively scalable naaaksyunang pananaw ay lubhang limitado. Ito ay lamang ng isang baso ng tubig pagkatapos ng lahat. :)
# 3 Maraming Pangunahing Layunin:
Sa web ang isyu na ito complicates mga bagay-bagay. Kami ay nagsisikap upang mahulaan ang kinalabasan ng aming website, ang isang mahirap unawain na na mayroon na gawin ng maraming (kahit ang mga bagay-bagay na ang inyong website ay hindi nilikha para sa mga).
Kaya kung ito ay hindi katulad mo ibang mga channels kung saan ang isang pagbisita at ang kinalabasan ay medyo madali na makikilalang at ang pinakamataas na antas at pagkatapos ay kung paano mo Mine at mahuhulaan?
Ako ay may madalas stressed ang kahalagahan ng pagsukat Pangunahing Hangarin dahil sa ang kapangyarihan na nanggagaling mula sa real-unawa sa kung bakit ang mga tao na bumisita sa website. Dalawang bagay na konektado sa Pangunahing Hangarin guluhin ang iyong Pagmimina at hula pagsisikap:
1) Hindi mo alam ang lahat ng mga pangunahing layunin (i-click dito para malaman kung paano maaari mong malaman).
2) Ito ay mapaniniwalaan o kapani-paniwala na mahirap na kumuha ng iyong matipuno koleksyon ng mga pag-click at mga pagbisita at pagkatapos ay magtalaga ng mga ito sa mga pangunahing layunin ng bawat balde at pagkatapos ay mahuhulaan sa itaas ng na.
3) Tingnan sa ibaba.
# 4 Maraming Bisitahin Ugali ng:
Ang tunay na screws up ng mga bagay-bagay. Maaari mong mahuhulaan frame ng isipan (pangunahing layunin) kapag ikaw ay magpadala ng mga tao na piraso ng mail. Maaari mong mahuhulaan kung ano ang mga tao na gusto / tingin kapag sila gusto sa iyong supermarket / store. Maaari kang gumawa ng mas maraming halimbawa ng mga bagay na namin ang lahat-aralan at Mine at mahuhulaan.
Ito ay isang sakit na pumunta sa isang tindahan at pagkatapos ay pumunta may anim na ilang beses. Sa web na ito ay mahalaga. Para bagang ang anumang website na-convert sa isang pagbisita.
Ito rin ay isang sakit para pumunta sa tindahan para sa tuwing kayo ay may problema o ang bawat tanong na ikaw ay may. Sa web na ito ay mahalaga. Maaari kang magkaroon ng parehong tao na dumating sa iyong website bilang ibang katauhan maraming beses na malutas ang isang iba't ibang mga isyu.
Ang tanong kapag handa na-aralan ang iyong mga multi terabyte database ay: Paano mo ihiwalay ang pag-uugaling ito sa iyong mga pag-click? Sa pamamagitan ng kung magkano ang confidence?
Sa papel na ito tunog madali ngunit sa pagsasanay na ito ay mapaniniwalaan o kapani-paniwala mahirap na ang para sa maramihang mga pagbisita na pag-uugali, kahit na kayo ay may nixed ang problema ng pagkolekta ng data nang tamang-tama para sa bawat tao at para sa bawat isa sa kanilang pagbisita.
# 5 Nawawalang Pangunahing Keys, Data Silos, Kakulangan ng Holistic Datasets:
Isang paraan upang makakuha ng mas mahusay na sa hula ay ang magdadala sa iyo ng data sa labas ng web analytics silos at pagsamahin ito sa ibang set ng mga customer na data sa iyong kumpanya (mga tindahan at supermarket, telepono channels, iba pa). Kung Alam ang lahat ng mga costumer touch points at nagkaroon ipinagsama ang data na ito at pagkatapos ay makakakuha ng maraming marami mas madaling maintindihan ang kasalukuyang pag-uugali at mahulaan ang hinaharap na pag-uugali at ang kinalabasan.
Ito nirvana sitwasyon ay durog sa pamamagitan ng isang pares ng mga halip bulok tomatoes.
Kami ay pamilyar sa lahat ng mga kampanya at untagged pahina. Din kami ng malaman na ang url parameter ay hindi palaging magtrabaho sa pagtulong sa amin na mangolekta ng data. Ang isyu na nagiging sanhi ng mas maraming problema ay ang katotohanang karamihan sa mga kumpanya na hindi lubos na ilagay ang iintindi sa kinabukasan kinakailangan upang lumikha ng karapatan "primary key" na pahintulutan ang data mula sa iba't ibang mga channels na baluktot up ng sama-sama.
May mga problema kahit na may pangalan at address at numero ng telepono na tinipon at naka-imbak na naiiba, magdulot pareho ng data pagkakasundo bangungot ngunit tiyak para sa post na ito magdulot ng malaking hamon sa pag-aaral kinalabasan.
Para sa mga data na pagmimina at mahuhulain analytics upang bigyang-daan positibong ROI ng iyong kumpanya ay maglagay ng isang pulutong ng mga aligata sa proseso ng koleksyon ng data at pag-imbak sa buong channels at sa malalim damdamin ng iyong mga web / ERP / CRM system. Kung ang aksyon ng item na ito ay hindi na minarkahan nakumpleto at pagkatapos na ito ay mag-focus sa optimal na muna bago pagputol ng chq para sa tools / mga tao na gawin ang Pagmimina at paghuhula.
# 6 matipuno makipagsabayan ng Palitan sa Web:
Matiyak na ang Google, Yahoo, cnn, Craigslist, Amazon, eBay, New York Times ay palaging-alis sa maaari diyan. Kahit na ito ay maaaring mukhang tulad ng mga bagay na hindi nagbabago.
Sa kasamaang-palad para sa inyo at ako ang laro na ito ay hindi ganap ang parehong. Ang web na ito ay patuloy na magbabago. Ang paraan ng mga tao na karanasan ito, ang paraan ng mga tao sa paligsahan, ang paraan ng mga tao na basahin at pinapayo at bumili, ang paraan ng lahat ng bagay ang mangyayari.
Paggawa ng pagmimina at mahuhulain analytics sa nakalipas na pag-uugali ay nangangailangan ng isang tiyak na halaga ng "katatagan" tungkol sa iyong mga hinaharap na (mga customer, negosyo, kinalabasan etc etc). Ngunit kung ang "kapaligiran" masyadong maraming mga pagbabago, o kahit ng sapat, at pagkatapos ay ang inyong mga paghuhula sa mga nakalipas na pag-uugali ay magkakaroon ng maliit na maliit lamang ang mga pagkakataon ng tagumpay.
Para sa ngayon ito ay marahil ang isa sa mga pinakamalaking hamon sa Analysts at Statisticians na nagsisikap upang makakuha ng ilan sa mga tradisyunal na pagmimina at mahuhulain algorithm na magtrabaho sa aming web data.
Ang mga artikulo sa Wikipedia sa mahuhulain Analytics magwawakas sa ang pahayag na ito:
"Mahuhulain analytics nagdadagdag malaki halaga sa isang negosyo sa pamamagitan ng paggawa ng desisyon kakayahan na nagpapahintulot ito upang bumalangkas matalino na patakaran sa mga batayan ng mga paghuhula ng hinaharap kinalabasan. Ang isang malawak na hanay ng mga kasangkapan at pamamaraan ay magagamit para sa ganitong uri ng pagtatasa at ang kanilang mga napili ay natutukoy sa pamamagitan ng analytical kapanahunan ng mga kompanya pati na rin ang mga tiyak na mga pangangailangan ng mga problema na lutasin. "
Kukunin ko ang umalis na-iisip sa iyo at stress na isaalang-alang:
1] kapanahunan ng inyong kompanya
2] na kinakailangan ng mga problema mo ay tuos
3] ang anim na mga bagay na nabanggit sa post na ito at ng panahon
4] mo na matatawaran ang lahat ng mga "mababang pader prutas"?
Ok ngayon nito ang iyong mga turn.
Ano ang gagawin mo ang lahat ng tingin? Mayroon ka sumang-ayon na ito ay mahirap? Marahil mo na sakop ito matigas problema? Marahil ay may lamat sa aking mga teorya?
Mangyari lamang na ibahagi ang iyong mga tips, tricks, digmaan kuwento, kritika, brickbats sa pamamagitan ng mga komento.
[Tulad sa post na ito? Para sa mas maraming mga post na ito mangyari lamang na i-click dito, kung ito ay maaaring maging ng mga interes mangyaring tingnan ang aking mga libro: Web Analytics: Isang Oras Isang Araw.]



















































September 11th, 2007 at 03:13
Ako hulaan ka makakakuha ng hindi bababa sa isang karagdagang puna.
:-)
Isa pang magaling na artikulo Avinash! Kung ako ay hindi sumasang-ayon sa mga ito ay lamang sa antas ng detalye ng isa piliin (?) Upang mahulaan sa. Na kung saan ay marahil sa isang / ang ipinahiwatig key point sa gamit ng data pagmimina et al?
Sa na, sa aking mga tradisyunal na papel ako ay madalas na sapilitang upang makagawa ng tumpak na mga paghuhula sa 5 taon batay sa here'n'now web data. Kung gaano karaming mga tao. Gaano karaming mga sabay-sabay. Mga pahina. * * Hits!
Namely: Capacity Planning; at ang arendante kilala twin: Disaster Recovery.
Sa ganitong kaso bagaman, maaari pad ng kaunti para sa mga dagdag na hindi inaasahan paglago. Bilang ang gastos ng hindi pagkakaroon ng sapat na kakayahan ay maaaring malayo mas mahal sa org.
Iba pang mga solusyon sa gawin ngayon umiiral, ngunit ako straying masyadong malayo dito. :-)
Ako hulaan kung ano ang sinasabi ko, ay na kahit na sa cruddy data, paminsan-minsan kami pa rin may sa mahuhulaan. Tayo o hindi.
"Ito ay masyadong matigas. Ito ay hindi na posible. "Ay hindi tanggap na sagot! :-D
Cheers!
- Steve
September 11th, 2007 at 05:34
Gusto may blasted ang manunulat had artikulong ito ay isinulat ng Web Analytics kritiko, ngunit kapag ikaw ay sumulat ako ay nakasalalay sa bigyan ito ng ilang nuynoy.
Ang isang pananaliksik mula sa Makatarungang Isaac ay nagkaroon ng mas maaga na ipinapakita i-click ang pandaraya ay lubhang mas mataas (around 15%) kaysa sa kung ano ang Yahoo o Google claims. Karamihan sa mga tao ay hindi sumang-ayon sa mga ito at mamaya Makatarungang Isaac mismo ang dumating sa likod paa na may kasabihan na ito ay ginawa na may limitadong data.
Ngayon muli matapos ang pagbasa sa post na ito mula sa iyo, sa tingin ko ay may ilang mga bagay-bagay sa web na dapat na ganap na bagong ipinanganak sa larangan ng data pagmimina at Analytics.
NGUNIT sa tingin ko, ang data ay may hamon sa anumang larangan na ito ay online o offline. Suliranin ay naroon ngunit sa web, solusyon ay nanggaling pa sa iba na offline negosyo. Kaya, ang aking kunin ang takdaan ng oras ay higit sa mga isyung ito ang makakakuha Inayos at analytics manalo dito masyadong.
Ang lahat ng mga puntos na ikaw ay may ipinapakita ang tunay na hamon sa lahat ng sa amin na kasangkot sa larangan na ito. Ngunit pare-pareho mahalaga ay upang malaman, kung paano interesado ay negosyo manager ng aming kliyente sa alam kung ano tayo ay trying sa sabihin sa kanila. Sila ay maaaring hindi interesado sa paglilinis ang data na iyong asahan ito sa maaari.
Ito ay maaaring tunay na bilang ng mga may-ari ng website ay hindi mangilangan sa basura ang anumang mapagkukunan na ito sa mga tao na bumibisita sa mga site sa pamamagitan ng pagkakataon o sa pagbili ng walang intensyon. Sila Dont kailangan prioritize kanino ang mga tao na dumalo sa kanino at hindi sa iba Retail tindahan.
Kompanya ng pagbibigay ng mga patalastas sa online ay interesado na malaman ang kanilang mga conversion, ngunit ang kaalaman ng mga kamag-anak ng conversion (keyword targeted vs site targeted; isang keyword vs iba pa) ay pagmultahin. At upang mahanap ang anumang bagay na kamag-anak, ang mga hindi masyadong mahirap. Sa kapaligiran ng napakalaking mga pagbisita, ang time frame para sa isang kampanya ay maaaring medyo mas mababa.
Sa paglipas ng panahon na ang pag-uugali ng mga pagbabago. Ito ay madalas na ganap na pagbabago sa web, salamat sa patuloy na teknolohiko advances at web 2.0 produkto. Ito lamang ang mga tawag para sa mga mas aktibo sa pagmamanman. Ito ay maaaring kailangan upang masubaybayan lingguhan o pang-araw-araw, pero ang ugali ay masyadong mahirap masyadong. Ito ay lamang na, paggawa ng mga business manager naintindihan ito kailangan ay ganap mahirap.
Ito ay tunay na sa interes ng lahat ng mga bahay sa negosyo na hindi na gumamit ng web analytics na resulta ng kanilang mga sarili. Ito ay pinakamahusay na kung naibigay na sa mga ikatlong partido na maaaring hawakan ito at ipatupad ito sa web na pagmemerkado. Ito ay maaaring mag-save ng web analytics na produkto masyadong gastos. At ang anumang mga kumpanya sa pagmemerkado sa web ay maaaring medyo gamitin ang isa sa mga kasangkapan analyse maraming mga web site ng iba't-ibang kumpanya. Pagbabalangkas ng mas mahusay na-unawa sa mga merkado.
Ako dapat sabihin, ito ay sa katunayan ng isang mahusay na-post mula sa iyo. Disturbing lang at mahirap. Thank you so much para sa publish nito dito.
Bhupendra
September 11th, 2007 at 06:11
Hmmm ... ito ay sigurado na magdala ng ilang mga kagiliw-giliw na diskusyon! Baguhin ang paksa mula sa "data pagmimina at mahuhulain analytics" sa "web analytics ng" at reread ang post. Ang isa ay madaling pumunta sa mga katulad na pagpapalagay tungkol sa web analytics at mahagis ang tuwalya (of course, hindi kami!).
Sa isang paraan, mahuhulain analytics na susubok na automate kung ano ang aming lahat na subukan ang gagawin sa web analytics: mapagbuti ang aming mga hinaharap na batay sa kung ano tayo malaman mula sa aming mga nakalipas. Ito ang parehong bilang hamon at ang parehong mga panganib. Ito ay depende sa lakas ng aming magnifying glass.
Ngunit sang-ayon ako sa huli: bago jumping sa mahuhulain analytics bandwagon, may isang impyerno ng isang pulutong ng iba pang mas madali na gawin ang mga bagay-bagay:)
September 11th, 2007 at 06:18
Hi Avinash,
ang iyong mga post ay palaging mga kagiliw-giliw at ito ang isa ay ang isa ko nais na basahin since I'm pagbabasa iyo. Tingnan ang I'ma graduate master sa Business Intelligence at ako ay isang pulutong ng mga mahuhulain pagsusuri para sa lahat ng uri ng data na kasama ang web data. Maraming mga practionners kalimutan na ang data ay hindi malinis at perpekto. Hindi ko na nagsasabing ang lahat ng mga data na nanggaling mula sa cash register o ng isang e-commerce site na may kaugnayan ngunit tingin ko na nakikita mo ang mga problema sa mas malaki kaysa ito ay. Sa BI kami laging sinasabi ng dalawang mga bagay-bagay sa data analysis: 1) ang data ng paglilinis ay tumatagal ng 80% ng oras, analysing tumatagal ng 20% 2) BE malaman GIGO (sa basura, basura out). Una, ang unstructured na data ay maaaring ang balangkas na may pasubali variable o statistical pamamaraan (ibig sabihin nito o kadalasan). Ikalawa, upang makatakas ang GIGO problema, kailangan mo ng mga tao na tulad ng sa akin;).
Ryan, Scientific Litterature ay nagbibigay ng isang pulutong ng mga artikulo sa mahuhulain mga modelo tulad ng buhay na pagtatasa, logistic at taluhaba pagbabalik, RFM (Kasariwaan, Dalas, halaga) at pagsasamahan patakaran (Market basket analysis) base sa mga web data. Halimbawa, Amazon ay ang paggamit ng mga alituntunin upang itaguyod ang samahan ay nagbibigay ng kamag-anak sa iyong nakaraang pagbili.
Jean-Sébastien
September 11th, 2007 at 06:29
Sumasang-ayon ako, nice post Avinash.
Ako hilig sa lubos na sumasang-ayon sa iyo tungkol sa mga problema sa likas mahuhulain analysis sa web. Ngunit hindi ko isipin ang mga problema na iyong outline dito ay eksklusibo sa website na pagtatasa, ang mga ito ay matatagpuan kailan mo subukan at mahulaan ang pag-uugali - sila ang bane ng lahat ng pagmemerkado batay pagtatasa.
Sumakay sa advertising research. Ano ang optimal sa antas ng ad gastusin sa kung saan ang mga daluyan? Ang iyong pangunahing pagmemerkado ihalo katanungan. Maaari mong mahagis ang lahat ng mga kaugnay na mga variable na maaari mong hanapin sa isang equation at magkakaroon pa rin ng kaunti mahuhulain kapangyarihan bilang may isang antas ng kumplikado hindi ka maaaring kumulekta ng data para sa - ang aktwal na proseso ng desisyon sa loob ng isang tao ng ulo, ang husay katangian ng isang patalastas, kapaligiran kadahilanan sa Pos. Sa ilang mga kaso it's like trying sa tayahin lumitaw paano sa mundo ay gumagana sa pamamagitan ng pagtingin sa pamamagitan ng isang dayami.
Ang mga pagkakamali ng isang pulutong ng mga tao na gumawa ay sabihin na ito ang lahat ng tungkol sa mga 'mas mahusay na datos'. Ito ay hindi. May ilang mga bagay na lamang ay hindi ganap na malaman. Paggawa ng desisyon mula sa hindi kumpletong impormasyon ay ang sining ng mga ito lahat.
".. Bigyan mo ako ng grasya upang tanggapin ang mga bagay na hindi ko masukat, ang tapang upang masukat ang mga bagay-bagay ko, at ang kaalaman na malaman ang pagkakaiba."
September 11th, 2007 at 06:42
Sa isang komplikadong enterprise na may maraming mga CTPs at maraming iba't-ibang mga segment ng customer, ang mga gusali ng Customer Holistic view, ay ganap ng isang hamon.
Puwede ba ang Customer Holistic tingnan isama ang web data? - Kasalukuyang hindi.
Great post.
September 11th, 2007 at 07:44
Sa ibang paraan, ikaw ay naglalarawan ng isang pagkakaiba sa pagitan ng sining at agham.
Mula sa isang science paninindigan, ang isa ay hindi pag-asa na gawin ang tunay na data pagmimina sa web analytics data, dahil sa lahat ang mga dahilan mo outline sa iyong post. Ang aking "science" pagsasanay alam ang lahat ng mga imperfections, mabilis pagiging paralyzed ng kalakhan ng mga imperfections.
Mula sa isang art kinatatayuan, ang isang halaga na halos walang katapusan ng impormasyon ay maaaring gamitin sa isang angkop na paraan. Aking pagmemerkado sa background kung diyan ay a zillion mga bagay-bagay na maaaring tapos na. Ang mga filter kung ano ang artist ay hindi maaaring gamitin mula sa kung ano ang maaari, at gumagawa ng mga desisyon.
Sa maraming mga paraan, ang mga komunidad sa web analytics ay sapilitang upang muling malaman kung ano ang iba pang mga indibidwal na nagkaroon ng analytics upang malaman ang higit sa mga nakaraang dekada. Retail analysts ay upang gumawa ng mga desisyon na may kulang na data. Catalog analysts ay upang gumawa ng mga desisyon na may kulang na data. Ngayon, ang isang bagong henerasyon ng mga analysts ay pinilit na gumawa ng mga desisyon ng data more flawed kaysa kailanman bago. Ang pinaka-revered analysts ng hinaharap ay sumulpot mula sa pag-aaral ng proseso.
September 11th, 2007 at 08:34
Karamihan ng aking mga trabaho sa petsa na ito ay may mga set ng data na itinuturing na tunay maaasahan at walang kinalaman sa ang web, ngunit kahit na set ng data ang mga ito ay takot makalat. Data analysis sa web ay pagpunta sa maging mahirap hanggang / maliban kung ito loses kanyang lagda, tulad ng iyong unang point nagpapahiwatig.
Mula doon, ang iba pang mga bagay ay maaaring tackled at hindi bababa sa bahagyang nalutas, ngunit ang kakulangan ng solid pagkita ng kaibhan sa pagitan ng mga bisita tila maibigan ang tunay na saklay.
Very kagiliw-giliw na post.
September 11th, 2007 at 11:31
Ako makita ang mga hamon na mas malayo sa paligid ng mga inaasahan. Tulad ng iba pang mga bahagi ng web analytics, ito ay tunay na kapaki-pakinabang sa addressing naisalokal mga isyu, kaya tanggapin ito para sa mga na at bilang Avinash Loves sabihin, "makakakuha ng higit sa ito" para sa iba.
Ang aking mga layunin para sa mahuhulain analytics ay ang dulo na may testable hypotheses. (halimbawa: mga taong bibisita sa pinansya din pumunta sa sports. Kaya dapat kami nagsusulong ng sports o ng ibang tao?)
Kapag kayo ay may mga sumusunod sa iyo at sa pamamagitan ng may-testing, ikaw ay nakasalalay upang mapabuti ang pagganap.
Kaya sa halip ng mga tumututok sa kung ano ang hindi ko makuha, makatarungan tanggapin na kahit ano na Nagpapabuti aking makita ay maaaring helpful.
Avinash - ka damdamin binary sa buwang ito? :-) Mahuhulain analytics sucks - o hindi? Pag-upa ng isang kolehiyo Newbie o nakaranas ng tao? Baka ikaw ay makatarungan trying sa ibunsod sagot. Well, hulaan ito nagtrabaho sa akin - hindi ko gusto ang pag-inom ng sapilitang pagpipilian.
September 11th, 2007 at 12:35
Mga pananaw na ito ay ang susi parirala dito! Gamit ang pinakamahusay na mga kasangkapan sa web analytics na nasa merkado na aming makakaya na higit naghahatid sa mga pananaw, at idinagdag sa multi-variate testing teknolohiya namin ay maaaring tumagal ito sa isa pang antas ng bago namin kahit na kailangan mag-isip mahuhulain. Karamihan sa mga organisasyon ay may pa sa master isang basic pananaw driven optimisation proseso at may hindi got ang mapagkukunan sa pakikitungo sa mga tuktok ng sampung mga isyu mabisa, kaya maraming mga more milya kaliwa sa web analytics. Kung walang Aksyon mga resulta mula sa pananaw at pagkatapos ay ang kung ano ang point? Mahuhulain analytics ay dumating lamang ng edad kapag kami ay may mastered pagkuha aksyon.
Na sinabi sa aming karanasan sa may ilang mga halaga sa appending basic web Analytic data sa talaan ng customer - ito ay tiyak na mapabuti ang direktang mail kampanya resulta!
Maraming salamat para sa stimulating ang grey cells!
Mateo
September 11th, 2007 at 16:22
Upang quote jfk namin na bumuo ng mahuhulain Analytic modelo upang mapagbuti ang aming mga website "hindi sapagkat ang mga ito ay madali, pero dahil sila ay mahirap, dahil ang layunin ay magsilbi upang maisaayos at masukat ang pinakamahusay na ng aming mga energies at kakayahan, dahil na hamon ay isa na tayo ay willing to accept, one we are unwilling to postpone, and one which we intend to win” :-)
If it were easy, everyone would do it. It is hard. Yet the data you have about your customers and their behavior (on web and off) is a critical asset your competitors do not have. Mining it for insights and turning those insights into predictions that can help you target and treat your customers is a must-do for corporate survival. We cannot do it perfectly and there are many problems (which you clearly articulate) but I think we must continue to try and continue to improve.
Check out Best Buy or MyCoke Rewards – they are using predictive analytics and web analytics in combination and getting results.
JT
--
The EDM blog
My ebizQ blog
Author of Smart (Enough) Systems
September 11th, 2007 at 23:27
Steve: Good point. Sumasang-ayon ako sa iyo ang kailangan mo upang mahulaan ang trapiko ay nagdaragdag etc ngunit ang mga Gusto hindi ilagay sa kategorya ng "mahuhulain analytics". Ako ay tiyak na tumutukoy sa ang uri ng analytics na mapailalim sa larangan ng: "kumuha ito terabyte at tadtarin sa ito hanggang maaari mong mahuhulaan kung bakit Steve bumili ng isang bagay mula sa amin, kung ano ang naiimpluwensyahan kanya, at kapag siya ay bumili ng susunod at kung anong uri ng promosyon ay gagana para sa kanya ". Paggawa na, ngunit sa scale.
Ito humahawak ng isang pulutong ng mga pangako para sa atin "data whores". Ngunit sa web na hindi ko isipin, para sa ngayon, na ito ay posible na naghahatid sa papel na sa pangako.
JS: My-iisip, bahagyang mapagtatalunan ko aminin, ay na sa ngayon kami ay hindi kahit na sa isang yugto na kung saan kailangan namin ng mag-alala tungkol sa data lampot (at ito ay marumi!). Ito ay higit na tayo ay may iba pang mga pundamental na problema na ay laban sa atin. Hanggang sa ilan sa mga umalis at hindi na namin ang ilang mga anyo ng mga "katatagan" kami ay hindi upang makakuha ng marami para sa aming mga pagsisikap.
Ako ay naniniwala na ito ay baguhin. Ako ay naniniwala na kami makarating sa isang punto kapag ito ay nagkakahalaga ng aming habang ang mga multi-milyong dolyar pamumuhunan sa software, hardware at mga tao.
Paul: Ikaw ay Comment Prince para sa araw na para sa iyong absolutely napakatalino quote. Kukunin ko ang paulit-ulit na ito dahil ang minamahal ko ito so much: ".. bigyan mo ako ng grasya upang tanggapin ang mga bagay na hindi ko masukat, ang tapang upang masukat ang mga bagay-bagay ko, at ang kaalaman na malaman ang pagkakaiba."
Kevin: Ito ay uri ng kaya sa inyo na i-share ang inyong feedback, lalo na dahil ikaw ay may ganitong mga amazing tagumpay ito para sa paggawa ng gayon maraming mga kumpanya. Ako mataas na pinapayo na ang iyong blog, Mine Iyon Data, upang ang sinuman na nagnanais na matuto mula sa iyong mga kuwento mula sa mga karanasan sa Nordstrom, Eddie Bauer at Lands' End.
Chuck: My pag-asa ay ang pagbibigay ng pagkain para sa mga bago-iisip ng isang tao ay nagpasiya sa kuwerdas down $ 1 milyon o higit pa sa software, hardware at kakayahan batay sa mga pangako ng mahuhulain Analytics. Ko mahahanap sa amin sa gitna ng maraming mga hindi-alam sa iyo na gumawa ng isang desisyon namin marahil ay. Ito ang isang kumplikadong desisyon na gawin, maraming mga variable, ang post na ito ay lamang ng isa sa mga variable ko hinihikayat kayo na idagdag sa paggawa ng desisyon na ang proseso.
Tungkol sa "binary" .... ang aking mga pag-asa, sa katunayan, ang isa sa mga "tatak halaga", ay ang pagbibigay ng konteksto at pabalat ng isang isyu sa isang makatarungan at balanseng paraan (hindi ang Fox News uri!) ngunit sa katapusan sa mga malinaw na tumagal ng isang posisyon at ibahagi ang aking punto ng view. Ako nirerespeto ang katalinuhan ng mga mambabasa na gumawa ng kanilang sariling mga puntos sa kabila ng aking sariling POV (at ang posisyon ay nagbibigay ng mga tao upang simulan ang isang bagay mula sa mga!).
Mateo: 100% sumang-ayon. Pinagsama-samang data sa web nakapaloob sa offline channels ay maaaring magbigay ng mahusay na pananaw, kahit mula sa simpleng pagtatasa, at doon ay marami na nagkamit tinali mula sa mga talaan ng iyong purchasers (ang 1% rate ng conversion) na may mga offline na talaan.
James: Love ang riff sa jfk quote. Ako ay isang pagtatanghal na ngayon sa Bay Area Computer Human Pakikipag-ugnayan ng grupo at ako ay may isang slide sa mga larawan ng jfk sa quote: "Itanong kung ano ang hindi sa analytics ay maaaring gawin para sa iyo, magtanong kung ano ang maaari mong gawin para sa analytics ...":)
Ko bang aminin na aking nabasa na pareho ang post na reference sa inyong email at ako ay hindi sigurado kung paano ang mga ito ay mga halimbawa ng mga "mahuhulain analytics" sa itaas ng mga web data (nakapaloob sa enterprise data o sa kabilang banda). Halimbawa habang ang mycoke halimbawa ay cool ito lamang ganito ang hitsura makunan ng mga personal na impormasyon ng mga customer at pagkatapos ay batay sa data na kanilang ibigay sa iyo ang kumpanya ay magpapadala sa kanila ay nag-aalok ng personalized. Great programa tinatanggap na tama o totoo ngunit hindi isang paggamit ng mga data sa pagmimina at mahuhulain analytics sa ang tunay na kahulugan ng salita. Kapareho para sa Best Buy at ang MyRewards programa.
Aking paskil ay sinusubukan upang masakop ang anumang website sa planeta at dinadala ang mga milyon-milyong ng mga pag-click at mga pagbisita data, karamihan di-kilala kung hindi lahat ng mga ito, at pagkatapos ay sinusubukan na gawin mahuhulain analytics sa itaas ng na. Mapagtanto ko na ang ilan sa mga tao sa mga site na iyon ay bumili at sa mga paraan na ibahagi ang kanilang data at na ng ilang mga halaga. Ngunit ang mga tradisyunal na mahuhulain analytics na ginagamit sa offline na mga salita ay hindi ang pinaka-optimal sa investment. Para sa ngayon. Mga bagay-bagay ay pagbabago sa mga angkop na kurso.
Ang bawat tao'y: Couple tema sumulpot mula sa barrage ng mga emails ko bang palitan ang araw na ito (ganap na kagulat-gulat para sa mga tulad na isang komplikadong paksa at ang isang salita 1900 post!):
1) isang tao ang nagsabi: "Kung gawin ito pagkatapos ay simulan ang maliit, tingnan mo kung ano ang sa inyo na hanapin, kung ito ay naaaksyunang pagkatapos ay bumuo sa mga ito ang ilang mga more at pagkatapos ay i-check muli para sa actionability. Kung hindi mo mahanap ang actionability pagkatapos ng scrap ito at gawin ang iba pang mga bagay. "
2) May isang tonelada ng halaga sa pagkuha pinagsama-samang data mula sa web para sa mga bisita na iyong gagawin at kung ito ay magsama-sama ng iba pang mga kumpanya ng data. Bisita na alam mo ay ang mga binili sa iyong website o naka-log in o nilikha ang kanilang mga customer na record sa iyo. Ito ay isang maliit na porsyento ng iyong mga bisita ngunit susi learnings ay maaaring nagkaroon.
3) Kung minsan ang "matalinong sapat" ay marami mabuti. (Pero mula sa James ng libro!).
Salamat sa inyong mga komentaryo, sa tingin ko privileged sa maaari able sa may tulad na isang pag-uusap ang isip sa iyo ang lahat sa mga tulad na isang komplikadong paksa.
-Avinash.
September 12th, 2007 at 09:01
Ang post na ito ay ginawa sa akin matawa pasigaw, tulad ko realised na doon ay dapat na ng maraming mga tao na hindi lamang sa akin, na humihingi sa inyo na katanungan tungkol sa paksa na ito (ako ay tunay na damdamin lubos na sakit kahit na ngayon).
Mayroong paghihiwalay sa dalawang bahagi sa pagitan ng pakiramdam tangkilin pagmemerkado hal itaas mobile phone provider pagpunta-disenyo para sa mga kasangkapan sa bahay sa disenyo ng handset para makuha ang resulta ng mga mamimili na gusto, at ang mas maraming mga pang-agham gilid ng pagmemerkado - web analytics / analyse, pagsubok, optimise. Datamining / mahuhulain analytics ay ang susunod na evolutionary yugto para sa maraming sa web analytics. Ngunit maraming hindi lubos / flawed data ng mga resulta sa ganap na hindi lubos paghuhula. Kahit na kapag / kung sa darating na panahon, ang lahat ng data ay malapit sa perpekto, datamining maraming mga hindi pang maging ang perpektong solusyon dahil sa ang kalikasan ng ang magkakalaban paglalaro patlang (google vs isang tao parang buriko - bilang mo kilala).
Din sa FT sila pagsusulat tungkol sa kung paano ang lahat ng mga pinansiyal na institusyon itaas' mahuhulain modelo para sa pagtatasa panganib na magkaroon ng lubos na naubos na ang lahat sa labas ng bintana dahil merkado kondisyon / pagkalugi sa kanilang mga pimpin pondo ay 25 standard deviations ang layo mula sa klase na kung saan ay isa sa isang milyong pagkakataon (hindi eksakto kung ano ang sinabi ngunit tulad ng isang bagay na). Higit pang mga aking point na merkado na kondisyon ay susi sa isang mahuhulain / statistical modelo at kung kami ay umaasa sa mga ito nang walang lubos na unawa kung paano sila ay maaaring maging mali, doon ay napaka-malubhang kahihinatnan at komplikasyon - hal kasalukuyang institusyong pinansyal na sitwasyon.
Salamat sa isang napaka-isip at napapanahong post!
Marianina, Web Analytics Princess
September 12th, 2007 at 13:34
Avinash,
Bilang isang "Analyst" para sa mas mabuting bahagi ng aking karera, ito ay isang napaka-giliw na artikulo na basahin. Isang bagay ang sinasabi ko para sa iyo - ka sigurado kung paano sa ibunsod saloobin at mga talakayan :-).
Sa pangkalahatan, ako ay sumasang-ayon sa inyo - para sa karamihang bahagi :-). Ako tiyak sang-ayon na ang isa ay hindi dapat pump $ $ $ o tumalon sa Pagmimina o mahuhulain Analytics nang sama-sama sa pagkuha ng kanilang mga gawa sa foundational ng aspeto ng Webanalytics. Maraming mga isyu na alaga bago isa napupunta paghahalukay sa kanilang Data Warehouse para sa 'pananaw'. Ang ilan sa mga bagay-bagay na key (at ikaw banggitin ang mga sa iyong blog):
a) ang mayroon kayo ng isang identifier na ang lugar at ang bisita ay maaaring gamitin bilang isang susi sa link pabalik sa iba pang mga impormasyon sa iyong data bodega.
b) ay ang mga pangunahing mga identifier ng sapat? Maaari mong ipasa ang isang identifier (sabihin ng ilang mga uri ng bisita id) sa pamamagitan ng inyong mga tags, ngunit pagkatapos ay ang data mula sa ibang mga channels ay maaaring gumagamit ng ibang identifier (say account number) - at ang relasyon sa pagitan ng mga ito ay maaaring 1 sa maraming o marami sa marami, na kung saan ay maghadlang sa eksaktong pagkilala na ito ay na bumisita sa iyong site at gumanap ng isang tiyak na transaksyon.
c) ay ang koleksyon ng data kumpleto? Talaga, ano ka na ang pagta-tag at sa kung ano ang level.
d) ang gagawin sa iyo ng access sa iyong data? Ito ay iba pa para sa mga taong gumagamit ng vendor na mag-host sa data. Mahuhulain analytics at pagmomolde ay makikinabang kung mayroon kang palagi at ang patuloy na pag-access sa iyong data.
Saan ko nang bahagya ay hindi sumasang-ayon sa mga larawan na mahuhulain analytics ay hindi pa diyan para sa web Arena. Sa tingin ko [at ito ay ang aking wagas makiling at sa sarili isipan :-)] mahuhulain analysis (PA) ay maaari pa ring maging kapaki-pakinabang - ang lahat ng ito ay nakasalalay sa kung ano ang antas ng at para sa kung ano ang isa ay para sa paggamit nito. Para sigurado, PA sa mga online na mundo ay hindi maaaring ihambing sa ang pagkasalimuot o malalalim na maaari naming gamitin ito sa aming mga offline na hindi pang-web data. Subalit, upang kunin ang iyong mga halimbawa kung saan ang "daloy ng mga tao ... sa pagitan ng mga channel at hawakan ng points at doon ay maaaring isang kinalabasan sa isang ganap na iba't-ibang channel na kaysa sa mga karamihan ng mga pakikipag-ugnayan ay ..", tingin ko ang PA ay maaari pa ring magamit upang makita kung ang pakikipag-ugnayan sa isang channel ay nagreresulta sa isang transaksyon sa ibang (Isang halimbawa ko maiisip ay isang tindero na hitsura sa online na pag-uugali upang mahulaan ang kanilang mga tindahan ng mga benta).
Ako din ay sumang-ayon na "Tony" at ang lahat ng mga pagbisita na iniuugnay sa Tony maaaring hindi tunay Tony. Ngunit ito ay magiging isang magandang unang hakbang sa may ilang mga hula o mga pattern para sa mga umuusbong na ang 'pambahay' o 'na kapaligiran na kung saan ay Tony. Ito ay nagdadala sa akin na ang aking iba pang mga point - tingin ko na higit pa sa sa offline na mundo, sa mundo ng online ito ay tunay tunay kritikal para sa Analyst na gumawa ng ilang mga susi pagpapalagay sa paligid na kung saan ang kanyang analysis ay paikutin at kung ano na ito ay dapat na (at ay hindi dapat) na ginagamit para sa.
At sa wakas, ako ay sumasang-ayon sa muli ang pagkasalimuot isolating sa iba't-ibang mga pag-uugali ang paggamit ng mga pag-click. Ngunit muli, kami ay maaaring malaman ng isang bagay sa pamamagitan ng pagpunta sa reverse direksyon - sa halip ng trying sa mahuhulaan kung ano ang isang tao ay sinusubukang gawin, bakit hindi 'mine' ang parehong pag-uugali sa iba't-ibang mga bisita at makita kung diyan ay isang bagay na maaari mong mapabuti sa iyong website upang madagdagan ang mga conversion sa na pag-uugali.
Muli, ang mga ito ay ang aking mga saloobin maluwag ... pangkalahatan, ako isipin ito ay isang mahusay na pamukaw-iisip at mag-post ng isang magandang basahin para sa kahit sino sa WA komunidad.
At Paul, ako masyadong minamahal ang iyong quote sa ".... Ang kaalaman na malaman ang pagkakaiba .." :-))
September 14th, 2007 at 12:09
One of things I constantly struggle with as a usability specialist is trying to predict what people want when it's currently not being presented to them as an option. Analytics can really only tell you how people react to what you're already doing. You can test options, track trends, and project those trends into the future, but the one thing the data never tells you is how people would react to something you haven't done.
September 14th, 2007 at 14:14
Dr. Pete : Your comment does go the heart of the issue.
One of the fallacies of predictive analytics (and to some extent all analytics) is that if only we had enough data about our customers (or the world) then we could “predict” anything or create profitable scenarios. Unfortunately that fails exactly at the point you mention.
My best bet at solving for that is to do “site visits” / “follow me homes” of current and potential customers. Effectively “watching them in their native environment without disturbing them too much”.
That observational power, done right, yields lots of insights and problems that the customers have. They will rarely give you solutions, just problems. That's ok because it is our job to think of innovative solutions and the customer's job to give us problems. That's how money is made. :)
As a complement to analytics various qualitative methodologies like lab usability , testing and experimentation , follow me homes etc are a great way to get a great understanding of your customers.
I cover this a lot more in my book but I should write about this in the blog as well.
Thanks so much para sa mga puna.
-Avinash.
September 17th, 2007 at 07:21
Avinash, great post!!! In my opinion the problem is not in data mining and predictive analysis but in:
1- The information is stored in isolated databases and with heterogeneous formats making very difficult to join them.
2- The phrase “You can track all the online information” (that everybody use every time) is true, but it doesn´t mean that is a simple job, actually it is extremely difficult. Web analytics growth with this belief, driving web analytics to an undeveloped situation.
3- Infer over another inference.
If you develop an scenario with not even a minimum of certainty are you gonna be confident about the result? Well, at least I don´t.
I think our main goal must be focusing on moving from isolated and heterogeneous information to centralized and homogeneous one.
So answering to your “Nyet” I would say “???????” (depends) ;-)
September 18th, 2007 at 03:31
The best use I have ever seen of predictve analytics in the web sphere was determining the points at which a buy/no buy decision was potentially being made by the site viewer. Once this had been modelled, and real time data flowed through the model, an applet attached to a live Customer Services Rep would pop up and try to “drag the customer over the line…”
None of this would have been possible without the model output from the predictive analytics
September 28th, 2007 at 02:23
[...] The right answer, as always, is that the amount depends entirely on the return you're generating from your site. Avinash Kaushik refers to connecting your website and your business as “the nonline world.” I like using the “phone bill” model: If your website isn't as valuable to your business as your phone, you're probably not getting the right return yet. But don't assume your phone is more valuable just because your customers call you. They may have gotten the phone number from your website. Or from Google, after it crawled your site. Your website and your phone complement one another, or should in a well-designed small business website. [...]
December 16th, 2007 at 11:32
[...] Avinash Kaushik has a great blog post about trying to do predictive analytics with web data: “Data Mining And Predictive Analytics on Web Data Works? Nyet!” Avinash is one of the truly brilliant minds in web analytics, so it's great to see him put his brainpower behind explaining this assertion. And, it's timely, in light of the new book by Ian Ayres, a Yale Law School professor and econometrician. I really need to order the book and read it, as I've got preconceived notions based on watching an interview with Ayres. [...]
February 27th, 2008 at 02:17
I read your debate with interest. As a lay marketing person helping developing countries to target international companies that have a high probability of expanding their operations beyond their home country (foreign direct investment)I have a tough challenge. Can I use data mining techniques and predictive analytics – using published 'hard' financial data and 'soft' web information – to assess the probability of a company being ready to consider cross-border growth? If so are there any off-the shelf software packages I can use? Any views/advice would be very helpful indeed.
March 13th, 2008 at 16:58
After reading this great article, I was wondering if a GREAT web analyst is one that clearly understand data mining.
March 13th, 2008 at 21:35
Winn : I am not sure that a Great web analyst needs to absolutely understand data mining. Certainly it is a helpful skill.
I would offer this as a “check list”. . . .
Top Ten: Palatandaan Ikaw ba A Great Analyst
There are some interesting thoughts in comments on that blog as well.
Hope na ito ay tumutulong sa isang maliit na bit.
-Avinash.
March 14th, 2008 at 05:05
i want to know how to use statistics tools like datamining, statistical significance, correlation etc.. to the seo.
I need numerical examples so that only i can understant how to use the google analytics data and how to evaluate the problems.
if there any tool to compute these data.
Please………..
May 29th, 2008 at 09:25
Points well taken, still there are instances were web mining works well in real life.
Anonymity is an issue; here are some common examples on how web analysts work around the anonymity problem:
a) On a commercial site, web mining can help optimize campaign design/messaging/placement to increase click through rates. Multivariate testing can help optimize many alternative campaign options for completely anonymous users.
b) Tracking anonymous but unique visitors over time can help identify optimal behavior patterns. Allowing personalized online messages for targeting anonymous (but uniquely identified) visitors.
c) Authenticated online purchasers or subscribers are not anonymous. Such groups offer great cross/up sell opportunities via web data mining.
Web mining makes the need for Holistic data even more critical
For CRM, holistic data in needed. Detailed web data is an important component for understanding customer behavior across all touch points. This is easier said than done, but data integration is a tough problem even among offline sources.
June 16th, 2008 at 07:10
I can't contradict even a single detail on this wonderful and very informative post. Avinash is an expert on this kind of industry and he continues to post useful article for its reader. Now, I completely understand the so called Data Mining.
May 4th, 2009 at 11:37
By your post, you are thinking with a classical approach to use DM techniques… but there are too many new possibilities of use DM and predictive modeling from web data… ;-)
A bit more, I´m sure that we are starting a new stage in DM power applications by the amount of web data information.
But the key is not DM or Predictive Analitycs or AI , the question is …for what? : For understand the past, for reduce dimensionality, for predict some KPI's or behavior of the future? ...
How about to use consumer rating product´s with buy propensity or sales projections?
How about real time intelligence engines for sales?
How about to use – in a classical way – for inferencing?
I don´t try to view the world under topics as 'web analyst' or 'data miner' or 'crm analyst'…
I prefer understand the techniques, the business needs and limitations and choose the best way to do.
Magandang post. Salamat
May 12th, 2009 at 15:54
As a statistician, I am inclined to see value in Controlled Studies. By this, I mean the kinds of studies done to see if new drugs are safe and effective, if a particular course curriculum can improve test scores (whatever that means, what ever that indicates) etc etc.
Controlled studies are good because they use a well established and very carefully reviewed process for accounting for all the myriad reasons resulting in a desired response other than the one in which you are interested. The irrelevant factors are removed and only the real results of your program get measured.
Suppose you want to know, using Avinash's example above, if $15 off to the people from Florida does any good. There are a million different reasons why people buy something – you only want to know if your 15 bucks to these people made any difference. (Of course, they really aren't people and we should all be honest about that: they are unique IP addresses, which is another thing all together!) Statistically controlled studies get the real answers and it really works.
Problem is, as far as I can tell, nobody is doing studies comparing a Treated Group with a Control Group. I've never even seen the requisite infrastructure attempted. At least around here (www.marketingassociates.com), that's about to change.
David Corliss
May 22nd, 2009 at 09:11
Your points are well taken; I would like to see an updated post considering the original was from 2007…!
Particularly interesting is your #6 – “Massive Pace of Change on the Web” In my experience, this is where predictive algorithms combined with behavioral targeting succeed on the web. Specifically – assume you want to improve the relevancy of homepage promotions and make sure each promotion resonates with each particular user. KPI = CTR. You develop the creative offers to be included and deploy predictive behavioral targeting javascript to your homepage. As data accumulates, and as more data accumulates, the algorithms develop evolutionary models that begin to associate content with each visitor. As visitor characteristics change, so to does the content that is delivered.
Granted, massive pace and change and the ability to predict outcomes for Amazon.com and nytimes.com are radically different, but there are automated methods available that are effective in improving relevancy and CTR.
Matt
Website Optimization Manager
Amadesa.com – Website Testing, Personalization and Behavioral Targeting