fresh Strong Russian salita: Nyet [Walang]. Sa dulo ng pag-asa ko ang post na ito kayo ay sumasang-ayon. Pinakamasama kaso magkakaroon kayo ng pagkain para sa mga isipan.

Ito sa mga in-depth-post ng mga pabalat ng isang komplikadong paksa na maaaring hindi mag-apply sa lahat ng tao, ngunit ito ay sumasakop sa isang lugar na kung saan ang mga kumpanya ay may struggled upang subukan upang ipakita bumalik sa mga pamumuhunan na ginawa sa mga kasanayan, teknolohiya at oras. Ang mga post ng mga pangako liwanag at patnubay na sana ay magreresulta sa iyo sa pag-save ng tons ng paglala at yes kahit isang magandang tipak ng mga pagbabago.

Data Pagmimina at mahuhulain Analytics ay may isang ipinangako sa lupa, ang buwan at ang Sun Fo minsan ngayon, sa lahat ng mga channel namin gawin negosyo in Aking mga personal na palagay ay sa web na sila ay bumabagsak sa malayong maikling ng kahit na ang pinaka-pesimista pangako. Para sa ngayon.

Bilang isang taong ay lumago hanggang sa mundo ng tradisyunal na desisyon support systems (massively malaking data warehouses, negosyo ng katalinuhan sistema at mga kasangkapan, mga ERP & CRM systems) ako ay may nagkaroon ng pagkakataon na maging sa parehong sa marketing / business side pati na rin ang pagbuo at pagpapatupad gilid ng mga bagay-bagay.

Diyan ay wala palamigan kaysa imagining ang lahat ng mga magagandang bagay-bagay na darating kung ikaw lang lumipat sa kabila ng pag-uulat, at kahit na pagtatasa, sa mga gumagawa ng tunay na data pagmimina at mahuhulain analytics. Ito ay mahirap ngunit maaaring rewarding.

Napakaraming konsulta (yes ko mapagtanto ang kabalintunaan dito) ay nagbebenta ng mo ito tunay mabisa.

no outlet Sa purong web data sadly bagaman ito ay hindi gumagana.

Magkano ang bilang na maaaring pagnanais na ito, maraming bilang na maaaring ito mangyari. Ang iyong tradisyonal data pagmimina pagsisikap at mga mapagkukunan at $ $ $ na ginugol sa paggawa mahuhulain analytics ay napaka-ani ilang at bihirang naaaksyunang pananaw. Karamihan sa mga oras na ito ay patunayan na maging isang sub optimal sa paggamit ng oras at enerhiya.

[Ko makita ang mga matalinong analysts sa gitna ka bumaba ang iyong upuan at pag-ungol kahalayan sa ilalim ng iyong hininga.]

May ilang mga tunay malakas, at di-halata, elemento nagtatrabaho laban sa iyo kapag ito ay dumating sa paghahanap ng mga exploitable mga uso at mga pattern sa iyong web data, ang uri na ikaw ay ginagamit upang sa offline at ERP / CRM uri ng kapaligiran. Bago ka magpasyang ibuhos $ $ $ at mga sistema at mga tao sa inyong web analytics mahuhulain pagsisikap mangyaring isaalang-alang ang magpahinga ng ang post na ito.

Ako kamakailan lamang nagkaroon ng magandang pagkakataon upang ipakilala sa baya lugar ACM Data Pagmimina Special Interests Group. Narito ang huling slide ng aking pagtatanghal:

Data mining and predictive analytics challenge

Ang slide, sa aking ngalan, captures ng kakanyahan ng hamon pagdating sa paggawa ng mahuhulain Analytics sa web data. Hayaan mo akong ipaliwanag.

# 1 Uri ng Data:

Ito ay mahalaga upang mapagtanto na ang mga web ang data para sa karamihan ng bahagi ay lubos na di-kilala, kadalasan ay hindi kumpleto at tunay tunay unstructured. Kapag nais mong gawin ang mga tradisyunal na data pagmimina (at hindi lamang analysis) at mahuhulain analytics ang lahat ng mga bagay-bagay ay lason.

Ikaw ay naghahanap ng mas malaki komplikadong mga uso at mga pattern sa ang data para sa mga tao, mga produkto, kinalabasan, pag-uugali ng higit sa sapat na panahon ng malaking oras sa gayon maaari mong mahanap ang isang bagay insightful na maaari ding exploitable.

Iyan ay talagang mahirap na gawin kapag ang mga pangunahing mga bagay na ikaw ay relying sa pagkuha ng data ay hindi nagpapakilala cookies at javascript tag na maaaring tunay, ay dapat namin sabihin, sensitive. At na lang ang mga dulo ng malaking bato ng yelo.

Ang lahat na ito ay maraming marami mahirap sa pag-uugali ng mga tao itali sa kinalabasan sila maaaring nagmamaneho (sa anumang uri ng mga website, na ecommerce o hindi). Oo kung makunan sa pag-login id's at may konektado na sa isang aktwal na mga tao ng mga detalye mula sa iyong mga offline na sistema at gawin ito para sa lahat ng nag-iisang tao na pagbisita ang problemang ito eases ng kaunti (ang lagda bahagi) ngunit karamihan ng mga ito ay patahimikin diyan.

variables

# 2 Bilang ng variable:

Kumilos na ang mga tao sa crazy paraan offline, sila ay may maramihang mga hawakan ng points at Dont gamitin perpektong mga pangalan at address at iba pa ang lahat ng ito ay marami pa mabaliw sa online mundo.

Kami ay may usapan sa blog na ito kung paano ito ay hindi isang online na mundo o isang offline na mundo kundi ito ay isang nonline mundo! Nangangahulugan ito na ang daloy ng mga tao sa pagitan ng mga channel at hawakan ng points at doon ay maaaring isang kinalabasan (lead, pagbili, problema resolution) sa isang ganap na iba't-ibang channel na kaysa sa mga karamihan ng mga pakikipag-ugnayan ay. Maaari kang mag-akala kung paano ito ay lubos na magtaas ng iyong SAS o SPES o Clementine o iba pang mga bahay adulto solusyon.

Ito ay isa pang bagay na marami sa amin maliitin. Ito ay mas madaling Mine at pagkatapos ay mahuhulaan kapag may isang tiyak na halaga ng mga hindi-siloed-iral. Sa web sa Google ay sumali sa isang tao at ang kanyang parang buriko patong-sama ng isang bagong search engine. Hindi lamang ang naroon pretty marami walang mga balakid sa entry ngunit ito ay madali para sa iyong mga customer sa maglandi sa iyong mga kakumpitensiya at para sa iyong mga kakumpitensiya na gumanti sa iyo sa massively ng isang mahusay na paraan.

Kaya ang tatlong pagbisita sa pagbili ng pangkaraniwang? (Ano ang tungkol sa dalawang mga pagbisita sa isang tindahan sa pagitan?) Ay $ 15 off sa mga tao na mula sa Florida ang pinakamahusay na diskarte? (Ano ang mangyayari sa mga na kapag ang iyong mga kakumpitensiya patakbuhin agresibo PPC?) Ay "Tony" at ang lahat ng mga pagbisita na iniuugnay sa Tony tunay Tony? (Ano ang tungkol sa mga cookies at ang aking asawa at ako at Damini lahat ng surfing sa Amazon ang parehong login?)

At dito ay kung ano ang mangyayari, sa pamamagitan ng mga panahon na kayo control para sa mga variable ay maari count at account para sa (habang itsa lahat na maaari mong hindi) literal ikaw ay nag-iwan ng isang baso ng tubig (at ikaw na nagsimula sa isang karagatan na puno ng tubig ) at ang iyong abilidad na mahuhulaan ng kahit na ano para sa massively scalable naaaksyunang pananaw ay lubhang limitado. Ito ay lamang ng isang baso ng tubig pagkatapos ng lahat. :)

multiple purposes

# 3 Maraming Pangunahing Layunin:

Sa web ang isyu na ito complicates mga bagay-bagay. Kami ay nagsisikap upang mahulaan ang kinalabasan ng aming website, ang isang mahirap unawain na na mayroon na gawin ng maraming (kahit ang mga bagay-bagay na ang inyong website ay hindi nilikha para sa mga).

Kaya kung ito ay hindi katulad mo ibang mga channels kung saan ang isang pagbisita at ang kinalabasan ay medyo madali na makikilalang at ang pinakamataas na antas at pagkatapos ay kung paano mo Mine at mahuhulaan?

Ako ay may madalas stressed ang kahalagahan ng pagsukat Pangunahing Hangarin dahil sa ang kapangyarihan na nanggagaling mula sa real-unawa sa kung bakit ang mga tao na bumisita sa website. Dalawang bagay na konektado sa Pangunahing Hangarin guluhin ang iyong Pagmimina at hula pagsisikap:

1) Hindi mo alam ang lahat ng mga pangunahing layunin (i-click dito para malaman kung paano maaari mong malaman).
2) Ito ay mapaniniwalaan o kapani-paniwala na mahirap na kumuha ng iyong matipuno koleksyon ng mga pag-click at mga pagbisita at pagkatapos ay magtalaga ng mga ito sa mga pangunahing layunin ng bawat balde at pagkatapos ay mahuhulaan sa itaas ng na.

3) Tingnan sa ibaba.

# 4 Maraming Bisitahin Ugali ng:

multi tasking Ang tunay na screws up ng mga bagay-bagay. Maaari mong mahuhulaan frame ng isipan (pangunahing layunin) kapag ikaw ay magpadala ng mga tao na piraso ng mail. Maaari mong mahuhulaan kung ano ang mga tao na gusto / tingin kapag sila gusto sa iyong supermarket / store. Maaari kang gumawa ng mas maraming halimbawa ng mga bagay na namin ang lahat-aralan at Mine at mahuhulaan.

Ito ay isang sakit na pumunta sa isang tindahan at pagkatapos ay pumunta may anim na ilang beses. Sa web na ito ay mahalaga. Para bagang ang anumang website na-convert sa isang pagbisita.

Ito rin ay isang sakit para pumunta sa tindahan para sa tuwing kayo ay may problema o ang bawat tanong na ikaw ay may. Sa web na ito ay mahalaga. Maaari kang magkaroon ng parehong tao na dumating sa iyong website bilang ibang katauhan maraming beses na malutas ang isang iba't ibang mga isyu.

Ang tanong kapag handa na-aralan ang iyong mga multi terabyte database ay: Paano mo ihiwalay ang pag-uugaling ito sa iyong mga pag-click? Sa pamamagitan ng kung magkano ang confidence?

Sa papel na ito tunog madali ngunit sa pagsasanay na ito ay mapaniniwalaan o kapani-paniwala mahirap na ang para sa maramihang mga pagbisita na pag-uugali, kahit na kayo ay may nixed ang problema ng pagkolekta ng data nang tamang-tama para sa bawat tao at para sa bawat isa sa kanilang pagbisita.

missing keys

# 5 Nawawalang Pangunahing Keys, Data Silos, Kakulangan ng Holistic Datasets:

Isang paraan upang makakuha ng mas mahusay na sa hula ay ang magdadala sa iyo ng data sa labas ng web analytics silos at pagsamahin ito sa ibang set ng mga customer na data sa iyong kumpanya (mga tindahan at supermarket, telepono channels, iba pa). Kung Alam ang lahat ng mga costumer touch points at nagkaroon ipinagsama ang data na ito at pagkatapos ay makakakuha ng maraming marami mas madaling maintindihan ang kasalukuyang pag-uugali at mahulaan ang hinaharap na pag-uugali at ang kinalabasan.

Ito nirvana sitwasyon ay durog sa pamamagitan ng isang pares ng mga halip bulok tomatoes.

Kami ay pamilyar sa lahat ng mga kampanya at untagged pahina. Din kami ng malaman na ang url parameter ay hindi palaging magtrabaho sa pagtulong sa amin na mangolekta ng data. Ang isyu na nagiging sanhi ng mas maraming problema ay ang katotohanang karamihan sa mga kumpanya na hindi lubos na ilagay ang iintindi sa kinabukasan kinakailangan upang lumikha ng karapatan "primary key" na pahintulutan ang data mula sa iba't ibang mga channels na baluktot up ng sama-sama.

May mga problema kahit na may pangalan at address at numero ng telepono na tinipon at naka-imbak na naiiba, magdulot pareho ng data pagkakasundo bangungot ngunit tiyak para sa post na ito magdulot ng malaking hamon sa pag-aaral kinalabasan.

Para sa mga data na pagmimina at mahuhulain analytics upang bigyang-daan positibong ROI ng iyong kumpanya ay maglagay ng isang pulutong ng mga aligata sa proseso ng koleksyon ng data at pag-imbak sa buong channels at sa malalim damdamin ng iyong mga web / ERP / CRM system. Kung ang aksyon ng item na ito ay hindi na minarkahan nakumpleto at pagkatapos na ito ay mag-focus sa optimal na muna bago pagputol ng chq para sa tools / mga tao na gawin ang Pagmimina at paghuhula.

rapid change

# 6 matipuno makipagsabayan ng Palitan sa Web:

Matiyak na ang Google, Yahoo, cnn, Craigslist, Amazon, eBay, New York Times ay palaging-alis sa maaari diyan. Kahit na ito ay maaaring mukhang tulad ng mga bagay na hindi nagbabago.

Sa kasamaang-palad para sa inyo at ako ang laro na ito ay hindi ganap ang parehong. Ang web na ito ay patuloy na magbabago. Ang paraan ng mga tao na karanasan ito, ang paraan ng mga tao sa paligsahan, ang paraan ng mga tao na basahin at pinapayo at bumili, ang paraan ng lahat ng bagay ang mangyayari.

Paggawa ng pagmimina at mahuhulain analytics sa nakalipas na pag-uugali ay nangangailangan ng isang tiyak na halaga ng "katatagan" tungkol sa iyong mga hinaharap na (mga customer, negosyo, kinalabasan etc etc). Ngunit kung ang "kapaligiran" masyadong maraming mga pagbabago, o kahit ng sapat, at pagkatapos ay ang inyong mga paghuhula sa mga nakalipas na pag-uugali ay magkakaroon ng maliit na maliit lamang ang mga pagkakataon ng tagumpay.

Para sa ngayon ito ay marahil ang isa sa mga pinakamalaking hamon sa Analysts at Statisticians na nagsisikap upang makakuha ng ilan sa mga tradisyunal na pagmimina at mahuhulain algorithm na magtrabaho sa aming web data.

fortune cookie

Ang mga artikulo sa Wikipedia sa mahuhulain Analytics magwawakas sa ang pahayag na ito:

"Mahuhulain analytics nagdadagdag malaki halaga sa isang negosyo sa pamamagitan ng paggawa ng desisyon kakayahan na nagpapahintulot ito upang bumalangkas matalino na patakaran sa mga batayan ng mga paghuhula ng hinaharap kinalabasan. Ang isang malawak na hanay ng mga kasangkapan at pamamaraan ay magagamit para sa ganitong uri ng pagtatasa at ang kanilang mga napili ay natutukoy sa pamamagitan ng analytical kapanahunan ng mga kompanya pati na rin ang mga tiyak na mga pangangailangan ng mga problema na lutasin. "

Kukunin ko ang umalis na-iisip sa iyo at stress na isaalang-alang:

1] kapanahunan ng inyong kompanya

2] na kinakailangan ng mga problema mo ay tuos

3] ang anim na mga bagay na nabanggit sa post na ito at ng panahon

4] mo na matatawaran ang lahat ng mga "mababang pader prutas"?

Ok ngayon nito ang iyong mga turn.

Ano ang gagawin mo ang lahat ng tingin? Mayroon ka sumang-ayon na ito ay mahirap? Marahil mo na sakop ito matigas problema? Marahil ay may lamat sa aking mga teorya?

Mangyari lamang na ibahagi ang iyong mga tips, tricks, digmaan kuwento, kritika, brickbats sa pamamagitan ng mga komento.

[Tulad sa post na ito? Para sa mas maraming mga post na ito mangyari lamang na i-click dito, kung ito ay maaaring maging ng mga interes mangyaring tingnan ang aking mga libro: Web Analytics: Isang Oras Isang Araw.]

Social Bookmark:

  • co.mments
  • del.icio.us
  • Reddit
  • Google Bookmarks
  • StumbleUpon
  • Sphinn
  • Digg
  • Facebook
  • FriendFeed
  • LinkedIn
  • Turn this article into a PDF!