數(shù)據(jù)是市場(chǎng)研究業(yè)務(wù)處理的主要目標(biāo),所以以數(shù)據(jù)處理流程來(lái)定義市場(chǎng)研究業(yè)務(wù)處理流程的關(guān)鍵環(huán)節(jié),會(huì)更準(zhǔn)確和直觀。在后文說(shuō)明中,傳統(tǒng)模式代表傳統(tǒng)業(yè)務(wù)形態(tài)(問(wèn)卷調(diào)研等非大數(shù)據(jù)源+傳統(tǒng)分析方法論)的數(shù)據(jù)處理流程,大數(shù)據(jù)模式代表大數(shù)據(jù)源+全部方法論(傳統(tǒng)方法論+大數(shù)據(jù)方法論)的處理流程。
1 基本業(yè)務(wù)環(huán)節(jié)的變化
首先我們來(lái)看一下數(shù)據(jù)業(yè)務(wù)流程在兩種模式下的變化。
從上圖可以發(fā)現(xiàn),大數(shù)據(jù)下的業(yè)務(wù)流程,相比傳統(tǒng)模式,總體上有兩點(diǎn)重要的變化:
(1)數(shù)據(jù)融合代替數(shù)據(jù)收集,將成為數(shù)據(jù)來(lái)源的主要模式。傳統(tǒng)模式下,數(shù)據(jù)來(lái)源更多是研究公司自身采集(如問(wèn)卷)或者客戶采集后提供,所以采集是核心。在大數(shù)據(jù)模式下,研究公司自身能力和資源有限,將會(huì)更多通過(guò)非采集方式(如各種外部渠道數(shù)據(jù)引入/交換,并進(jìn)行整合)獲得分析的數(shù)據(jù),此時(shí)融合是核心問(wèn)題。
(2)數(shù)據(jù)管理能力成為一個(gè)新的要求。傳統(tǒng)模式因?yàn)闃I(yè)務(wù)數(shù)據(jù)量小,基本不存在對(duì)數(shù)據(jù)管理的較多要求,所以可以忽略。但大數(shù)據(jù)場(chǎng)景下,數(shù)據(jù)規(guī)模大而且多樣,且常常比較分散,其統(tǒng)一的管理(如存儲(chǔ)和檢索等)能力,是后續(xù)業(yè)務(wù)環(huán)節(jié)順利進(jìn)行的基礎(chǔ),有必要得到更多的重視。
為了更深入的理解業(yè)務(wù)環(huán)節(jié)的變化,下面將對(duì)每個(gè)環(huán)節(jié),進(jìn)行更深入的討論。
2 各業(yè)務(wù)環(huán)節(jié)的變化
為了便于說(shuō)明,將兩種模式下的流程進(jìn)行統(tǒng)一,整個(gè)業(yè)務(wù)流規(guī)范為了五個(gè)環(huán)節(jié)。下圖簡(jiǎn)要說(shuō)明了各環(huán)節(jié)下兩種模式各自在實(shí)施上的特點(diǎn)。
(1)數(shù)據(jù)融合/采集
傳統(tǒng)模式下,數(shù)據(jù)采集的方式主要是問(wèn)卷、座談會(huì)等。這是一種小規(guī)模的采樣,且對(duì)目標(biāo)有直接影響(有交互)。數(shù)據(jù)本質(zhì)是某個(gè)時(shí)間點(diǎn)的靜態(tài)、快照式的截面數(shù)據(jù),維度受采集方式所限也不可能太多。
而大數(shù)據(jù)下,數(shù)據(jù)融合代替采集成為市場(chǎng)研究獲取數(shù)據(jù)的主要方式,此時(shí)數(shù)據(jù)同步和ETL成為主要方式。在最初的源數(shù)據(jù)采集中,行為日志記錄、網(wǎng)絡(luò)Spider抓取、移動(dòng)互聯(lián)網(wǎng)App基于Sdk采集等成為主要手段。這類(lèi)方式仍然可認(rèn)為是采樣(不過(guò)更大的規(guī)模),但作為一種監(jiān)聽(tīng)/探針式的模式,用戶不會(huì)感知和受影響(所以數(shù)據(jù)會(huì)更加符合實(shí)際情況)。采集的數(shù)據(jù)在時(shí)間和空間上多是動(dòng)態(tài)和持續(xù)性的,可記錄的維度也會(huì)大很多。
(2)數(shù)據(jù)管理
傳統(tǒng)模式下,數(shù)據(jù)通常為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),且規(guī)模。ㄍǔHf(wàn)級(jí)以下),此時(shí)pc單機(jī)的普通文檔(如Csv,Excel之類(lèi))足以勝任所有存儲(chǔ)和檢索要求。特定應(yīng)用,百萬(wàn)級(jí)的數(shù)據(jù)量用小型數(shù)據(jù)庫(kù)也都足夠。所以此時(shí)數(shù)據(jù)管理一直被忽略。
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量起點(diǎn)在億級(jí)以上,比傳統(tǒng)模式增加了成千上萬(wàn)倍,格式也更加多樣,數(shù)據(jù)的管理難度幾何級(jí)數(shù)增加,原有方式已經(jīng)無(wú)能為力。此時(shí),新的技術(shù)體系(多機(jī)、分布式文件系統(tǒng)/海量數(shù)據(jù)庫(kù))和專(zhuān)業(yè)架構(gòu)人員,確保了大數(shù)據(jù)的安全管理和快速檢索。相比之前,研究企業(yè)需要在該方面做出相當(dāng)大的投入。
(3)數(shù)據(jù)計(jì)算
傳統(tǒng)模式下,計(jì)算主要是各種統(tǒng)計(jì)學(xué)的計(jì)算(比如總計(jì)/方差/均值…)為主,計(jì)算量不大,工具以Excel到SPSS、SAS為主流,處理多由DP完成。此時(shí)DP人員更多是研究業(yè)務(wù)的輔助支持。
在大數(shù)據(jù)模式下,數(shù)據(jù)規(guī)模、維度和分析方法的變化對(duì)計(jì)算的要求大大加強(qiáng)。傳統(tǒng)的統(tǒng)計(jì)性計(jì)算仍然需要,但更大的變化是:計(jì)算工作更多樣化、更高復(fù)雜度和更具專(zhuān)業(yè)性,且與分析更深入的結(jié)合。許多新的計(jì)算理論成為主角,比如對(duì)網(wǎng)絡(luò)非結(jié)構(gòu)化文本數(shù)據(jù)使用自然語(yǔ)言處理,大數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)處理(大部分是高維度向量計(jì)算),而社交網(wǎng)絡(luò)計(jì)算更多是圖計(jì)算。這些新的計(jì)算理論和方法,極大擴(kuò)展了大數(shù)據(jù)分析洞察的能力,但也對(duì)相關(guān)人員的專(zhuān)業(yè)能力提出了很高的要求。
(4)分析
分析是研究過(guò)程中最重要的環(huán)節(jié)。傳統(tǒng)模式下,研究人員主要根據(jù)傳統(tǒng)方法論,對(duì)DP人員生成的指標(biāo)性數(shù)據(jù),考察全局性的分布/差異,歷史的變化等。
大數(shù)據(jù)模式下,除了傳統(tǒng)方法論的分析外,更多使用大數(shù)據(jù)方法論的思路(更關(guān)注個(gè)體,比如如何給用戶打標(biāo)簽、個(gè)體/群體的匹配度是多少,對(duì)未來(lái)發(fā)展的預(yù)測(cè)期望)。同時(shí),由于分析主要基于各種專(zhuān)業(yè)計(jì)算的結(jié)果,而研究人員并不具備相關(guān)技能,因此必須與專(zhuān)業(yè)IT技術(shù)專(zhuān)家緊密配合,才可能完成有價(jià)值的分析。此時(shí),相關(guān)IT專(zhuān)家成為本階段最重要的參與者。
(5)結(jié)論與呈現(xiàn)
傳統(tǒng)模式下,研究結(jié)論關(guān)注的是統(tǒng)計(jì)性指標(biāo)的變化,對(duì)相關(guān)原因分析和建議是重要的內(nèi)容。結(jié)果更多是通過(guò)專(zhuān)項(xiàng)報(bào)告(以文檔而不是系統(tǒng)平臺(tái))形式,在呈現(xiàn)方式上多采用表格和基本圖表。
大數(shù)據(jù)模式下,既有傳統(tǒng)的統(tǒng)計(jì)性結(jié)論,也有更多大數(shù)據(jù)方法論,比如基于個(gè)體特性之上的群體特性標(biāo)簽化描述。結(jié)果更多地通過(guò)在線化系統(tǒng)來(lái)展示,新的可視化技術(shù),在大數(shù)據(jù)的分析和結(jié)果展示上,越來(lái)越受到重視。
通過(guò)上面各環(huán)節(jié)的比較可以發(fā)現(xiàn):在新的大數(shù)據(jù)業(yè)務(wù)生態(tài)下,市場(chǎng)研究的業(yè)務(wù)流程
(1) 各環(huán)節(jié)的方式和支撐方法,都有較大的擴(kuò)展/變化
(2) IT技術(shù)能力(數(shù)據(jù)管理與專(zhuān)業(yè)數(shù)據(jù)計(jì)算分析能力),成為大數(shù)據(jù)業(yè)務(wù)實(shí)現(xiàn)過(guò)程中最重要的推動(dòng)因素。
HCR(慧辰資訊)近半年來(lái),已經(jīng)在相關(guān)環(huán)節(jié)進(jìn)行了積極有效的調(diào)整和提升。市場(chǎng)研究公司業(yè)務(wù)產(chǎn)品各有所長(zhǎng),業(yè)務(wù)模式也不盡相同,所以對(duì)于大數(shù)據(jù)業(yè)態(tài)下的發(fā)展思路也不會(huì)完全一致。建議從自身的大數(shù)據(jù)業(yè)務(wù)規(guī)劃出發(fā),結(jié)合現(xiàn)有情況,有針對(duì)性的調(diào)整和改進(jìn)現(xiàn)有業(yè)務(wù)流程,以更好的適應(yīng)未來(lái)大數(shù)據(jù)業(yè)務(wù)的發(fā)展。
在相關(guān)調(diào)整中,IT技術(shù)資源是傳統(tǒng)研究公司最需要投入的環(huán)節(jié)?紤]大數(shù)據(jù)業(yè)務(wù)下相關(guān)資源(軟硬件和團(tuán)隊(duì))投入較大且專(zhuān)業(yè)性強(qiáng),筆者后續(xù)將結(jié)合市場(chǎng)研究領(lǐng)域的業(yè)務(wù)特點(diǎn),對(duì)市場(chǎng)研究涉及的大數(shù)據(jù)領(lǐng)域相關(guān)的主要技術(shù)理論、應(yīng)用場(chǎng)景與常用的工具資源,專(zhuān)文進(jìn)行說(shuō)明。
作者:HCR(慧辰資訊) 馬亮