數(shù)據(jù)是市場研究業(yè)務處理的主要目標,所以以數(shù)據(jù)處理流程來定義市場研究業(yè)務處理流程的關鍵環(huán)節(jié),會更準確和直觀。在后文說明中,傳統(tǒng)模式代表傳統(tǒng)業(yè)務形態(tài)(問卷調研等非大數(shù)據(jù)源+傳統(tǒng)分析方法論)的數(shù)據(jù)處理流程,大數(shù)據(jù)模式代表大數(shù)據(jù)源+全部方法論(傳統(tǒng)方法論+大數(shù)據(jù)方法論)的處理流程。
1 基本業(yè)務環(huán)節(jié)的變化
首先我們來看一下數(shù)據(jù)業(yè)務流程在兩種模式下的變化。
從上圖可以發(fā)現(xiàn),大數(shù)據(jù)下的業(yè)務流程,相比傳統(tǒng)模式,總體上有兩點重要的變化:
(1)數(shù)據(jù)融合代替數(shù)據(jù)收集,將成為數(shù)據(jù)來源的主要模式。傳統(tǒng)模式下,數(shù)據(jù)來源更多是研究公司自身采集(如問卷)或者客戶采集后提供,所以采集是核心。在大數(shù)據(jù)模式下,研究公司自身能力和資源有限,將會更多通過非采集方式(如各種外部渠道數(shù)據(jù)引入/交換,并進行整合)獲得分析的數(shù)據(jù),此時融合是核心問題。
(2)數(shù)據(jù)管理能力成為一個新的要求。傳統(tǒng)模式因為業(yè)務數(shù)據(jù)量小,基本不存在對數(shù)據(jù)管理的較多要求,所以可以忽略。但大數(shù)據(jù)場景下,數(shù)據(jù)規(guī)模大而且多樣,且常常比較分散,其統(tǒng)一的管理(如存儲和檢索等)能力,是后續(xù)業(yè)務環(huán)節(jié)順利進行的基礎,有必要得到更多的重視。
為了更深入的理解業(yè)務環(huán)節(jié)的變化,下面將對每個環(huán)節(jié),進行更深入的討論。
2 各業(yè)務環(huán)節(jié)的變化
為了便于說明,將兩種模式下的流程進行統(tǒng)一,整個業(yè)務流規(guī)范為了五個環(huán)節(jié)。下圖簡要說明了各環(huán)節(jié)下兩種模式各自在實施上的特點。
(1)數(shù)據(jù)融合/采集
傳統(tǒng)模式下,數(shù)據(jù)采集的方式主要是問卷、座談會等。這是一種小規(guī)模的采樣,且對目標有直接影響(有交互)。數(shù)據(jù)本質是某個時間點的靜態(tài)、快照式的截面數(shù)據(jù),維度受采集方式所限也不可能太多。
而大數(shù)據(jù)下,數(shù)據(jù)融合代替采集成為市場研究獲取數(shù)據(jù)的主要方式,此時數(shù)據(jù)同步和ETL成為主要方式。在最初的源數(shù)據(jù)采集中,行為日志記錄、網(wǎng)絡Spider抓取、移動互聯(lián)網(wǎng)App基于Sdk采集等成為主要手段。這類方式仍然可認為是采樣(不過更大的規(guī)模),但作為一種監(jiān)聽/探針式的模式,用戶不會感知和受影響(所以數(shù)據(jù)會更加符合實際情況)。采集的數(shù)據(jù)在時間和空間上多是動態(tài)和持續(xù)性的,可記錄的維度也會大很多。
(2)數(shù)據(jù)管理
傳統(tǒng)模式下,數(shù)據(jù)通常為標準的結構化數(shù)據(jù),且規(guī)模。ㄍǔHf級以下),此時pc單機的普通文檔(如Csv,Excel之類)足以勝任所有存儲和檢索要求。特定應用,百萬級的數(shù)據(jù)量用小型數(shù)據(jù)庫也都足夠。所以此時數(shù)據(jù)管理一直被忽略。
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量起點在億級以上,比傳統(tǒng)模式增加了成千上萬倍,格式也更加多樣,數(shù)據(jù)的管理難度幾何級數(shù)增加,原有方式已經(jīng)無能為力。此時,新的技術體系(多機、分布式文件系統(tǒng)/海量數(shù)據(jù)庫)和專業(yè)架構人員,確保了大數(shù)據(jù)的安全管理和快速檢索。相比之前,研究企業(yè)需要在該方面做出相當大的投入。
(3)數(shù)據(jù)計算
傳統(tǒng)模式下,計算主要是各種統(tǒng)計學的計算(比如總計/方差/均值…)為主,計算量不大,工具以Excel到SPSS、SAS為主流,處理多由DP完成。此時DP人員更多是研究業(yè)務的輔助支持。
在大數(shù)據(jù)模式下,數(shù)據(jù)規(guī)模、維度和分析方法的變化對計算的要求大大加強。傳統(tǒng)的統(tǒng)計性計算仍然需要,但更大的變化是:計算工作更多樣化、更高復雜度和更具專業(yè)性,且與分析更深入的結合。許多新的計算理論成為主角,比如對網(wǎng)絡非結構化文本數(shù)據(jù)使用自然語言處理,大數(shù)據(jù)挖掘的機器學習處理(大部分是高維度向量計算),而社交網(wǎng)絡計算更多是圖計算。這些新的計算理論和方法,極大擴展了大數(shù)據(jù)分析洞察的能力,但也對相關人員的專業(yè)能力提出了很高的要求。
(4)分析
分析是研究過程中最重要的環(huán)節(jié)。傳統(tǒng)模式下,研究人員主要根據(jù)傳統(tǒng)方法論,對DP人員生成的指標性數(shù)據(jù),考察全局性的分布/差異,歷史的變化等。
大數(shù)據(jù)模式下,除了傳統(tǒng)方法論的分析外,更多使用大數(shù)據(jù)方法論的思路(更關注個體,比如如何給用戶打標簽、個體/群體的匹配度是多少,對未來發(fā)展的預測期望)。同時,由于分析主要基于各種專業(yè)計算的結果,而研究人員并不具備相關技能,因此必須與專業(yè)IT技術專家緊密配合,才可能完成有價值的分析。此時,相關IT專家成為本階段最重要的參與者。
(5)結論與呈現(xiàn)
傳統(tǒng)模式下,研究結論關注的是統(tǒng)計性指標的變化,對相關原因分析和建議是重要的內容。結果更多是通過專項報告(以文檔而不是系統(tǒng)平臺)形式,在呈現(xiàn)方式上多采用表格和基本圖表。
大數(shù)據(jù)模式下,既有傳統(tǒng)的統(tǒng)計性結論,也有更多大數(shù)據(jù)方法論,比如基于個體特性之上的群體特性標簽化描述。結果更多地通過在線化系統(tǒng)來展示,新的可視化技術,在大數(shù)據(jù)的分析和結果展示上,越來越受到重視。
通過上面各環(huán)節(jié)的比較可以發(fā)現(xiàn):在新的大數(shù)據(jù)業(yè)務生態(tài)下,市場研究的業(yè)務流程
(1) 各環(huán)節(jié)的方式和支撐方法,都有較大的擴展/變化
(2) IT技術能力(數(shù)據(jù)管理與專業(yè)數(shù)據(jù)計算分析能力),成為大數(shù)據(jù)業(yè)務實現(xiàn)過程中最重要的推動因素。
HCR(慧辰資訊)近半年來,已經(jīng)在相關環(huán)節(jié)進行了積極有效的調整和提升。市場研究公司業(yè)務產(chǎn)品各有所長,業(yè)務模式也不盡相同,所以對于大數(shù)據(jù)業(yè)態(tài)下的發(fā)展思路也不會完全一致。建議從自身的大數(shù)據(jù)業(yè)務規(guī)劃出發(fā),結合現(xiàn)有情況,有針對性的調整和改進現(xiàn)有業(yè)務流程,以更好的適應未來大數(shù)據(jù)業(yè)務的發(fā)展。
在相關調整中,IT技術資源是傳統(tǒng)研究公司最需要投入的環(huán)節(jié)?紤]大數(shù)據(jù)業(yè)務下相關資源(軟硬件和團隊)投入較大且專業(yè)性強,筆者后續(xù)將結合市場研究領域的業(yè)務特點,對市場研究涉及的大數(shù)據(jù)領域相關的主要技術理論、應用場景與常用的工具資源,專文進行說明。
作者:HCR(慧辰資訊) 馬亮