為什么進(jìn)行網(wǎng)絡(luò)營(yíng)銷(xiāo)中提出產(chǎn)品數(shù)據(jù)需求
產(chǎn)品指標(biāo)體系的建立不是一蹴而就的,運(yùn)營(yíng)人員需要根據(jù)產(chǎn)品所處的發(fā)展階段,有所側(cè)重地進(jìn)行數(shù)據(jù)需求的提煉。為方便產(chǎn)品和數(shù)據(jù)上報(bào)開(kāi)發(fā)、數(shù)據(jù)平臺(tái)等部門(mén)同事之間溝通,大多數(shù)公司都會(huì)有產(chǎn)品需求文檔模板,以輔助進(jìn)行數(shù)據(jù)建設(shè)。目前,大多數(shù)創(chuàng)業(yè)型中小企業(yè),產(chǎn)品數(shù)據(jù)的需求提煉到上報(bào)或許就是1~2人的事情,但同樣建議做好數(shù)據(jù)文檔的建設(shè),如數(shù)據(jù)指標(biāo)的定義、數(shù)據(jù)計(jì)算邏輯等。
IJYY語(yǔ)音為例,表7-5所列是YY語(yǔ)音的客戶端團(tuán)隊(duì)建立的基礎(chǔ)產(chǎn)品組需求實(shí)現(xiàn)流程。
上報(bào)數(shù)據(jù)
這個(gè)步驟是根據(jù)產(chǎn)品經(jīng)理提出的數(shù)據(jù)需求,按照上報(bào)規(guī)范,將數(shù)據(jù)上報(bào)到務(wù)器的過(guò)程。上報(bào)數(shù)據(jù)的關(guān)鍵是數(shù)據(jù)上報(bào)通道的建設(shè),只要上報(bào)通道足夠通暢這個(gè)環(huán)節(jié)的工作就非常簡(jiǎn)單,因?yàn)閿?shù)據(jù)平臺(tái)可以代勞很多細(xì)節(jié)性的工作,運(yùn)營(yíng)員只需要按照規(guī)定的步驟,使用統(tǒng)一的數(shù)據(jù)SDK進(jìn)行數(shù)據(jù)上報(bào)就可以了。
然而,如果是在一家初創(chuàng)公司,或者不太完善的公司,則需要從上報(bào)通道設(shè)開(kāi)始做起。其中一個(gè)很關(guān)鍵的環(huán)節(jié)就是數(shù)據(jù)上報(bào)測(cè)試,該環(huán)節(jié)做不到位,會(huì)成不必要的麻煩。
如果公司沒(méi)有足夠的技術(shù)和資金來(lái)搭建自己的數(shù)據(jù)平臺(tái),也可以借助第三:數(shù)據(jù)平臺(tái)。常用的有網(wǎng)頁(yè)產(chǎn)品類(lèi),如百度指數(shù)、360大數(shù)據(jù)平臺(tái)、艾瑞指數(shù)、鞫指數(shù);電商平臺(tái)類(lèi),如阿里指數(shù)、淘寶指數(shù);移動(dòng)端產(chǎn)品類(lèi),如友盟、微信指轂、Talking Data等。
數(shù)據(jù)采集
j 數(shù)據(jù)上報(bào)完,并得以確認(rèn)之后,接下來(lái)就是一個(gè)偏技術(shù)化環(huán)節(jié),即數(shù)據(jù)采集。由于專(zhuān)業(yè)性較強(qiáng),這一步通常由數(shù)據(jù)分析師等專(zhuān)業(yè)人士完成。
數(shù)據(jù)采集是獲取高質(zhì)量數(shù)據(jù)的主要方式,是數(shù)據(jù)分析的基礎(chǔ),直接決定數(shù)據(jù)分析的結(jié)果。那么,如何做好數(shù)據(jù)采集工作呢?我們不妨先看一張圖,即產(chǎn)品數(shù)據(jù)體系中最常見(jiàn)的數(shù)據(jù)采集流程, 數(shù)據(jù)采集通常分為兩步。
第一步,從業(yè)務(wù)系統(tǒng)上報(bào)到服務(wù)器,這部分主要是通過(guò)巡航導(dǎo)航指示器或者后臺(tái)服務(wù)器,通過(guò)統(tǒng)一記錄API調(diào)用之后,匯總在日志服務(wù)器中進(jìn)行原始流水?dāng)?shù)據(jù)的存儲(chǔ)。當(dāng)這部分?jǐn)?shù)據(jù)積累到一定量之后,需要考慮用分布式的文件存儲(chǔ)來(lái)做,外部常用的分布式文件存儲(chǔ)主要是HDFS。
HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),它放寬(relax)了POSIX的要求(requirements),這樣可以實(shí)現(xiàn)流的形式訪問(wèn)( streaming access)文件系統(tǒng)中的數(shù)據(jù)。HDFS有著高容錯(cuò)性( fault-tolerant)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉(low-cost)的硬件上。它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集( large data set)的應(yīng)用程序。
第二步即進(jìn)人數(shù)據(jù)的抽取和轉(zhuǎn)換環(huán)節(jié)。ETL是英文Extract-Transform-縮寫(xiě),用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取、轉(zhuǎn)換、加載至目的端的過(guò)程。
詞較常用在數(shù)據(jù)倉(cāng)庫(kù),但其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。
ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),據(jù)分析,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)畸
數(shù)據(jù)存儲(chǔ)
對(duì)數(shù)據(jù)進(jìn)行采集之后就需要將其存儲(chǔ)起來(lái),以便后期使用時(shí)集中整理析。數(shù)據(jù)大多存儲(chǔ)在專(zhuān)門(mén)的數(shù)據(jù)倉(cāng)庫(kù)中,存儲(chǔ)的數(shù)據(jù)越多、越完善,標(biāo)志著司對(duì)大數(shù)據(jù)運(yùn)用得越好、越徹底。
成熟的互聯(lián)網(wǎng)企業(yè)大多都有自己的數(shù)據(jù)倉(cāng)庫(kù),這也是衡量其是否實(shí)現(xiàn)數(shù)運(yùn)營(yíng),或?qū)Υ髷?shù)據(jù)運(yùn)營(yíng)能力大小的重要標(biāo)志。
(1)接入層
數(shù)據(jù)接入層會(huì)將收集到的各種數(shù)據(jù)統(tǒng)一成一種內(nèi)部的數(shù)據(jù)協(xié)議,方便后續(xù)數(shù)據(jù)處理系統(tǒng)使用。接人層支持各種格式的業(yè)務(wù)數(shù)據(jù)和數(shù)據(jù)源,包括不同的DB、文件格式、消息數(shù)據(jù)等。
(2)處理層
處理層,是指用插件化的形式來(lái)支持多種形式的數(shù)據(jù)預(yù)處理的一個(gè)過(guò)程。對(duì)于離線系統(tǒng)來(lái)說(shuō),一個(gè)重要的功能是需要按照某些維度(比如某個(gè)key值+時(shí)間等維度),將實(shí)時(shí)采集到的數(shù)據(jù)進(jìn)行分類(lèi)存儲(chǔ)。同時(shí),存儲(chǔ)文件的粒度(大?。瘯r(shí)間)也是需要定制的,使離線系統(tǒng)能以指定的粒度來(lái)進(jìn)行離線計(jì)算。
(3)存儲(chǔ)層
處理后的數(shù)據(jù)使用HDFS作為離線文件的存儲(chǔ)載體。保證數(shù)據(jù)存儲(chǔ)整體上是可靠的,然后最終把這部分處理后的數(shù)據(jù),入庫(kù)到騰訊內(nèi)部的分布式數(shù)據(jù)倉(cāng)庫(kù)( TDW)。
數(shù)據(jù)接入
大量數(shù)據(jù)為什么要接入,主要基于兩個(gè)原因。第一是由大數(shù)據(jù)的多樣性造成的。大數(shù)據(jù)的多樣性使得原有的單一通道不適用,這就需要針對(duì)數(shù)據(jù)的類(lèi)型如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù),以及數(shù)據(jù)源的存儲(chǔ)形式如關(guān)系數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)兩方面特性進(jìn)行綜合考慮,形成一個(gè)二維接人方式表。大數(shù)據(jù)的多樣性表明,我們?cè)诮尤藬?shù)據(jù)的時(shí)候必然會(huì)采用多樣化的接人手段。第二是由大數(shù)據(jù)的高速性造成的,這一特性使數(shù)據(jù)通道更為擁堵。
針對(duì)大數(shù)據(jù)的這些特點(diǎn),流處理的技術(shù)發(fā)揮了重要作用。當(dāng)然實(shí)際情況要更加復(fù)雜,在這里我們只是提出其中的一種解決問(wèn)題的思路。
對(duì)此,可以依靠消息隊(duì)列集群加流處理技術(shù)進(jìn)行解決。例如,現(xiàn)在廣泛采用的kafka+spark streaming的解決方案。數(shù)據(jù)通過(guò)消息的不同通道和訂閱發(fā)布機(jī)制,建立不同的數(shù)據(jù)傳輸通道,并且通過(guò)分布式機(jī)制和緩存機(jī)制解決大量數(shù)據(jù)接人的性能問(wèn)題。一些軟件或APP中提供的采集助手就是要讓不懂技術(shù)的人員也能接人各種類(lèi)型的數(shù)據(jù)。
從實(shí)際應(yīng)用來(lái)看,產(chǎn)品在考慮數(shù)據(jù)接人的時(shí)候,主要關(guān)心3個(gè)問(wèn)如下。
【1)多個(gè)數(shù)據(jù)源的統(tǒng)一
一般實(shí)際的應(yīng)用過(guò)程中,都存在不同的數(shù)據(jù)格式來(lái)源,這個(gè)時(shí)候,采冀入這部分,需要把這些數(shù)據(jù)源進(jìn)行統(tǒng)一的轉(zhuǎn)化。
(2J注意時(shí)效性
要注意采集的實(shí)時(shí)高效,由于大部分系統(tǒng)都是在線系統(tǒng),對(duì)于數(shù)據(jù) 效性要求會(huì)比較高。
(3)對(duì)無(wú)效數(shù)據(jù)進(jìn)行處理
對(duì)于一些會(huì)影響整個(gè)分析統(tǒng)計(jì)的無(wú)效數(shù)據(jù),需要在接入層的時(shí)候進(jìn)行邏輯蔽,避免后面統(tǒng)計(jì)分析和應(yīng)用的時(shí)候,因這部分?jǐn)?shù)據(jù)導(dǎo)致很多不可預(yù)知的問(wèn)題。