農林漁牧網

您現在的位置是:首頁 > 林業

大資料開發流程及應用方向

2022-04-20由 世民兄 發表于 林業

美團晚高峰是幾點到幾點

大資料開發流程及應用方向

大資料開發流程及應用方向

大資料的應用範圍非常廣,從目前來看,效果比較好的有零售、交通、金融和物流這些行業。甚至包括去年兩會提出的精準扶貧,也可以藉助大資料的方式來推動,確保把政策落到實處,不留死角。

01

正如上一篇談到,大資料是各行各業創新驅動的底層支撐。以智慧交通為例,這是滴滴出行在全國300多個城市採集的運營資料,全天24小時,每一個時間段的車輛排程情況都呈現出來。我特地選了一個時間點,下午將近6點的晚高峰時段。

大資料開發流程及應用方向

基本上重點城市在晚高峰的時候都是一片紅海,城市交通的壓力非常大。這也是全世界各國的通病,每一個國家的交通部門,都想解決這個難題。但又不可能無限制的架橋修路和建地鐵,只能在現有的基礎之上,透過技術手段來疏導交通,提高城市的通行效率,節約人們每天花在路上的時間。

而滴滴這樣的平臺,可以一定程度上緩解這個問題。最近一年,滴滴似乎有些麻煩,負面新聞有點多。一方面,很多司機邊用滴滴接單掙錢,邊罵滴滴是無良奸商;另一方面,美團也切入了這個市場,雖然目前所佔的市場份額還很小,但已經讓滴滴面臨著前所未有的壓力。

而作為普通老百姓,不太明白滴滴以後到底靠什麼賺錢,難道僅僅是跟司機之間那一點分成嗎?這幾年下來,滴滴已經砸下去數百億資金。到目前為止,還沒有實現全面盈利,一直處在持續投入和虧損的狀態。但為什麼在這種情況下,還有大量的資本投給滴滴。事實上,滴滴這個平臺的價值,遠比大家想象中要大,因為它撬動的是出行這個無比巨大的市場。尤其在人工智慧和大資料的時代,滴滴今天所做的事情,充其量只是萬里長征剛走了幾步。關於滴滴的價值和未來的走向,在後面的篇章裡會深入分析,這裡就先不展開。

滴滴這樣的平臺,最寶貴的資產、最核心的競爭力,就是這幾年下來所累積的運營資料和排程經驗,而且滴滴在資料開發方面確實做得不錯。

網際網路巨頭具有天然的大資料基因,而對於傳統行業,資料資產卻是是短板

。具體表現在以下幾個方面:

· 資料思維:資料意識較弱,人才儲備不足

· 資料採集:資料積累時間長,但質量不佳

· 資料開發:應用場景少,缺乏業務突破點

· 資料應用:不會造勢,缺少應用成功案例

· 資料共享:資料不統一,且整體協調性差

至於企業大資料應用的方向,可以從下面這幾點著手:

· 產品研發:資料反饋與產品定位

· 使用者畫像:消費者心理及行為分析

· 精準營銷:痛點捕捉與需求觸達

· 風險管控:資料監測與風險預警

· 運營效率:智慧化和精細化管理

· 創新服務:消費者個性化需求滿足

02

接下來看看資料開發的流程:資料開發總共分為六個節點,從資料接入、整合,到資料處理、分析,最後透過視覺化進行資料呈現。

大資料開發流程及應用方向

怎麼理解資料開發的流程,打個比方吧。假如今天我要請朋友們吃飯,為了表示誠意,不想去飯店,就在家裡給大家做一桌子好菜。我首先得去菜市場買菜,因為客人比較多,得買一大堆菜回來。這些菜可以理解為資料來源,也就是所謂的資料接入。菜買回來之後,得分門別類擺放好,哪些是肉類、瓜果,哪些是海鮮、蔬菜,這就相當於資料整合,建立自己的資料倉庫。然後下一步,還得把這些菜洗乾淨,把爛掉的菜葉子摘掉,把該切的瓜果切好,把魚鱗刮掉,開膛破肚,這個過程屬於資料處理,或者叫做資料清洗。接下來,還得琢磨一下大家的口味。既然請客吃飯,就得讓大家吃好,吃得高興。怎麼樣才能抓住每個人的味蕾,也許是基於以往對大家飲食習慣的瞭解,或者掌握了大家之前外出就餐的消費記錄,從而判斷口味偏好。而這個過程,我們可以理解為資料分析。最後,當把一桌子菜做好端上桌,色香味俱全,就是資料視覺化和資料呈現了。

在資料開發流程當中,重點分享一下資料接入、資料整合以及資料處理。很多做企業的朋友覺得自己的資料資源有限,或者說資料的維度太單一,這些都是現實情況。有句話說的好,有條件要上,沒有條件創造條件也要上。資料的積累是一個持續的過程,

可以先從內部採集做起,打下基礎,再想辦法從外部獲得想要的資料資源。

在我自己主導的三個創業專案之外,還涉足過商用wifi這個領域,當時負責全國市場拓展。什麼是商用WiFi,大家在一些公共場所,比如機場、高鐵站、商場和醫院,可能就有用過微信連WiFi的服務。

在業務拓展過程中,我們跟微信、360以及公安系統的網路監察部門,都有過關於資料共享方面的深入合作。合作的前提是互惠互利,就以跟公安網監的合作為例,我們獲取資料是為了商業化運作,而這些資料對他們,則是用於治安、反恐、維穩和安保。

那段時間,我跑公安系統比較多,尤其廣東省內,無論市局、省廳,還是下面的分局、派出所,甚至社群警務室,很多都要去做具體的業務對接。因為這個領域相對有些敏感,就不深入介紹了。

總而言之,資料資源需要一個逐步積累的過程,既要內部採集,也要從外部去拓展。至於方法有很多,可以用交換,也可以透過其他方式。具體怎麼操作,必須結合自身的行業特性。

03

當資料來源足夠豐富的時候,下一步就是對這些資料進行處理。

在資料清洗過程中,最重要的三點,是資料的完整性、準確性和時效性。

譬如我們平常用百度地圖或者大眾點評,會發現很多資訊有誤,有些商戶早就不存在了,但還顯示在地圖或者點評頁面上,而有些新建的住宅小區、購物中心卻沒有及時顯示出來,這個就是時效性的問題了。

之所以出現這種情況,是因為百度地圖和大眾點評屬於開放平臺,任何人都可以在地圖上標註一個位置資訊,或者建立某個商戶。這樣一來,平臺聚合的資訊量雖然很大,卻很難保證準確性和時效性。

一旦原始資料質量不佳,就會對後面的資料分析環節造成困擾,因此對資料的清洗至關重要。

在我們運營外賣專案的起步階段,做了大量基礎資料的採集和處理工作。當時大部分餐廳對於網際網路訂餐完全沒概念,我們雖然可以給餐廳提供後臺賬號,告訴他們如何上傳菜品、價格等資訊,但他們不懂也不願意操作,最後這個事情還是得交給我們來做。所以每天要處理大量的基礎資訊,把菜品名稱一個字一個字敲出來,把價格準確填上去,不能有絲毫差錯。但也經常會搞出笑話,本來是一個尖椒肥腸飯,結果用搜狗拼音打出來之後變成了“尖叫肥腸飯”。

中式快餐的特點之一是品種太多,店面經營上難以複製和形成規模化,不像麥當勞、肯德基,所有品類加在一起也就幾十種,而咱們的中餐館,一個小小店面,能搞出一百多種,還有些港式茶餐廳,竟然三四百種。我們當時面臨的合作餐廳基礎資料採集的繁雜程度可想而知,但是這個環節必須做好,不僅要資訊準確,如果菜品、價格或優惠活動有變化,還得及時更新,只有這樣,使用者在訂餐的時候才能夠獲得更好的體驗。

另一個更重要的事情,是關於訂餐成功率,跟資料清洗也有很大的關係。什麼是訂餐成功率?比方說,使用者下單之後,餐廳有可能不接這個單,因為距離太遠,送餐太費時間,不划算。當餐廳不接單的時候,既影響使用者體驗,也會拉低訂餐成功率。尤其在七、八年前,不像現在有專門的配送隊伍,外賣小哥穿著統一的服裝,騎著電動車在街頭穿梭。那個時候,負責送餐的是店裡的員工,或者老闆的三姑六婆,忙起來的時候老闆娘都得親自上陣。

做快餐的黃金時間也就中午的兩三個小時,所以在高峰期,哪怕只隔著一條馬路,那些需要爬樓梯的,或者電梯很難等的,訂單來了餐廳都不願意接。我們初期做市場調研,跟很多餐廳負責人交流過,他們都有提到這一點。但使用者在下單的時候未必清楚這個情況,因為系統是根據使用者所在的位置,按照一定的半徑範圍自動匹配附近的餐廳。那麼問題來了,無論GPS還是基站定位,都會存在一定程度的漂移。GPS受到天氣、雲層、以及周圍建築物和磁場干擾,有的時候飄出一兩百米,甚至三五百米都很正常,而這種距離,對於餐廳接單就是致命的打擊。

04

因此在做系統開發的時候,我要求技術部門,不能為了圖省事就直接從地圖服務商那裡抓取基礎資料,然後設定一個500米或1000米的半徑範圍,自動匹配餐廳和使用者。因為基礎地圖資料沒有經過清洗,準確性和時效性都不夠。其次,不能簡單以GPS或者基站定位,一旦位置漂移過大,會影響餐廳接單的積極性。那怎麼辦呢?我讓技術部門按照我提供的關鍵詞列表,把地圖資料先做一次過濾,然後交給客服部,進行逐個比對。要求必須保證我們資料庫裡面的位置資訊,跟現實世界裡存在的建築物保持一致。

可以想象,這是一個很繁雜的工作,但是好處在於一次成型。後續,當有新建築物產生的時候,只需要保持更新就可以了。

做好這個事情以後,我們的銷售人員跟餐廳籤合作協議時,會給餐廳一張送餐範圍確認表,這張表上面有附近所有的建築物。餐廳根據實際情況,把送不了的建築物勾選出來。在不具備專業配送體系的階段,透過這種看似比較笨的方式,把餐廳和使用者準確的關聯起來。好處在於,使用者訂餐的時候,不用擔心餐廳不接單,而餐廳則可以傻瓜式接單,不用擔心送不了。這樣一來,訂餐成功率自然就高了。

由此可見,在大資料的開發流程當中,資料處理是一個承上啟下的關鍵環節。只有打好這個基礎,才能夠透過日常運營,不斷生成和抓取更多有價值的新資料,進行深度分析和應用。關於資料分析的方法和要點,會在下一個章節繼續分享。