零基礎,如何成為數據分析師嗎?

2019-03-13 01:27:04

歡迎到早讀課投稿,投稿信箱:[email protected]

不少人後台問我,如何轉行做數據分析師,或畢業生怎樣入行。我之前的文章都是圍繞硬技能來寫,這次以我知乎上的一篇答案為基礎談一下軟技能。權當做雜談。

我進入網際網路行業完全是零基礎,不是數據分析零基礎,是樣樣能力零基礎。

零基礎到什麼樣子?我找工作花了三到四個月時間,最後以運營身份入職。

我從來不是數理強人,大學雖學習過高數、統計學、SQL和C語言,均是低空略過,考試還藉助了小夥伴的力量。現在回頭看,當時應該多學些。

最開始我不會vlookup,也沒人教我,Excel只能做基礎的操作。那時要關聯多張報表,我仗著手速快,一個個搜尋複製黏貼的…數據量一多肯定哭。後來我想這可不是辦法啊。於是藉助萬能的百度:

“Excel怎么匹配多張表的數據。”

然後第一次看到vlookup函式。我也沒有一次學會,每次用都要先看一遍網上的樣例。後續我教組員的時候,他們學得比我快多了。

Excel一步一個腳印,學習都是依賴搜尋和琢磨,抽空用工作中的內容練習分析:比如什麼樣的用戶願意用我們APP,用戶哪些指標特別好。

即使在此期間,我也不會數據透視表。

記得15年初,老闆給了我一個任務:網上收集數據,大約需要幾萬條,我不可能全部複製黏貼下來啊,便繼續查詢:

如何快速下載網頁上的數據。

於是知道了爬蟲,知道了Python,但我並不會。最後靠第三方爬蟲工具,按照教程學習。早期已經學習過HTML+CSS,然後再了解網頁結構,學習Get/Post,學習正則。花了一周時間加班,才下載下來。

可沒有結束,數據是髒數據,我還需要清洗。再花一周時間學習Excel的find,right,mid,replace,trim等文本處理函式。那時候不知道這叫數據清洗,但是學會了很多技巧,即使我儘可能快速省力,還是花費數天。

當我現在寫Python爬蟲的時候,效率快速很多。包括文本清洗,用Levenshtein速度槓槓的。加起來一晚上就搞定。

任何學習都不是無用的,很多知識相通。我因為爬蟲學習了HTML+CSS,後續便觸理旁通地了解了網站結構和網站分析。

後續知道布置百度統計,知道JS,學習網頁端的各類指標,了解訪問路徑、漏斗轉化、跳出率退出率等。這些知識不止能用在網站上。也能用在APP分析、用戶行為上。

我們把學習當成一個點,學完這本書就看下本書,其實這樣發揮不出學習的效率。任何知識都具有關聯性,A知識可以套用在B知識上,知識技能樹應該是呈網狀發散的。

HTML+CSS—— 網頁結構 ——網站分析——用戶分析

HTML+CSS—— 爬蟲工具——Python爬蟲

HTML+CSS—— JS ——可視化JS

HTML+CSS——SEO——SEM

上面鏈條是我基於前置知識掌握新知識的關係譜。

數據分析涉及的領域很寬廣,除了本身紮實的業務背景,還需要瑞士軍刀般的技能樹,屬於T型能力(一專多才)。

比如你看到某個頁面跳出率較高。除了常規的分析外,還要檢查網路速度,用戶弱網環境,是不是HTML頁面載入過多,是否使用了快取,網路DNS如何等。這些知識不會有人教你,但它左右業務結果。

看到這裡別怕,雖然要學的多,但是隨著學習的加深,很多知識是共通的。就像轉化率來源於網站分析,卻能用於產品路徑,既能升華為桑基圖,又能做用戶分層。越學到後面,越容易一法通萬法通。

驅動力

其實零基礎學習數據分析,最難的門檻不是技能,而是學習動力。我從零培養過數據分析師,從零教過Excel、從零教過SQL、從零教過分析思維、從零教過Python。難點從不在於這些知識,而是你真的想不想學。

不是下載了十幾G的資料就是學習,不是關注了很多公眾號就是學習。因為十幾G的資料最終不會打開,很多公眾號最後都是未讀。這能說明想學習?零基礎太容易無從下手,難以堅持,淺嘗則止了。

無從下手,這是不知道學什麼,我說過數據分析是一門比較寬廣的學科。它既有傳統商業分析的方法論,也有數據時代的統計和編程。可它又偏偏是任何崗位任何職業都能用到的技能,繞不過。

學習是很主觀的事情,我們從國小開始讀到大學,數十年的學生生涯,最缺漏的能力是主動學習。

中考高考打磨那么多年,很大情況是環境因素逼迫人去學習,本身沒有任何學習的驅動力和習慣。大學四年再一度過,可能學習性就消磨殆盡了。

之所以說我們習慣被動學習,是大家都有一道題目做一道題目,只知道公式套用,不需要知曉原理。教材輔導題海戰術,內容也不會超綱。整個大的學習環境都是為被動打造。

現在學習數據分析,拿起書籍、打開PDF資料、關注公眾號。不會有老師糾正你輔導你,不會有作業鞭策你訓練你。也不知道工作中哪個會經常用到,沒有練手的數據題目,甚至連網路上的知識質量都難以辨別。

無從下手,對吧,可這才是主動學習。

心態要轉變。

零基礎學習數據分析,最大的老師只能是自己,不會有任何一篇文章一夜教人成為數據分析師。我帶過願意學習並且成長很快的實習生,也教導過有興趣但依舊帶不出節奏的同事。前者是主動學習,後者是止於興趣的被動學習。

因為是零基礎,所以才更需要主動性。數據分析本事是發展很快的行業,幾年前會SQL就行,現在得了解些MR和HIVE,過幾年SparkSQL也許就是必備,如果想在這一行做的好一些。

持續的學習是必須的能力。或者基礎不如其他人,至少學習性別輸吧。

我也給出我的建議,學習應該是具體為解決某一個問題而設立目標,說透徹點,實戰為王。不論是何種職業,一定或多或少能接觸數據。先別去分析,而是想,能用這些數據乾什麼,做一個簡單的假設。

我是HR,我的假設就是最近招人越來越困難啦,

我是市場,我的假設就是現在行銷成本太高,又沒有什麼效果。

我是運營或者產品,更好辦了,假設某指標的數據因為ABC等原因而無法提升。

哪怕是學生,也能假設在學校商圈賺錢是容易還是困難。

數據圍繞假設去收集、生成、組合、利用、論證和分析。

這是麥肯錫式的思維方法,也可以作為學數據的方法。新人容易陷入數據的迷途:我沒有數據,有了數據也不知道幹啥,知道幹啥又不知道方法。想的太多,遠不如有方向好用。

基於假設的好處是,我首先有了一個方向,別管它對不對,至少能按照方向做分析。

HR認為招人越來越困難,則可以拿出歷史數據,以前我招人需要下載幾份簡歷,打幾個電話,發出幾個Offer最終入職。現在呢?我還可以拿各個環節的數據觀察,這不就是轉化率嘛?時間維度放得寬一點,看看去年這時候招人困難不,是不是年底都難招,這樣就了解折線圖概念。

市場專員做分析,可以拿更多的數據作參考,假設行銷成本太高,現在高到什麼地步了,什麼時候開始高的,找出時間點分析一下。效果不好,是什麼時候效果不好,那時市場環境有什麼變化嗎?我假設市場環境有了變化,這又是一個新的假設,可以繼續拎出一堆深入研究。

雖然各人分析效率和成果肯定不同,但是思路都能以這樣訓練出來。不是有了數據才有了分析,而是有了分析的方向才能收集分析數據。我的學習從來都是以解決問題為主,不是突然靈光一閃就會了。

如果把數據分析的學習旅程想成一條很長道路的話,我們不是一路開到終點,這沒人能行。而是把這條道路分割成一段段,每段上面擺一個旗幟作目標,以旗幟為前行方向,不是以幾十公里外的終點站作為目標。

好奇心

除了學習驅動力外,想成為數據分析師,還需要一顆好奇心。

好奇心就是問問題,想問題,琢磨問題,解決問題。如果你是一個天生八卦的人,那么將它用在數據分析上絕對是天選分析師,良材美玉。

很多人喜歡追求數據分析的工具、知識、要點、竅門。但是從來很少提到好奇心。

好奇心是解決問題的核心能力,編程可以鍛鍊,統計可以學習,這些最終都不是瓶頸。你學全了十八般武藝,臨敵對戰,最終需要的什麼?是求勝心。數據的求勝心就是好奇。

知識決定解決問題的下限,好奇心決定解決問題的上限。好的數據分析師一定會有好奇心,會提問,會想問題,也能去解決問題。

我們最早期推的所有活動,都沒有監控體系,整個運營也缺乏數據指導。對當時的我來說,很多運營的運作是黑箱。我不知道發什麼了什麼,怎么發生,只有一個結果輸出。

別人若問我問什麼,我只能做出假設,有可能一二三點。是否是這樣,我也不知道。

運營活躍數上升,原因是什麼?不知道。

簡訊推送後效果怎么樣?不知道。

新註冊用戶來源有哪些?不知道。

那時隨著公司業務線的拓展、用戶數量提升。我用Excel做關聯越來越吃力。我再一次向研發提數據需求時,CTO對我說:要不給你開個資料庫許可權,你自己查吧。

我告別了Excel,學習和了解資料庫。從幾張表的接觸擴展到幾百張表。

知道left join 和 inner join的區別。知道group by,知道數據結構,知道index。

那時期需要建立用戶數據體系,包括留存、活躍、回流、分層等指標。我網上一邊查運營指標的套用和解釋,一邊查SQL的實現。

和研發解釋、溝通,因為了解資料庫,很多需求以更合理的要求實現。這是我第一次開始接觸、了解和建立以業務為核心的數據體系。

舉一個例子:用戶用過APP很長一段時間,我們管他叫忠誠用戶,後來突然他連續幾周不用,那么我們會通過SQL找出這類用戶,分析他行為,電話訪談為什麼不用,嘗試喚回他。其他運營都是同理。

這時候,我才可以說我了解了活躍數,知道它為什麼上升,為什麼下降。

我們給不同用戶推簡訊,藉助SQL我能查詢到數據的好壞,但是有沒有更明確的指標?比如多少用戶因為簡訊打開APP,簡訊打開率是多少?

當時短鏈用了url scheme,可以自動跳轉到app,為了監控,我們也在短鏈中埋了參數。通過推送數據,觀察這條簡訊會有多少人打開。

這是衡量一個文案的標準,好文案一定能觸動用戶打開。我們經常拿文案作為AB測試。舉一個例子,我們會用簡訊行銷,運營是和禮品掛鈎的,當時有不少用戶線上註冊完並不下載APP,我們有那么一條針對此類的簡訊文案:

我們已經為您準備好了專屬心意,XXXXX,請打開APP領取。

這條簡訊的打開率約在10%左右。但是還有最佳化空間,於是我不斷修改文案,後續修改為:

既然您已經註冊,為什麼不來領取屬於您的專屬心意呢,XXXXX,請打開APP領取(中間內容不變)。

打開率被最佳化到18%。因為它用了行銷心理,已經註冊,契合了沉默成本的暗示:我做都做了,為什麼不繼續,不然白註冊了。這種心理常見於旅遊景點,景點很坑爹,但絕大多數人還是會說:既然來都來了,就是一種共通的心理。

後續簡訊又採取個性化方案,最終最佳化到25%。比最早期的文案效果好三倍左右。如果不好奇簡訊效果,如果不收集數據監控指標,那么最佳化無從談起。我們可能憑感覺寫出好文案,但你不知道具體效果,而數據能。

再來個例子,最開始我們藉助微信朋友圈進行用戶拉新,起初有多個渠道,但是我不知道哪個渠道效果好。然後我的好奇症又犯了,哪個渠道效果好?邀請轉化率還能不能最佳化?渠道拉新成本是多少?

依舊是推動和落地數據分析的執行,因為微信的網頁分享,會自動帶from=timeline等參數,通過參數我能過濾出微信端瀏覽和訪問的數據。後來又拜託研發針對不同渠道設定參數。通過參數統計轉化率,並且給新用戶打渠道來源標籤。

期間發現一個渠道的轉化率過低。我們大概分兩類渠道,一個是落地頁直接邀請用戶註冊,附加有禮品信息。一個是讓用戶先挑選禮品樣式,最後領取步驟中跳到註冊。通過轉化率分析,後者的流失較為嚴重。因為步驟太冗餘了,還有快遞地址要填寫,選取禮品的吸引力不足以支持用戶走完流程。

於是便更改第二個渠道流程。不同註冊渠道的用戶來源,因為有標籤,所以在後續新用戶的運營中,可以有針對性地做措施。這也是簡訊通過個性化達到25%打開率的原因之一。

好奇是為了解決問題而服務的。通過不斷的想問題,解決問題,數據分析相關的能力自然會提升。

幸運的是,好奇心能夠後天鍛鍊,就是多問問題多想問題,鍛鍊難度不高。

非數據

零基礎學習還會有另外一個問題,就是輕視業務的重要性。

實際上,想成為數據分析師,難點不在於Excel、SQL、統計等知識欠缺。而是業務知識的匱乏。

一個人懂業務不懂數據,另一個懂數據不懂業務,前者更有可能解決實際的問題。因為數據分析師始終是為業務而服務。

我曾向產品提出(沒請吃飯)布置APP和Web埋點,通過用戶的路徑了解用戶,也彌補百度統計的缺點。
當時通過Hadoop存儲數據,使用Hive建立離線的腳本清洗、分區、加工。用戶瀏覽產品的頁面、使用的功能、停留的時間都能構成用戶畫像的基礎。

我曾經很好奇什麼是用戶畫像,因為網路上說用戶的性別、地域、年齡、婚姻、財務、興趣、偏好是構成用戶畫像的基礎。

但是我們的業務獲取不到那么多數據。而我認為,用戶畫像是為了業務服務的,它不該有嚴格統一的標準。只要在業務上好用,就是好的用戶畫像。
就像線上視頻的用戶畫像會收集電影的演員、上映時間、產地、語言、類型。還會細分到用戶是否快進,是否拖拽。

這些都是以業務為導向。甚至視頻網站的分析師們本身就得閱片無數,才能根據業務分析。

不然那么多電影類目和類型,如何細分各類指標?能通過拖拽快進去判斷用戶是否有興趣,自身也得用過類似行為才能理解。

零基礎怎么學習行業和業務知識?如果本身和業務接觸,只是想做數據分析,難度小不少。如果像當初的我一樣,既沒有義務知識又不懂數據,也是可以的。

數據如果是假設性思維學習的話,那么業務應該是系統性思維學習。業務知識也需要一個目的和方向,但是和數據分析不同。業務注重的是系統性,系統性不是大而全,而是上而下的結構知識。先瞄準一個方向鑽取深度,廣度會隨著深度的挖掘逐漸拓展。

比如你是一個外行,想學用戶運營體系的分析,不要先考慮啥是用戶運營,這問題太大。而是瞄準一個方向,例如活躍度,了解它的定義和含義,再想怎么套用。線下商場的活躍度如何定義,醫院患者的活躍度如何定義,某個學校社團的活躍度如何?拿身邊例子去思考活躍度。商場的活躍,可以是走來走去的人流,可以是進行消費購物的客流,可以是大包小包的土豪。什麼因素會影響活躍?促銷還是打折,節假日還是地理。等這些問題想通了,上手用戶運營會很快。

再通過同樣的思維去想留存、去想拉新。就會知道,如果商場的人流下次繼續來消費,就是留存,有新客人來,就是拉新。這又有哪些因素互相影響?最後的知識思維一定是金字塔結構的。上層是用戶運營,中間是拉新、活躍、留存。下層是各個要點和要素。

數據分析的學習注重演繹和推理,業務的學習注重關聯和適用,學以致用就是說的這種情況。期間也會用到好奇心和假設,這兩點都是加速學習的途徑之一。

實際上說了這么多,對於零基礎想當數據分析師的同學來說,可能仍舊有一些雲山霧罩吧。

這些軟技能也不會助人一步登天的,其實的七周成為數據分析師,從最開始我也說過是入門的大綱。重要的是自己是否真的想學和學好,師傅領進門,修行靠個人,其他一切都是虛的。

想起很久以前看的一句雞湯話,當你想要前行時,一切都會為你讓路。我想這比我說的一切都更有力。

所以你問我零基礎能成為數據分析師嗎?我的回答是能。

文章其實有一些趕,最後祝大家聖誕快樂。

相關文章
精选文章