資料分析的基本方法
一、明確問題
對數據分析來說,最重要的不是數據分析本身,而是──問題。
也就是,你,到底想知道什麼?
提出問題的能力比解決問題的能力更重要。
對於這句話,我深以為然。
在數據分析方面,這句話顯得格外明顯。
同一件事情,不同的人會從不同的方向和角度提出不同的問題。清晰、明確和具體的問題會讓數據分析本身變得簡單和有效。
很多數據分析之所以困難,很大的原因就在於,問題的不清晰與不具體。
二、解析問題
問題的答案來自哪些維度的資料?
這些數據是否全部都能得到原始數據?
如果全部都能得到原始數據,那麼可以進入埋點階段了。
如果有些數據不能得到原始數據,可以判斷一下,是否透過簡單的計算可以得到結果。如果可以,那麼,就可以進入埋點取得資料階段了。如果簡單的計算無法得到結果,那麼,就需要將問題分解成一些簡單的小問題。
總之,問題的解析,有兩個關鍵點,一個是那些維度的資料決定了問題的答案,另一個就是盡可能地取得原始資料。
之所以要盡可能地取得原始數據,是因為,在我以前大量的數據分析的經驗,太多和太複雜的計算,最終得到的結果比較容易偏離實際情況,也就是失真的機率會比較大,失真度也會比較大。
當然,這一點並不是絕對的,如果演算法夠嚴謹,也可以考慮複雜計算獲取結果的方法。
三、取得數據
1、埋點
埋點,是一件很有技巧的事情,也是一件很容易產生混亂的事情。最好能有一個統一的埋點規劃和管理。
2、爬數據
不說了。
3、用戶調查
不說了。
四、數據視覺化和對比
數據分析的結果都是要視覺化出來的,只有這樣才能看出問題,得到答案。
數據的視覺化,常常遇到的一件事,就是用什麼樣的圖表?
一個資料表,可以用長條圖、可以用折線圖、甚至也可以用餅狀圖等等。這時候,如何選擇?
對比。
這就是選擇圖表的標準。
數據的可視化主要是為了對比。只有對比,才能發現問題,找到答案。
對比,有兩種,一種是同一張圖表中的資料的對比,例如,一張長條圖,很明顯可以看出某一維度資料的多少/大小等。
另一種就是多張圖表的對比,可以看出很多很多事情。
所以,使用哪種圖表進行視覺化,取決於要比較什麼數據和如何比較。