本文作者:京东金融-技术研发部-数据部-运营分析部 机构负责人 李龙 . m8 q3 ]- l. A; g( f9 h* ]
目前我在京东金融负责对接金融全业务线的数据分析。结合我个人在学习数据分析和面试的经验,试着回答一下楼主的问题。
* C! s+ l4 q* x1 ^# P7 M0 b2 k7 h: ?一、数据分析学习到什么程度可以找工作?
( C# T! k" a% e# W3 P u
3 w( \: {% }/ T" _. I2 l9 q这个问题要看你准备面试的公司,具体情况差异较大。所以我只能从自身真实经验中总结一些建议,给出一些最基础的知识结构,供楼主参考。
, b8 y& A( f& V9 p首先,我觉得优秀的数据分析师应该具备三方面的素质:
/ s7 }# c( M8 u8 a
( O W0 t3 M+ u0 m% }; b- 数据分析技能;) k- U. B9 n ~6 r
- 对业务的理解;# O4 Z3 O1 [ Q" C x/ A1 X
- 独到的分析思维和表达;7 ^1 b5 k% K+ W8 V1 ? E. K
当然,只要具备基本的数据分析技能就可以尝试找工作了,可以在工作中逐步培养和提升后面两项素质。( R( x# U3 n! r. N2 I
楼主的专业是非计算机或统计专业,所以相对来说要多花一些时间补充最基础的技能。楼主现在在学的R语言没有问题,只是我认为可以先把基础打牢,再学R也不迟。因为R语言的应用过程中会涉及一些统计学的概念,如果对统计学有所了解,学习R的效率也会加快。
4 \; f+ x' {' j我个人的学习路径是这样的:& h) v% ~" p R$ s; n
1、统计学
9 R( u, Q7 {- s5 N! b$ l学习最基本的统计学知识。
! x! W6 I4 c% D/ m* w我认为统计是数据分析的基石,统计分析可以解决日常大部分的分析需求,所以强烈推荐楼主先从统计学开始。
M1 Q* p4 L+ E" \了解概率、分布、抽样、线性回归、时间序列。& }& H, u! @! w' U; l5 E0 `- c7 c4 O
推荐书目:《商务与经济统计》。) F; _( _9 D+ W! `+ e, \2 y
这本书的特点是案例很丰富,讲解通俗易懂,非常适合零基础的读者。 ^# P. \0 j" Q9 Y
2、Excel2 c* R2 ]4 |' ]; F1 \$ p
熟练使用Excel。: T4 a" b0 D- @% S
Excel的功能非常强大,各类函数非常丰富,尤其是数据透视表的功能一定要用好,你的分析能力会得到迅速提高。8 L) F2 u( R/ f( w
推荐书目:《谁说菜鸟不会数据分析》。3 Q9 l: j) [+ G4 @6 V; o7 Q" b% |
这本书不只是介绍Excel的功能,更重要的是介绍一些实践场景中数据分析的步骤和思路,对于初学者有一定指导意义。) i; r5 ~1 S" L2 ]1 ^
3、SQL) V1 \, K/ R) l6 i/ B D
有了前两项的技能,你已经可以做一些初级的数据分析工作了。只是,Excel的局限在于数据量的限制。当你要分析的数据超过百万级别的时候,Excel就力不从心了。! K b( U5 f* V; g
这时候需要数据库来解决,而从数据库中获取数据要依靠SQL语言。
$ V' b" I+ g0 \ M' ~. C @6 [可以把MySQL作为学习对象,简单了解一些数据库范式设计等基本的数据库原理,重点学习SQL语言。可以自己安装一个MySQL数据库实践操作练习。. V6 @* h( {& u5 N8 S$ M
推荐书目:《MySQL必知必会》。" {% U# H% k# L; p5 a
重点学习Select、聚合函数、关联查询等内容,系统管理方面可以忽略。# J9 ~7 `0 ~! _+ S n/ K6 l5 ]/ x
4、Hive' ]& z) {4 n, Q, c8 I
具备了SQL基础,就可以考虑向大数据方向进军了。# t% d9 Q7 e0 s' L4 D
了解Hadoop生态圈,理解HDFS的原理,重点学习Hive。
& W" L, h* u: O m9 V, b jHive就是为了让数据分析师能平稳过渡到大数据领域而诞生的。& a' A. O7 ]" g" [# a9 Z$ _
只要你会SQL,就可以通过Hive查询Hadoop中的数据。; j/ Q. w7 Q3 w& S" v2 R: l4 D3 g
推荐书目:《Hive编程指南》。
' N5 B+ B: c" P- d; D重点看HiveQL的数据操作、查询、调优部分,系统开发部分对于数据分析师应用的场景较少,简单了解即可。. e( D9 m: \% q% g7 V, k* C# R: {
5、数据挖掘、机器学习
2 d/ H5 e) X7 K6 e2 S这部分可以选择性学习。因为统计分析基本可以解决日常数据分析工作的70%-80%的需求,而且数据挖掘和机器学习的难度较大,门槛略高。* E" _! n _* k; x7 g' p& m& j5 a
这部分主要是了解数据挖掘和机器学习的基本概念和理论。比如:分类、聚类、回归、决策树、贝叶斯定理等。
& Q# g- R! J, _0 V) J2 \& G推荐书目:《数据挖掘概念与技术》;《机器学习》。
. ]4 R9 X5 O2 U! x同时选择性学习R或Python。
& f0 v0 S% B2 G0 I7 w$ h. ?推荐书目:《R语言实践》;《利用Python进行数据分析》。( `3 v" s# f8 @
语法只是基础,重要的是找一些具体的例子进行实践练习。: p9 O( |: P9 U" V( ?7 n
以上就是最最基础的数据分析基本技能了。
1 E4 k# J& K7 }4 n如果从零开始学习,可能需要3-6个月的学习时间。基础较好的话,2-3个月就能基本掌握。2 U9 F* G! d" E0 I( G' \
当然,要精通还需要大量的实践才能积累更多经验。- c% H9 i" {# F8 r5 O( Z! S
此时,你已经具备了面试数据分析师的基础,但是否面试成功还要找准目标和定位,以及行业知识储备和工作经营等。
2 \9 i/ p% v- H" E( d. @% \二、初级的数据分析会做哪些工作?4 r& X9 i: L: X! \+ ^2 T" N$ G
& [9 o& X+ K( ^: N, J
每一个数据分析师都有这样的理想,通过自己慧眼在数据的沙漠中找出宝贵的金子,或者自己的分析结果被决策层作为依据成功创造了大把利润。2 _% q9 B3 x, J' o$ X
但此时我们离这些目标依然有很长的路。- U# r* J. g) I5 H# I, i1 _9 s
初级的数据分析中最常见的工作有三种:数据提取、报表开发、撰写分析报告。- P" ^; E0 T( q
" F+ K$ T7 c) b! N- 数据提取将会是你的主要工作,也是一切分析的基础。* p0 A- r; O/ q' N# x( \
不夸张的说,大部分分析项目中80%的精力都在数据获取和加工的阶段。
1 _0 ~$ |. \& m" u$ j f从数据库中想尽一切办法把数据提取出来,看似并不复杂,但对你的SQL功力是个考验。
% u: N2 Y: h; }0 v有时候一个over函数可以节省几百行的代码,一段SQL的优化可以提高十倍以上的效率。所以踏踏实实的把数据提取做好,不要认为这个毫无意义。 _; L5 |' ]/ B- {
, K' F$ j$ m& K- A$ B- 当你可以高效准确的把数据提取做好之后,就可以着手进行报表开发的学习:将常用的数据提取固化下来,形成表格或可视化的图表。
8 m& H' _4 V8 e" |- K: K 这时候你会发现之前学习的Excel和数据库设计等知识要发挥作用了。5 G/ j+ g" l. P0 X8 r9 n0 e
需要进一步学习BI方面的基础知识,了解什么是星型模型、数据仓库、Cube等。推荐一本《数据科学与大数据分析》。
0 u. t; c4 }8 q+ `Excel也是可视化工具,但只能在单机上查看,所以更多时候会学习一些报表开发工具或可视化分析工具,比如:PowerBI、Tableau等。在网上可以搜到这些工具的视频教学,下载试用版自行练习就行。- a, ^6 _3 X/ }, W) y; U# F
) [3 R; i/ U& u
- 撰写分析报告,就是把众多报表组合成一篇可以让人读懂的PPT。$ o* n$ f: g8 N7 y7 p( T0 P
这时候考验的就是你的PPT功力了。一份好的分析报告除了简洁和漂亮的PPT,更重要的抓住主题、清晰的分析思路和有价值的结论。如果你还能够生动的把PPT的内容讲出来,那就更完美了。) k/ F5 A/ ]* Z( ?9 S' Q
做好了以上三个方面,恭喜你,你应该已经成为了一名略有小成的数据分析师。
! [ x4 |3 ~4 w* O4 S* t三、数据分析有什么小方向吗?
. D7 `& s. N5 R g& I$ H& ~
' E+ S6 Q/ a% G+ j数据分析的小方向比较多,分类方法也不尽相同。在这里我根据技术要求的侧重点不同,简单的划分为三个方向: S" `& C+ U: k. O6 @, c
1、BI方向6 h& b) e v. C/ L" k" `+ c# M
BI的概念已经出现很久了,但仍然不过时。 H$ g; ^6 t* W0 h$ ?' K
重点在于如何设计高效的数据模型,以及如何通过BI工具从多个角度观察数据,了解数据内部的规律。6 b& U, ^5 o% W
传统的BI工具可以满足大部分传统企业的数据分析场景。近些年随着分析工具功能日趋强大,大数据领域的BI平台也有了长足的发展。
( q* I* g( K' \所以我认为BI仍然具有强大的生命力。
) Y1 |( _/ U. o' o: p* t2、机器学习方向
) g- _) E! v8 Y: _; c机器学习与BI的区别在于,更多的依赖机器模拟人类学习的过程去发现数据内在的规律,构建一个数据模型,通过某些算法来预测未来的可能性。
5 s! k# F1 R: f/ o机器学习和深度学习概念非常火热,但相对入门门槛也较高,因为想真正理解那些算法的原理需要高等数学的基础。% V" M/ A& Q' w6 I
3、行业分析方向
( Q$ x ?4 X- ^- [还有一些数据分析师,仅仅通过一些公开的市场宏观数据,通过经济学和统计学分析方法,观察经济的运行状况,从而发现行业的经济发展规律,进一步预测未来行业发展的趋势。这个方向也很不错的,但是需要对统计和经济学有一定基础。
& f k9 V2 v9 Q1 S- M5 H# g四、想要深度做数据分析有怎样的建议
" ?; l9 ]1 j1 y3 \& N, l1 q0 x% ]. q* r7 f6 `0 Y; T: W
楼主想深度做数据分析领域,首先要认准自身的优势,参考上面列出的几个发展方向,选择其一进行深入的学习和实践。# [' N% l& U s7 e' T
如果楼主的计算机基础比较好,擅长SQL和BI工具,可以向着BI方向发展;
; B0 Q0 Q* G# P3 @, A# y* p" w如果数学基础比较好,可以考虑机器学习方向;
. ]7 M7 A. L! G1 n如果对所在行业的业务比较精通,也可以从事业务分析或行业分析方向。
4 x5 @" ^1 R- f做适合的和喜欢的最重要。不论哪个方向,都是要先掌握工具使用,了解你要分析的业务流程,培养独到的分析思维模式,锻炼自己的表达。
+ T4 t6 T" m* k* {9 w' G7 Z+ h五、统计的学习应该从哪里下手3 w( o8 j. ^! i6 {! C
3 L- N5 r7 g) W8 S
就我本人来说,基本就是看前面推荐过的那本《商务与经济统计》,并且在实际工作中要有意识的应用。* ]" o B. K! ~5 C. X: e+ q( j
比如,观察一批数据的时候,就可以用R先了解数据的均值,方差,中位数,极大值,极小值等等,通过绘制直方图来了解的数据分布情况、缺失情况等等。
2 J5 x; L4 `( _通过预测的场景,首先可以用线性回归来尝试,效果不一定比机器学习的算法差。
# M! O+ a( t9 T. W
2 V: }) }) s! w/ ~以上就是我针对楼主的几个问题做出的个人建议,供参考。
2 t7 C* A. k" d<hr/>相关回答:
( i) G1 }' E3 M7 I0 x数据分析入门及职业规划?
# |! o6 m) \; h, y' j K. h* R在数据分析、挖掘方面,有哪些好书值得推荐?
& _" |: M- y( J( v怎么培养数据分析的能力?. F* w" {- f: b! M
<hr/>我们与张登峰老师合作举办的live《数据分析师面试求职全攻略》,欢迎大家关注↓↓ |