现如今大数据行业如雨后春笋一般,苗头已起一发不可收拾。国内 IT 、通讯、行业招聘中,有 10%
都是和大数据相关,且比例还在上升。巨大的人才缺口直接导致各企业纷纷以高薪聘请大数据人才

据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅 46 万,未来 3 - 5 年内,大数据人才的缺口将高达 150 万,而在 BAT
企业招聘的职位里,60% 以上都在招大数据人才。

高薪的背后是人才的紧缺,有机构对一线城市 2018
年国内科技领域热门职位薪酬范围、及跳槽涨幅进行了预测:大数据方向由于人才稀缺度较高,相同工作年限的情况下,大数据工程师的薪资普遍更高,待遇涨幅也会超过其他岗位。

随着大数据的爆发,中国 IT 业内环境也将面临新一轮的洗牌,不仅是企业,更是从业人员转型可遇而不可求的机遇。如果将 IT
人士统一比作一条船上的海员,大数据就是最大的浪潮,借浪潮之势而为之,可成功从 IT 程序员转型成为大数据专家。


好了,首先我们定义自己的角色,对自己有一个精准的认识。比如拿笔者来说,对自己的定位是:“我是一名计算机专业毕业的工程师,有一定的数学基础(特别是在微积分和线性代数方面),但数理统计和概率论部分不是我的强项。”另外最好别打肿脸充胖子,如果之前没什么经验,承认自己是菜鸟也没事,关键是找准自己的定位。

确定自己的定位后,我们需要对应到特定的大数据角色,以下是一些基本法则。

如果您具有良好的编程基础且深入了解计算机的交互方式以及互联网底层技术原理,但数学和统计学掌握得不深,那么大数据工程可能是您今后学习的方向。

如果您有一定的编程基础(掌握一些高级语言,如Python等),同时又有很强的数学功底,那么大数据分析可能是您努力的方向。

学习路线

不管您属于以上哪种角色,有一些大数据理论知识是您必须要掌握的,它们包括但不限于以下这些。

数据分片与路由:挑一个典型的分区算法去学习,比如一致性哈希算法(
https://en.wikipedia.org/wiki/Consistent_hashing
<https://en.wikipedia.org/wiki/Consistent_hashing>)。

备份机制与一致性。

学习国内被奉为“圣经”但在国外也就一般的CAP理论(https://en.wikipedia.org/wiki/CAP_theorem
<https://en.wikipedia.org/wiki/CAP_theorem>)。

幂等性(Idempotent),很多分布式系统状态管理的基石(
https://mortoray.com/2014/09/05/what-is-an-idempotent-function/
<https://mortoray.com/2014/09/05/what-is-an-idempotent-function/>)。

各种一致性模型:强一致性、弱一致性、最终一致性。

备份机制:主从的叫法已经不怎么流行了,当前更酷的叫法是Leader-Follower模式。

共识协议:国内通常翻译成一致性协议(consensus protocol)。学习常见的Paxos和Raft协议。

算法和数据结构。

LSM:学习其与B+树的区别以及优势是什么。

压缩算法:了解一个主流的压缩算法,比如Snappy、LZ4。另外Facebook最近开源了新一代的压缩算法Zstandard,据说可以完爆一切主流压缩算法。

Bloom Filter过滤器:大数据下O(1)的过滤器。

无论是学习大数据工程还是大数据分析,这些理论知识都是必要的,因为它们是设计很多分布式系统必备的技能。下面我们就针对不同的角色设计不同的学习路线。

大数据工程师

对于大数据工程师而言,您至少要掌握以下技能。


一门JVM系语言:当前大数据生态JVM系语言类的比重极大,在某种程度上说是垄断也不为过。这里笔者推荐大家学习Java或Scala,至于Clojure这样的语言上手不易,其实并不推荐大家使用。另外,如今是“母以子贵”的年代,某个大数据框架会带火它的编程语言,比如Docker之于Go、Kafka之于Scala。因此笔者这里建议您至少要精通一门JVM系的语言。值得一提的,一定要弄懂这门语言的多线程模型和内存模型,很多大数据框架的处理模式其实在语言层面与多线程处理模式是类似的,只是大数据框架把它们引申到了多机分布式这个层面。

学习Java或Scala以及Python

语言有了,那么工具呢?当然工具也会有。

现在工具也有了,就该开始学习了。学习的话就需要教程,这个时候此处应有教程。

教程这里是没有,但是有资料,大数据资料免费领取,走过路过不要错过。少侠你看这串神秘的数字:862879153
,它像不像你待会要去加的那个群。Hadoop,hive,MapReduce,spark,kafka,HBase, ES,Impaala,等等

项目实战包含:用户行为分析(1·2),实时交易监控系统(1·2),推荐系统理论实战(1·2)等等等等,应有尽有。



结束语,DT
时代来得太突然了,国内发展势头很猛,而大数据相关的人才,却非常的有限,在未来若干年内,都会是供不应求的状况,指望大学培养出合格的大数据人才,有如天方夜谭,因此程序员们,你们的春天到了!

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信