再过5年或10年,大学里面批量生产出来的大数据毕业生会蜂拥进入职场,但那个时候,现在这批孩子大多数已经对数据有了足够的浸淫,也因此在公司里站稳了脚跟,将来那批孩子对他们冲击有限。另一方面,霉果目前对大数据的需求呈幂指数增长,大部分公司可以access海量数据,却完全是因为招不到affordable的大数据人才,才不得不scale back on their analytics needs 的。一旦市场上出现大量大数据人才,我的猜测是,底薪的水平不会降低,但公司招募的大数据分析员的数量会激增。
再说大数据里面的这些技法,比如machine learning,还有text mining。这些东西非常powerful,但并不那么好用,或者说至少不会比传统统计学技法和工具(比如SPSS, Matlab, SAS) 更好用。其实这些新东西因为是open source的,应该说比传统那些更难用些。之所以有些人说它们好用,完全是因为针对今日互联网上新出现的一系列data and business challenges,这些新技法有能力去应对,去解决,而传统的structured data和分析工具(比如我赖以为生的SAS)在这些新的挑战面前完全是束手无策!所以准确地说,不是这些新工具新技法更容易学习和使用,而是它们更厉害更powerful. 一个例子就是,亚马逊的数据系统里面有海量的reviews,那帮孩子(当然是对数据有过两三年浸淫的)就有本事develop a machine learning model to detect 来自中国的卖假货的商家,还有本事针对这些unstructured的数据做text mining,获得consumer sentiment方面的洞见,这样可以skip掉昂贵又天然biased不靠谱儿的survey questionnaire, focus group等等传统的市场研究手段,而基于实时的,更少偏见的,样本量=总数量(无须抽样)的数据获取更富价值的商业洞见。而这一切,对于传统的relational database and structured data,以及传统的统计学和分析手段来说,完全是不可想象的。之所以我觉得这个东西未来的需求极大,就是因为未来的商业行为和社交活动,主要都是依托网络发生进行,而人们在网上的商业行为和社交活动所蕴含的数据,于无数商家而言,都是无价之宝。