老兵帅客 发表于 2016-1-26 11:01:44

本帖最后由 老兵帅客 于 2016-1-25 22:09 编辑

煮酒正熟 发表于 2016-1-25 21:44
老兵对大数据的了解似乎有待加深啊... 数据科学家的工作,说到底,有较大艺术成份。诚然,拉数据(data qu ...

刚才我抽时间看了一下大数据相关的事情,感觉就是云计算、分布计算基础上的data mining,而data mining的关键在于算法,也就是通过特定的算法找出data pattern来。云计算、分布计算本身没多少大数据从业人员的空间,那本质上不过是硬件投资。个人能做的不过是基于这样的硬件环境写分布式应用程序,但是核心的算法是关键,也就是你所说的建模。

这里的问题在于有多少人能做到那个高度,我是不相信人人生来平等这种政治正确口号的,而是相信机器做的比绝大多数从业人员做的都要好。这点很残酷,但却是现实,微软和oracle都在这方面下功夫。因此,现在的这个大数据热潮本质上很像当年的网络计算机,听起来很美,现实中则只是网络打印机控制器罢了。

我相信你所说的艺术这个词汇,正是这个问题使得很多人没办法从技术热潮里获利。事实上,我是相信软件开发也是艺术一种这种似是而非的想法的。一个最简单例子,我在这边的一家公司所开发的那个代码产生器,说好听点叫做编译器,在我离开以后就没人能维护。原因不复杂,他们找不到能明白我那个东西的模型的主儿,虽然我已经写好了足够的文档。编译器这个东西,任何CS本科念的还行的应该能明白它的工作模型,我待过的那家公司不缺这方面的动物,但就是找不出一头来搞明白我的程序。对了,那家公司的软件人员有上千呢,不乏科班出身的。

正是这种智力上的差距使得很多人的投资是没有意义的。

晨枫 发表于 2016-1-26 11:09:40

本帖最后由 晨枫 于 2016-1-25 21:11 编辑

煮酒正熟 发表于 2016-1-25 19:42
大数据和当年的web developer很不一样。web developer有吮马根基啊?纯属花拳绣腿。今天的大数据则是有根 ...

统计我学过点,机器学习也能蒙个大概,Access也玩过一点点,但老酒给说说吧,这个数据到底是怎么回事?

老兵帅客 发表于 2016-1-26 11:10:53

晨枫 发表于 2016-1-25 22:09
统计我学过点,机器学习也能蒙哥大概,但老酒给说说吧,这个数据到底是怎么回事? ...

简单地讲就是data mining,不过是分布式的。这里的关键是建模,然后用算法找出data pattern来。

晨枫 发表于 2016-1-26 11:13:37

老兵帅客 发表于 2016-1-25 21:10
简单地讲就是data mining,不过是分布式的。这里的关键是建模,然后用算法找出data pattern来。 ...

那怎么解决数据的相关性和causality问题呢?

老兵帅客 发表于 2016-1-26 11:17:46

晨枫 发表于 2016-1-25 22:13
那怎么解决数据的相关性和causality问题呢?

我以前做过一些data mining方面的事情,通过适当的建模和数据选取可以有效地减少你所说的问题,但是代价则是如何判定这些,这就是老酒所说的艺术了。

holycow 发表于 2016-1-26 11:32:31

晨枫 发表于 2016-1-25 19:13
那怎么解决数据的相关性和causality问题呢?

模型只解决相关性,不解决因果性。解决因果性的是人脑袋

煮酒正熟 发表于 2016-1-26 11:35:59

老兵帅客 发表于 2016-1-25 22:01
刚才我抽时间看了一下大数据相关的事情,感觉就是云计算、分布计算基础上的data mining,而data mining的 ...

软件开发当然是艺术性的活动(虽然我没做过)。

你第一段说的那些,不错,都是大数据范畴,而且你说的也都对,云计算, mapreduce这些属于硬件范畴,很多公司(比如我们这里)为了解答全新的商业问题,而不得不建立能够处理天文数量的数据的全新的数据系统(Apache 的 Hadoop),这一块产生了大量data architect 和 data engineer职位的需求。这个也算是大数据时代带来的工作机会吧,不过这一块是暂时的,不太能sustain.比较能持续的是 data science 的从业人员,有点儿类似于软件工程师吧。这一块,说到底,实际上是商业问题研究的一个延伸,是商业向数据要答案的这样一个延伸。由于这个商业本质(商业 近乎 艺术),要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察,这种东西就很难被自动化程序所取代。你提到的算法,也许就是我说的machine learning?这一块... 比商业问题更容易被程序化,当然也不太可能是这三五年内会发生的。

老兵帅客 发表于 2016-1-26 11:43:12

煮酒正熟 发表于 2016-1-25 22:35
软件开发当然是艺术性的活动(虽然我没做过)。

你第一段说的那些,不错,都是大数据范畴,而且你说的也 ...

一个疑问,“要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察”,这种经验应该是与行业密切相关的,因此从业人员跨行业将会遇到经验无效问题,这个怎么解决?

举个例子,图书出版业与银行业和保险业,它们之间我是看不出有多少相似性来。银行的用户账号关联度与出版业的图书作者与畅销书关联度就没有任何关系。

煮酒正熟 发表于 2016-1-26 11:52:04

晨枫 发表于 2016-1-25 22:13
那怎么解决数据的相关性和causality问题呢?

神牛说的对。模型只能找出存在相关性的因素来。比如最常见的general linear model,左边一个y,右边一长串x.人脑的作用就是确定什么是y.比如我知道我2016年1月份有五百万人买我的医疗保险,我可以做两个预测,一是这五百万人,哪些人会在下个月就跟我说拜拜,哪些人会在三月份说拜拜... 以此类推,这就是所谓的survival prediction.另一个预测是,这五百万人,人均每月会产生多少医疗和医药费用。

对前一个预测,number of months they'll stay with me 就是我的y.其他的,他们的年纪,他们已经在我这儿呆了多少个月,他们有没有慢性病.. 等等,就是我的x.如果一个人,是我多年的客户,而且有慢性病,另一个人今年1月份才成为我的客户,而且年轻,身体健康,那么显然前面那个人比后面这个人更有可能呆的时间更久(因为这个人有病,经常需要看医生,而他呆了这么多年都没换保险公司,说明他对我们公司提供给他的network比较满意,如果硬换保险公司,他没把握新保险公司提供的network和我们的一样好)。谁可能导致谁,这个是人脑做出的判断。建模,是要在人脑做出这些商业性的也是艺术性的判断之后,才能开始的。

holycow 发表于 2016-1-26 11:59:53

老兵帅客 发表于 2016-1-25 19:43
一个疑问,“要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察”,这种经验应该是与行业 ...

做企业级应用的人,不管做不做大数据,市场价值都是两部分组成的:技术能力和行业经验。因此你这个问题对企业级应用的从业人员都成立。

换行当有的经验是可以举一反三的,有的是要重新学习的,这个没什么新鲜的。我的经验是换跑道的时候要么依托同样的技术转换行当,要么依托同样的行当学习新技术,一下子跳两步比较危险。

煮酒正熟 发表于 2016-1-26 12:04:55

晨枫 发表于 2016-1-25 22:13
那怎么解决数据的相关性和causality问题呢?

上面那个例子是基于传统的商业问题的回答。对于这种问题,传统的建模手段就是经典统计学的(比如SAS)。现在大数据如日中天,大数据范畴中的machine learning开始挑战经典统计学,于是也有人开始用machine learning这种算法来建模。在模型的预测准确性方面,以我的观察,两者互有胜负。当然,现在是大数据时代,你更容易听到machine learning KO classic statistical modeling的故事{:206:}
这是预测准确性方面。但在 transparency 方面,machine learning处于劣势,因为它无法如经典统计学那样,告诉你,holding everything else equal, 假如你的慢性病数量从0增加到1,你未来留在我们公司的月份会增加3.781个月... 根本原因就是,machine learning不关心why,而只是告诉你他们之间相关

问题是,来自网络的大量新兴商业问题,根本就不关心why,而只在意相关性。在这种情况下,machine learning就没有劣势。而经典统计学模型不喜欢有太多x的特点,令其在应对网络相关的新兴商业问题时,预测性不佳。

晨池 发表于 2016-1-26 12:19:50

煮酒正熟 发表于 2016-1-25 01:49
半个数据科学家只有人家一半儿的工资,和各位同学一比简直是弱爆了 ...

那就发半个红包好了

煮酒正熟 发表于 2016-1-26 12:28:56

本帖最后由 煮酒正熟 于 2016-1-25 23:32 编辑

老兵帅客 发表于 2016-1-25 22:43
一个疑问,“要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察”,这种经验应该是与行业 ...

的确存在这个问题。所以一般跳槽的话,大多还是在自己熟悉的行业里面跳。但是如果你对某类数据分析和商业分析非常熟,那么跨行业跳槽的时候,只要是新东家很需要你的这种数据分析和商业分析技能,那么就会好很多。当然,行业变了,数据都需要从头开始学,这个是逃不掉的。俺自己就是从信用卡和贷款风险管理这些跳到医疗保险业的,前两年也是非常苦,要花大量时间学习这一行里面的数据

晨枫 发表于 2016-1-26 13:01:29

老兵帅客 发表于 2016-1-25 21:17
我以前做过一些data mining方面的事情,通过适当的建模和数据选取可以有效地减少你所说的问题,但是代价 ...

我没有做过商业性的建模,就过程建模而言,数据的相关性和因果性是不可能通过建模和数据选取做到的,这是本质的。商业上的大数据里是怎么通过建模和选取做到的呢?比如说,把所有股票和经纪人的行为统统数据化,依然不可能分析出股票的走向,因为经纪人的行为与股票的表现是互为因果的。数据里没有足够的自由度。

晨枫 发表于 2016-1-26 13:02:37

holycow 发表于 2016-1-25 21:32
模型只解决相关性,不解决因果性。解决因果性的是人脑袋

模型只解决输入数据和输出数据之间的相关性,对于输入数据内在的相关性还是抓瞎;因果性不来自人的脑袋,而是实验设计。

晨枫 发表于 2016-1-26 13:12:13

煮酒正熟 发表于 2016-1-25 21:35
软件开发当然是艺术性的活动(虽然我没做过)。

你第一段说的那些,不错,都是大数据范畴,而且你说的也 ...

说到底,实际上是商业问题研究的一个延伸,是商业向数据要答案的这样一个延伸。由于这个商业本质(商业 近乎 艺术),要求从业人员对商业问题与数据之间的转化和关联有深刻和细微的体察,
哈,这就和我的理解差不多了。我对这些机器学习、人工智能从来不相信,they have their places, but they are no magic。因为自控里50年前就把这路走过一遍,现在已经形成共识:there is no math-magic。任何人要是兜售“我这个先进控制可以不需要对过程的理解,先进数学可以自动形成可靠的控制”,马上把他打出去,骗子一个!自控里有一个东西叫自适应,就是非常初级的机器学习、自我调整,但这条路走得越深,越发现这只是把问题重新包装一下,原来没有解决的问题换了一个形式还在那里。数学控制理论里有一个“不变性”的说法,你可以绕过来绕过去,但问题的本质是“不变”的。我是没有干劲在理论里钻进去,也没有这个金刚钻,但自控里有一个可控性的概念,如果系统是不可控的,不管你用什么控制方法,都不可能控制系统状态。人工智能能做到的是更快,但不可能理解或者超越人类思维的突变性。深刻理解和细微观察的作用在于最终导致突变性思维,灵机一动,这是机器学习不可能做到的。

晨枫 发表于 2016-1-26 13:18:02

煮酒正熟 发表于 2016-1-25 21:52
神牛说的对。模型只能找出存在相关性的因素来。比如最常见的general linear model,左边一个y,右边一长 ...

你这些都没有问题,模型就是界定输入数据和输出数据之间的相关性的,问题出在输入数据集内部存在相关性。换句话说,一大堆数据中,其实只有很少几个是独立的,其他都可以看作这几个独立数据的某种组合(简单的就是线性组合)。这种情况对于大数据经常存在。比如说,我们用工艺条件回归产品质量模型,过程参数(温度、压力、流量、组分)每分钟一个数据,一年下来何止千万,问题是这些工艺条件大部分是围绕这有数的几个产品,每个产品有一组特定的工艺条件指标,所以大量数据都是相关的,实际上可用的数据量很少。这就是输入数据的相关性问题。我们没有什么办法解决,如果我一共只有5个产品,把一年200万个数据点输进去,实际上还是这5个点,把10年的数据输进去,也是这5个点;不知道商业上有什么好办法吗?

晨枫 发表于 2016-1-26 13:23:05

煮酒正熟 发表于 2016-1-25 22:04
上面那个例子是基于传统的商业问题的回答。对于这种问题,传统的建模手段就是经典统计学的(比如SAS)。 ...

classic stats我的理解就是parametric modeling,machine learning是non-parametric的吗?可以和神经元类比吗?神经元我也玩过,最大的问题是在数据点上拟合精度很好,但既不能内插,也不能外推,行为太不可预测。我们还用过co-linear analysis,也叫parallel coordinates或者geometric process control,也是一样的问题,只说明相关性,不说明因果性,貌似强大,真要靠它解决问题,就抓瞎了,因为对相关性的解释取决于对因果性的主观认识。

holycow 发表于 2016-1-26 13:23:31

晨枫 发表于 2016-1-25 21:02
模型只解决输入数据和输出数据之间的相关性,对于输入数据内在的相关性还是抓瞎;因果性不来自人的脑袋, ...

你这个是自动控制的角度,大数据的model的用处,是present给决策者各种相关性,这些相关性当然是因果性的candidate,然后决策者在从里面看哪些是真的因果性。

然后还有老酒说的,我只care相关性,不care因果性。比如说我不需要知道油价跌和股市跌之间到底谁是因谁是果,抑或两者都是强美元的果。如果我的模型告诉我油价和股市几乎等于1的正相关,我就可以反做两个市场来对冲,或同向做两个市场来放大收益。这是数量基金的基本原理,当然每次相关性反转的时候总会死一批人{:198:}

晨枫 发表于 2016-1-26 13:25:31

holycow 发表于 2016-1-25 23:23
你这个是自动控制的角度,大数据的model的用处,是present给决策者各种相关性,这些相关性当然是因果性的 ...

哈,抬头往上看58楼。{:187:}

有点理解为什么花街那么screwed up了。
页: 1 2 [3] 4 5 6
查看完整版本: 美国最好的工作