TA的每日心情 | 郁闷 2022-6-19 00:00 |
---|
签到天数: 2264 天 [LV.Master]无
|
本帖最后由 煮酒正熟 于 2019-11-24 12:30 编辑
尹立庆拿天猫的高拟合为证据说天猫销售额造假,这个确实太武断了。他也许确实是做数据的,但同样是做数据的还有个天份和后天经验的高下之别。天猫的这个东西是time series,自变量只有一个,就是年份;而且天猫网购还处于“前平台期”,在这个阶段的销售额肯定是节节高,你让个初中生来看看这些年的数据让他蒙一下2019的销售额估计也不会差很多。但是我们现实中遇到的销售额确实较少见到连续这么多年,年年都增长的。
确实有,比如我记得2007年霉果某知名fashion retail brand 的 CEO 因为当年首次实现网购一百万美元而欢呼雀跃,如果你把这个公司从2007-2018的网购销售额plot出来,也和天猫差不多。但这样的情况毕竟是非常非常少,比如同样是这家公司,你把它从2007-2018的总销售额 (线上+线下)plot 出来,它绝对不可能是一直增长的,你无论那什么函数或者复合函数去拟合都很难贴近 100% R-squared.
所以尹立庆的指责所采用的证据虽然是错的,但他对于现实数据的整体感觉并不错,在现实的销售数据中你能够用简单函数就能做到99%以上拟合度的情况,确实是比较少的。我自己就亲手做过我们公司过去7-8年的年度销售plotting,因为有两年下降,有一年暴增,导致一般的函数比如 linear, univariate quadratic, exponential, square root, log 等等都无法达到很好的拟合
其实最最关键的问题是,高拟合有吮马用?高拟合 = 准确预测?如果为了解释已经发生的事情,那是在做一个解释型的模型,这种情况下你可以尽情地往里面扔features,以最大限度提高拟合度(R2),但是这种工作基本上没有太大 value adding。真正需要的是 predictive model,这种情况下过于追求高拟合度反而可能导致 overfitting,进而导致 the model does not generalize well on new auidence
正因为对于样本不随机容易导致overfitting的问题,机器学习里才会搞出 n-fold 这种“平均主义”,虽然降低了拟合,但不会在generalize的时候出现悲剧性结果 |
评分
-
查看全部评分
|