一点行业趋势杂谈

indy · 发表于 2022-5-4 13:02:59

波士顿金融嘉

最近Python ML 做了不少，发觉domain的知识有关键作用。把一个非常扎实的SAS glimmix 模型的11 个变量放到D NN里去，起点误差只有0.075，一会deep完了，停在0.05. 然后在同样数据上，没有任何variable selection，2000 变量深挖，装作什么都不知道，结果机选起点误差最好的一次是0.18，最差的一天居然是1. 经过深挖加层，重写optimizer，耗时多，最后最小误差0.077，也就是说比有expertise injection 的模型的起点还差一点点，而且过程过山车，也不清楚2000 个变量里哪个significant 来解释. 12 个变量到了0.05，实在不想花力气再榨那5%了

所以ML 将来的生活之路要光明起来，肯定要回到knowledge base，有literature的要inject research，软件要有稳定高质量的Bayesian priori implementation. 现在很多，尤其是Pharma的conference 和publication 已经绝收传统frequentist 的统计推断了，一定要Bayesian了，confidence interval 不行了要搞credible interval，这个潮流已经拍到了predictive model的门勘了. 所以Netflix 溃败了，LinkedIn 和FB 都在节节败退了，每个有domain 专长的，比如nonmem modeling, 是个很有油水的speciality，因为傻算肯定累死尽管数据不太大，样本过滤歪了什么都别算了。上次有位博后问我，说我在optum 干过，我说我不太懂你的stuff，不过可以介两个专干propensity score的SAS proc. 他R很好的，一拿SAS 就上了，然后把SAS learning 放到R去调了，起点很快高了很多

下一个要shake up 的就是无人驾驶汽车，不能用alpha go 那样去搞，现在看起来维一可能看得到这点的是马斯克，看他怎么过滤推特

其实alpha go 没有打败人类，人类只是在和alphago 比赛时蠢到了使用了有利于机器的规则，比如一分或者五分钟下一步.. 回到本格时代一小时一步，机器和人打平，人也赢不了但是不输. 人开车就是这样，宝贝儿不行开慢点了. 机器的腔调就是越开越快，那人就死了嘛，可是生活不是速度，对吧？google有点醒了再反醒，脸书还没有，amazon 现在有工会了，据说把律师fire，说没有利用公司ML power 去和工人谈… 机器哪里跑得过草根人民，Jeff 再离两次都不成

indy · 发表于 2022-5-6 02:31:46

波士顿金融嘉

三年前曾经有幸被邀去某明星公司面试，几轮过后有深入敌后的感觉，来了个team 面试. 有个年龄是我一半的人说要think out of box. 我就好好的问了一下：贵集团in-the box 是怎么样的描述一下可不可以？结果有个人说我们从来没有box的. 我心里说了一句那就是没规矩，不要没说什么. 静下来，过了一会儿他们明白了. 你没有box 定义，也就没有domain，干活就是极端自由主义。后来当然没去成，6个月后又来follow up，问我还available？我说你那box找到没有嘛？揪着盒子不放了. point：前几天也说过，定义问题的能力，把数据连到business的能力. 有朋友说我是空降师，落在哪里都可以生根的，其实是有条件的. 我觉得business analytics 你就要在那里酿的泡的，年久才可香可贵的.+ hands on的年纪没大关系。也才提到了阿法狗何以打败人类就是去那个domain 要看准游戏规则，看规则的确有年龄说的. 刚入行跳槽是正常的

indy · 发表于 2022-5-6 02:53:30

indy 发表于 2022-5-5 13:31
波士顿金融嘉

三年前曾经有幸被邀去某明星公司面试，几轮过后有深入敌后的感觉，来了个team 面试. 有个年 ...

说得多了有人会滴咕我依老卖老. 现状比SAS 独步时代好得多的是analytics 铺得很广，做的人很多，得益的领域比以前多得多了。所以我私底下觉得，你要是年纪偏大觉得没有优势或许是挪人太少自封的，这样子你自己是box 就要首先走出来. 你不走出来，酒香不怕巷子深的好事是很少了

indy · 发表于 2022-5-6 05:17:09

刚才某位提了很少put into production 多是research的setting，以前在的optum 就大致是这样的. 最不能出口的一个term，出口肯定触人心弦的： success criteria. clinical trials 这种area 我用远不回说这个term，因为那时科学，要命的科学. 可是claim analytics，三天一小presentation 七天一个deck，描啊描，飘忽走位是近若远，时时关注哪里有low hanging fruit 可充deliverable的就抓起来. 恣意汪洋轰轰烈烈，钱最多的都在搞实验show and tell的人那里，没几个在攻坚的，也不奖励你攻坚. 尘埃落定就裁人，千里孤坟，一坟一个billion地烧，反正Obama care 每月pay transfer 好多，finance 玩得转

越是大公司，越是会这样忽悠。不能用的research一个个，反而客户提的project，没人理。因为需要domain knowledge,需要设计study。结果客户也不来了，他们自己就关起门来自己嗨。也就是大公司，不差钱。

indy · 发表于 2022-5-8 20:14:01

一叶落而知天下秋，Meta都hiring freeze了,自然不要recruiter 了

这些年的recruiter就跟房产大热时候的agent一样，不需要技术，看见谁都群发骚扰，这种职业真的很low。。。

没有热钱,可能所有的agent都要受影响

indy · 发表于 2022-5-10 11:13:23

AI 退潮开始了，到时候就看银行里几个人屁上还有裤. SAS 是被银行里的IT 弄死的

现在这个disease 漫延到open source了

不，RF 绝对可以，这是ML 里唯一的例外，其它的都掉进了adaptive 这个设计上的战略陷井

创写RF的是个绝对可称大的统计学大师

NO，在clinical trial里RF很管用，对探讨方法论很有用处，但是几乎没人用adaptive 方法，GB 或者NN 讨论方法论method的

一个充分好的随机远胜枚举

和几个昏昏欲睡的人谈天摘要

一个好的模型在设计的时候究竞应该是怎样adaptive 的？

random forest这么神，在银行里应该有一定有位置。nn做图象识别是不是好些

现在是把pattern detection 和analytics 分开的时候了

在copy 一段来分享，你在倒上去问

95%artificial，5% intelligence

哲学根本上不一样的. 经典统计是选5-11 个通过层层考试的英雄变量来解决80-90% 问题，所谓stronger learner 哲学，几千年的学而优则仕。ML是weak learner，也就是每个变量在不通的space里contribute，然后综合. 这个模式在银行production 首先很costly，假定原来生成那-5-10 变量的200 个原始变量全都必须留在production里，肯定开销大了很多

替AI算的命是：如果你没有脑子，你的腿即使可以在一秒里转一百万次，也是不能替代脑子的，因为人脑已经到了纸的那一端，你无限逼近纸终不能破，人脑输给机器是因为太多的竞赛是按机器规则定的

今晚金句：我认出那是我妈，你个机器也认出来了，高中生也认得出的凭什么你就intelligent呢？还要哪么多钱，呸

为什么AI最后破不了和人间的那张纸？

有道理，能模仿人脑就不错了

indy · 发表于 2022-5-10 11:46:52

我把11 个变量放进DNN，它生出来8.9 million 系数.、去大西洋边，抓起一把滩沙，突然觉得那不就是那个8.9DNN吗？渣渣的湿湿的，基本肯定里面没有金子，唯一的是免费的. AI现在整个eco system 就像是沙滩. degree of freedom，yes. goal？ not necessary. 往外走，苦海无边.

tangotango · 发表于 2022-5-12 09:41:56

Netflix用大数据分析肯定会溃败。影视行业虽然是商业，但是其源头是艺术是创意，最初的创意可不是观众能想出来的。然后这些出现在艺术片里的创意被商业片不断通俗化并反复应用，最终成为了大俗套，于是行业又需要寻找新的创意。现在美国的大片基本没法看，因为只有俗套，没有创意，所有的桥段都被用了十几遍甚至几十上百遍了。

indy · 发表于 2022-5-12 23:39:00

各位朋友，需要十几个SAS license的小Pharma公司，有FDA submission。比较合理的SAS business solution有没有建议？联系SAS他们推荐life sciences

SAS服务器版本Office Analytics (OA)，适合于CRO和药企开展项目分析环境，在这之上还有SAS的集群版本，目前应用于global的药企与CRO公司，承担大量的工作负载任务。需要调度和负载管理。2015年，SAS推出了新一代的分析引擎SAS viya适合于云原生的一套分析环境，集成了最新的机器学习深度学习以及强大的可视化能力，在通用分析平台之上我们针对于生命科学行业专门开发了一款生命科学分析框架，我们称之为LSAF，是我们面向临床试验产业链推出的SAS运维的一套云分析环境，LSAF和viya无缝集成，实现生命科学全场景全覆盖的分析统一生态。

opensrc · 发表于 2022-5-14 01:08:07

indy 发表于 2022-5-12 23:39
各位朋友，需要十几个SAS license的小Pharma公司，有FDA submission。比较合理的SAS business solution有没 ...

SAS 太贵了，为什么不用 Python 呢？

indy · 发表于 2022-5-14 01:41:11

opensrc 发表于 2022-5-13 12:08
SAS 太贵了，为什么不用 Python 呢？

微信群里面有讨论，回头贴过来一起看看

indy · 发表于 2022-6-25 11:24:31

请问一下，老板要求我用nlp在text data, 然后把结果和另外的non text结合起来，最后用linear regression来fit一下。我现在用bag of word在text data,因为bag of word 结果可以产生meaningful的inputs。有谁知道embedding也可以产生meaningful的inputs, 而不是一个个vectors,无法向上层解释。谢谢。

你text data 的来源和non-text data 的来源是不是同根生的？不是同根生的话，merge 干嘛？立足于non-text data，永远不能从text data 开始，因为你永远是用 non-text data 来定义universe，也就是supervisor。同根生：如果你的universe 是一个custom segment， text data是他们的吗？是的话，一个customer ID 就行了，我看不出有什么可以究结的。要是text data 完全不是同根生的，那就要看具体情况了。你的老板肯定没有做过模型，想当然，因为即便是同根生的同一个segment里面的customer 的text data，你的match rate 肯定低了又低。我见过有的case，就download customer 所在地的FB 的 text message，用九节 zip-code 去match，结果还不如不要match的好。

假定你match上了，最不能用的是linear regression. 因为text element 的天敌就是regression， regression是为 structured data 生的。你可以勉强在 text extract上做个orthogonal rotation，然后去fit regression。讲到底，目的是什么? 解释？听众是什么人？你的老板，MyGod。不过现在大行其道的都是这种样子。很抱歉，如果我手上拿着这个案子，两个Email，八个bullet points turn 他down。或者就追下去，be specific, be specific…
我很不愿意写这种话，因为写了好像我在愤世疾俗了。你现在花一半时间写resume，一半时间应付老板，做不好没关系，不可为，老实说你做对了他也不知道。

不要去想embedding，要embedding 就弃掉non-text data，不要告诉我我拇指上有几根皱纹和大通银行风险管理系数有关系的

indy · 发表于 2022-6-25 13:08:44

indy 发表于 2022-6-24 22:24
请问一下，老板要求我用nlp在text data, 然后把结果和另外的non text结合起来，最后用linear regression来f ...

bag of words 实在套进哪个老式方法里，就是cohort analysis，不过成分是text bit token。 SVD 很花，不过我们既然连PCA都解释不了，SVD就不想了，其实根子还是你在做model还是只是在写算法. 现在觉得data science 在走向亲爱的万金油的归宿，饱受互联网无中心论的毒害，你有domain的，生统，生物，ccar，绝对抱住别放弃

有个小朋友问我投资AI是不是好，我说那是个通货膨涨最厉害的地方了，他马上晓得了。下面12 个月看看SAS公司到底值多少

最好的text 转换应该是factor machine，如果你想连non-text的话

indy · 发表于 2022-6-26 05:20:41

text data 和non text data 是同源的，两者之间可以用id来merge.用bag of words的原因是因为最后variables要有可解释性，不能是一系列vectors。因为是银行，最后model要有可解释要被audit，不能是black box.现在text data用了bag of words之后，adj R squre很弱，我担心最后和non text data merge之后，那些text data的variable变得non significant了。你说的对，我老板是没多少统计背景。谢谢。

indy · 发表于 2022-6-26 05:20:58

Text data 做predictor 方面，要照顾解释，可以考虑不用做任何PCA，rotation，factor machine, factor, 之类的转换了，直接用frequency, frequency distribution, weight 做。这么做要花点时间purge无用词的，因为你不rotation to extract 了。这个要有点耐心的，也是iterate 的，不过也不用象长期项目，不用搞成字典。

Match: 你的non-text data如果是 one-line-per-ID 的话，和 text data match 就是 one-to-one 还是 one-to-match. 这是个很好的麻烦，因为你是同根生的，有common ID。 Many to many 肯定不行的，那么哪边是One 要想想的。传统多的是non-text这边已经是 one 或者说你缩到 one ID per line 代价不大。你要是把text data 缩成 one-line-one ID, 是把鱼里面大多数营养的都废掉了，也就是把text data里面 non-text data没有的削足适履削掉了。保持text-data multiple line 呢，造成non-text data repeating variable的现象。所以呢理象状态是 1. Non-text尽量少用 attribute 2. 多用behavior data。 3. 最好找个第二第三个matching key 可以对text data的。这里你如果把 text data 的，比如 time stamp，整合起来去match non-text的第二第三key 是合理寻常的。

Supervisor， the left side of the equation: 你已经说了linear regression，那 supervisor 就是连续的。在定义严格成熟的建模里我们通常没有额外好处，在嫁接text-data 里改进潜力很大，也就是 optimize supervisor, log, sqrt 之类的. 因为你要解释，所以不要走得太远。现在市面上supervisor ML 弄得很花的也很常见，要点是不管你supervisor 如何 transform 同optimize，要解释你必须能够翻回到原来的scale。花的ML是做不到的，所以你supervisor 的 transformation 也就是monotonic 那几种，应该试的。

Modeling： text data 用的时候在有关解释方面，有 resolution的说法。大白话就是，你去fit 可以喂进去 30，60，90，120 frequency columns, test 不同的fitness，这里你的validation其实不是 holdout sample 等等做法，其实就是你是的解释，解释了。哪个resolution 帮你的解释最好，就停在哪个上。+：如果你的数据有条件，考虑，至少可以test 一下，用词的mutually exclusive, 也就是专词专解。不过这是可遇不可求的，overlap 一些词是很正常的。

		自动登录	找回密码
密码			注册

[转贴] 一点行业趋势杂谈

本帖子中包含更多资源

评分