|
Text data 做predictor 方面,要照顾解释,可以考虑不用做任何PCA,rotation,factor machine, factor, 之类的转换了,直接用frequency, frequency distribution, weight 做。这么做要花点时间purge无用词的,因为你不rotation to extract 了。这个要有点耐心的,也是iterate 的,不过也不用象长期项目,不用搞成字典。
Match: 你的non-text data如果是 one-line-per-ID 的话,和 text data match 就是 one-to-one 还是 one-to-match. 这是个很好的麻烦,因为你是同根生的,有common ID。 Many to many 肯定不行的,那么哪边是One 要想想的。传统多的是non-text这边已经是 one 或者说你缩到 one ID per line 代价不大。你要是把text data 缩成 one-line-one ID, 是把鱼里面大多数营养的都废掉了,也就是把text data里面 non-text data没有的削足适履削掉了。保持text-data multiple line 呢,造成non-text data repeating variable的现象。所以呢理象状态是 1. Non-text尽量少用 attribute 2. 多用behavior data。 3. 最好找个第二第三个matching key 可以对text data的。 这里你如果把 text data 的,比如 time stamp, 整合起来去match non-text的 第二第三key 是合理寻常的。
Supervisor, the left side of the equation: 你已经说了linear regression, 那 supervisor 就是连续的。在定义严格成熟的建模里我们通常没有额外好处,在嫁接text-data 里改进潜力很大,也就是 optimize supervisor, log, sqrt 之类的. 因为你要解释,所以不要走得太远。现在市面上supervisor ML 弄得很花的也很常见,要点是不管你supervisor 如何 transform 同optimize, 要解释你必须能够翻回到原来的scale。花的ML是做不到的,所以你supervisor 的 transformation 也就是monotonic 那几种,应该试的。
Modeling: text data 用的时候 在有关解释方面,有 resolution的说法。大白话就是,你去fit 可以喂进去 30,60,90,120 frequency columns, test 不同的fitness,这里你的validation其实不是 holdout sample 等等做法,其实就是你是的解释,解释了。哪个resolution 帮你的解释最好,就停在哪个上。+: 如果你的数据有条件,考虑,至少可以test 一下,用词的mutually exclusive, 也就是专词专解。不过这是可遇不可求的,overlap 一些词是很正常的。
|
|