爱吱声

标题: 独角兽的统计小抄 [打印本页]

作者: 独角兽    时间: 2019-11-20 14:35
标题: 独角兽的统计小抄
煮酒师兄的一个帖子掀起了热烈的讨论我也从中学习了不少,更重要的是发现自己知识中的一个漏洞。于是回过头去看看自己是怎么学习的。再温故知新一下。这里就抛一个去年曾经用一个小时给一个想学data science 的本科生讲统计时我自己写的两张纸。我想我应该再稍微修改一下,然后再加一张纸来总结一些应用方面的点。就在这里给自己留个作业吧。






作者: 数值分析    时间: 2019-11-20 17:48
收藏了,下次考试用得上。
作者: 数值分析    时间: 2019-11-20 17:55
我觉得在谈论总体的时候可以用“数学期望”代替“平均”的说法,这样方差就是E(X^2)-E^2(X)了。
作者: pcb    时间: 2019-11-20 21:09
你觉得那个本科生搞明白真值和平均值的区别了么?
作者: 晨枫    时间: 2019-11-20 22:52
还好再也不用考试了!自由万岁!
作者: 齐若散    时间: 2019-11-20 23:39

作者: 松叶牡丹    时间: 2019-11-21 00:13
上学时候当年有一门课是review 各种已经发表的journal article,review工科博士们的paper的时候基本上从统计方法应用上找可以找到一半用了错误的统计方法。记得有个非统计专业工科生最常犯的错误就是A/B test里面用t-test代替proportion test。
作者: 独角兽    时间: 2019-11-21 15:51
数值分析 发表于 2019-11-20 17:55
我觉得在谈论总体的时候可以用“数学期望”代替“平均”的说法,这样方差就是E(X^2)-E^2(X)了。 ...

中文会说期望和平均值,但是英文都可以用mean 说明。感觉average有点low,我们还不知道期望这个概念的时候就知道平均值,所以比较熟,正好对应average。而期望当然还可以用E表示。
作者: 独角兽    时间: 2019-11-21 15:54
pcb 发表于 2019-11-20 21:09
你觉得那个本科生搞明白真值和平均值的区别了么?

我是开始就强调了population 和sample的区别和联系了,不然小抄也不会那么写。至于学生有没有get到,那我就管不了了。修行在个人。她上过统计课,但是对这些知识的把握还一头雾水,不是啥学霸型的。
作者: 煮酒正熟    时间: 2019-11-22 13:00
独角兽 发表于 2019-11-21 02:51
中文会说期望和平均值,但是英文都可以用mean 说明。感觉average有点low,我们还不知道期望这个概念的时 ...

mean, average, expected value 的关系

首先,mean and average 的含义完全一样。可以说在含义上没有一丝一毫的差别。注意,我是说在概念上,在含义上,完全无差别

碳素在应用中有一点点差别:
1. average 是个layman term,口语化,而mean只有统计学家或者不是统计学家碳素想装大以巴狼的货们才会用
2. 一些programming language会有不同的处理。如果你的数据里有 missing value,那么mean会完全无视这个数据,而只用有价值的数据来计算平均值,但average会把missing value视作0。所以我在写SQL的时候会精准地告诉SQL exactly what I want:
select sum(case when age is not null then age end)/count(distinct case when age is not null then member_id end) as average_age
--------------------------------

废话说完,下面讲重要的废话 ---
expected value 和 mean 是两个不同的概念。这一点一定要闹清楚

mean 就是一个数学计算出来的结果
expected value 是我们想对一个数据集的某个特征做一个最中庸的认知和描述。通常情况下我们用 mean 来作为expected value

不能因为我们认为地设定 expected value = mean,就说这俩是一码事

作者: 独角兽    时间: 2019-11-22 16:30
煮酒正熟 发表于 2019-11-22 13:00
mean, average, expected value 的关系

首先,mean and average 的含义完全一样。可以说在含义上没有一 ...

是哦,我一直把population的mean想成期望,把sample 的mean叫均值。觉得均值是一个个数据算出来的,期望是估出来的。其实算概率的时候用期望(E)用得多。
average果然low,哈哈。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2