TA的每日心情 | 慵懒 2019-4-30 09:37 |
---|
签到天数: 532 天 [LV.9]渡劫
|
本帖最后由 就爱抬杠 于 2012-6-26 21:26 编辑 % a2 b/ U" x0 C3 z
9 e5 P+ P" p# M- m+ _ 如果我们要传递一些信息,应当具备什么样的条件和过程?首先应当有一个发送者,其次他有话要说,这就是信息;再次,应当适当编码,是说英语、汉语还是莫尔斯电码?编码完成后,就得找到适当的媒介或者专业点说叫做信道,写在纸上、用电报发出去还是用嘴说甚至用旗语?信道其实是一个很重要的问题,汉语演变到今天,书面语的变化远比口语的变化大得多,这主要是因为书面语的信道从甲骨、竹简、纸张一直演变到今天的电子方式,而口语的信道基本没什么大的变化。有了发送者,当然得有接受者,接受者要做的工作就是解码。然后,信息并不是孤立的,还有一个上下文的问题。+ x6 ?* Y# B2 X' V1 O6 [9 v, t/ D
2 p4 M. ~* M0 Q) {, p0 Z
发送者、信道、接受者、信息、上下文和编码被称为通信的六大要素,其实人类的语言和通信并无本质的不同。既然如此,也就意味着可以用处理通信用的手段和规则来处理人类的语言。到了今天,这似乎已经成为自然而然的事情,不过科学家认识到这一点,却花了几十年的时间。
- K: N! M1 F8 t* @4 B# @3 h5 ?0 T7 O8 G; _6 I% g* Y R2 k6 x( L; A* \
在漫长的历史里,人们早就自觉不自觉地用到了一些通信方面的知识和原则来处理语言:各种语言一般来说都是常用字词简单,生僻字词复杂;犹太人居然早就发明了用一个字母对应一个数字,纵横各自相加得出校验码的方法来校验抄写过程中的错误。+ l- f5 y/ A' A+ w, E5 Y
7 }2 _. g% n* k从字母到词可以叫做词的编码规则,从词到语言可以叫做语言的编码规则,或者说语法。词的编码规则相对固定,而语法则不然,总是语言学家对大众谆谆教导,这样说是不对的,是不合语法的,试图用语法来规范语言的使用。最终,他们都像那个买履的郑人一样,被世人所嘲笑。语法的作用在于归纳大家都怎么说,而不是教导大家该怎么说。最热衷于语法的无过于学习语言的外国人,他们恰恰是语言能力最差的那个群体。
) { ?" j2 a7 _+ N- m + g, Z# v& |- P9 K$ c$ Q3 o
在计算机能力还不够发达的时候,要让计算机理解人类的自然语言,人们首先想到的是把语法规则输入进去,也就是所谓基于规则的自然语言处理。一个普通人看到计算机能够理解所谓的“高级”程序语言,会觉得计算机理解人类语言已经指日可待了。但所谓计算机程序语言语法规则明确且没有例外,所有的词汇和上下文都没有关系,这些条件都是人类语言所不具备的。人类语言的语法规则会随着语言分析量的增加而以指数程度激增,很多词的理解需要上下文才能确定,甚至需要一定的常识才能确定。这对学母语的人来说不是问题,对计算机甚至对于外国人来说却是困难之极,这条路终归是失败了。
( [2 ?% E8 }' b* h) F$ E |
|