9 Q2 k" {( r. e 发送者、信道、接受者、信息、上下文和编码被称为通信的六大要素,其实人类的语言和通信并无本质的不同。既然如此,也就意味着可以用处理通信用的手段和规则来处理人类的语言。到了今天,这似乎已经成为自然而然的事情,不过科学家认识到这一点,却花了几十年的时间。0 y8 L5 E6 ^4 F; P
# `! Y2 u4 e* T' l3 G$ N0 K在漫长的历史里,人们早就自觉不自觉地用到了一些通信方面的知识和原则来处理语言:各种语言一般来说都是常用字词简单,生僻字词复杂;犹太人居然早就发明了用一个字母对应一个数字,纵横各自相加得出校验码的方法来校验抄写过程中的错误。 . G2 `) d) y) {' s- P( G4 Y % D' A$ M# M$ T& r从字母到词可以叫做词的编码规则,从词到语言可以叫做语言的编码规则,或者说语法。词的编码规则相对固定,而语法则不然,总是语言学家对大众谆谆教导,这样说是不对的,是不合语法的,试图用语法来规范语言的使用。最终,他们都像那个买履的郑人一样,被世人所嘲笑。语法的作用在于归纳大家都怎么说,而不是教导大家该怎么说。最热衷于语法的无过于学习语言的外国人,他们恰恰是语言能力最差的那个群体。2 m% `* o) d0 f5 E. {0 j( R9 o
4 q0 H. O' S. V在计算机能力还不够发达的时候,要让计算机理解人类的自然语言,人们首先想到的是把语法规则输入进去,也就是所谓基于规则的自然语言处理。一个普通人看到计算机能够理解所谓的“高级”程序语言,会觉得计算机理解人类语言已经指日可待了。但所谓计算机程序语言语法规则明确且没有例外,所有的词汇和上下文都没有关系,这些条件都是人类语言所不具备的。人类语言的语法规则会随着语言分析量的增加而以指数程度激增,很多词的理解需要上下文才能确定,甚至需要一定的常识才能确定。这对学母语的人来说不是问题,对计算机甚至对于外国人来说却是困难之极,这条路终归是失败了。 & N" |$ b- y0 a3 @