首先,通过这个小例子,来学习几门语言中的肯定句、一般疑问句、否定句、特殊疑问句。
其次,通过这个模型,来研究探讨一下信息熵的估算。
信息量的定义: \[ I(x)=-log_2P(x) \] 信息熵的定义: \[ H(X)=-\sum_{i=1}^nP(x_i)log_2P(x_i) \] 分析“我爱你”这个事件出现的概率:从信息的冗余度看,“我”、“爱”、“你”三个字单独出现,并不能确定一个事件,我们来计算一下这个事件发生的概率。为简化模型,设谓语为常量,主语、宾语为变量。以下定义 \(I_s\) 为主语的信息量, \(I_o\) 为宾语的信息量,总信息量为 \(I=I_s+I_o\) 。
汉语
| |
这是一个悲伤的例子💔。不过只是研究语法和模型而已📊。
- 汉语属于汉藏语系。作为孤立语(分析语)的代表语种,词形没有变化,词序决定意思,虚词起到重要作用。比如“我爱你”、“你爱我”,通过词序的变化表达不同的意思。
- 肯定句、否定句、疑问句基本语序为主谓宾。
- 名词没有性数格的变化,动词没有变位。
- 一般疑问句在肯定句后加个疑问词,如“吗””等。
- 否定句在动词前加给否定词“不”、“没”等。
当“爱”出现时,主语是“我”的概率是 1/10(我/你/他/她/它/我们/你们/他们/她们/它们),宾语是“你”的概率也是 1/10,因此计算得信息量 \(I_s=I_o=3.32\) ,\(I=6.64\) 。
英语
| |
英语属于印欧语系中的日耳曼语族。虽然古英语是屈折语,但现代英语已经有逐步向分析语演化的趋势。
- 人称代词还留有格的痕迹。古英语中第二人称单数 thou/thy/thee,与 I/my/me 很对称。现在已经简化了。
- 名词已经不分主格、宾格了。因此语序也变得很重要。不过和汉语不一样,词序一定程度上还是要结合格位。如 I love you. 不能说成 You love I. ❌
- 动词变位已经非常简化,只有 be 有相对完整的变位,其他动词只有第三人称单数有加 s 的遗留。
- 肯定句基本语序为主谓宾。
- 否定句、疑问句借助情态动词或助动词移到主语前,没有的话加个 do 再把原来动词变为原形来实现。基本语序为提前的辅助动词+主谓宾。
当“love”出现时,主语是“我”的概率是 1/4(I/you/we/they,不可能是 he/she/it),宾语是“你”的概率是 1/7(me/you/him/her/it/us/them),因此计算得信息量 \(I_s=2.00\) ,\(I_o=2.81\) ,\(I=4.81\) 。
德语
| |
德语与英语同属印欧语系的日耳曼语系,但保留了很多屈折变化。从德语大致可以了解到古英语的影子。
- 名词、代词都有两个数(单复数)、三个性(阴阳中性)、四个格(第一二三四格,分别为主格属格与格宾格)的变化。德语的名词变格主要体现在冠词,而且名词都需要首字母大写。然后是修饰名词的形容词、代词等需要和名词保持性数格的一致。
- 德语要求动词位于第二位,其他语序并不重要,反正有格位限定, Ich liebe dich. 和 Dich liebe ich. 都是正确的,都是主格的“我”,宾格的“你”,而且动词的变位体现了动作的主体是第一人称单数“我”。
- 肯定句的基本语序主谓宾,也可以宾谓主。
- 和英语不一样,一般疑问句直接将动词提到第一位。不需要助动词。词序也不重要。 Liebst du mich? 和 Liebst mich du? 也一样是正确。基本语序为谓主宾。
- 特殊疑问句也是将除去起首的疑问词后,动词放在第一位。
- 否定句其实挺复杂的。否定全句将 nicht 放在句末,否定某一部分 nicht 放在该部分前。还有其他否定词不展开分析了。
当“liebe”出现时,主语是“我”的概率是 1(必定是 ich),宾语是“你”的概率是 1/8(mich/dich/ihn/es/uns/euch/sie/Sie),因此计算得信息量是 \(I_s=0\) ,\(I_o=3.00\) ,\(I=3.00\) 。
法语
| |
法语和英语、德语不同,属于印欧语系的罗曼语族。
- 名词有性数(阴阳性、单复数)变化,但没有格的变化,代词有性数格的变化。动词有变位。修饰名词的形容词需要和名词保持性数的一致。
- 正常语序也是主谓宾。但直接宾语是人称代词(而不是名词)时,放在动词前面。
- 一般疑问句可以直接将动词放在句首后接主语,但更简单的办法是在陈述句前加个疑问前缀 Est-ce que + …?
- 同样特殊疑问句也有两种形式,如 Qui aimes-tu? 或 Qui est-ce que tu m’aimes?
- 否定句在动词两侧加上 ne…pas。如果有直接宾语,连同直接宾语一起包括进去。
当“aime”出现时,主语是“我”的概率是 1/3(je/il/elle 变位相同),宾语是“你”的概率是 1/7(me/te/le/la/nous/vous/les),因此计算得信息量为 \(I_s=1.58\) ,\(I_o=2.81\) ,\(I=4.39\) 。
西班牙语
| |
西班牙语和法语同属印欧语系的罗曼语族,因此有很多共同点:
- 名词有性数(阴阳性、单复数)变化,但没有格的变化,代词有性数格的变化。修饰名词的形容词需要和名词保持性数的一致。
- 正常语序也是主谓宾。但直接宾语是人称代词(而不是名词)时,放在动词前面。
- 动词有变位,因此主语经常可以省去,除非是为了强调,或是为了避免混淆的场合。
- 一般疑问句直接在陈述句前后加上一对正反问号(¿…?),用语调体现。顺便提一下,西班牙语的感叹句也是在整句前后加上一对正反感叹号(¡…!)。
- 否定句在变位动词前加上 no,有前置宾语的话放在前置宾语前。
- 特殊疑问句也是在疑问句前加上疑问词,词序同一般疑问句。
- 第三人称单数都是与格的 le 再加上夺格的 a él / a ella 复指。用宾格 le / la 也可以说成: Le amo. / La amo. 总体来说单数第三人称宾格、与格、夺格还是比较容易混淆的一个点。
当“amo”出现时,主语是“我”的概率是 1/2(yo 可以省略或不省略),宾语是“你”的概率是 1/8(me/te/le/la/nos/os/los/las),因此计算得信息量为 \(I_s=1.00\) ,\(I_o=3.00\) ,\(I=4.00\) 。
意大利语
| |
意大利语也属于印欧语系的罗曼语族,很多方面和西班牙语几乎一样:
- 名词有性数(阴阳性、单复数)变化,但没有格的变化,代词有性数格的变化。修饰名词的形容词需要和名词保持性数的一致。
- 正常语序也是主谓宾。但直接宾语是人称代词(而不是名词)时,放在动词前面。
- 动词有变位,因此主语经常可以省去,除非是为了强调,或是为了避免混淆的场合。
- 否定句在变位动词前加上 no,有前置宾语的话放在前置宾语前。
- 特殊疑问句也是在疑问句前加上疑问词,词序同一般疑问句。
当“amo”出现时,主语是“我”的概率是 1/2(io 可以省略或不省略),宾语是“你”的概率是 1/8(mi/ti/lo/la/ci/vi/li/le),因此计算得信息量为 \(I_s=1.00\) ,\(I_o=3.00\) ,\(I=4.00\) 。
俄语
| |
俄语属于印欧语系的斯拉夫语族,使用的是西里尔字母。
- 名词、代词都有两个数(单复数)、三个性(阴阳中性)、六个格(第一二三四五六格,又称主格属格与格宾格工具格前置格)的变化。俄语变格采用词尾变化来体现,与德语不一样,没有冠词。修饰名词的形容词需要和名词保持性数格的一致。
- 通过名词(代词)的变格、动词的变位,可以确切表达单词之间的语法关系,因此俄语的语序并不严格。Я люблю тебя. 可以说成 Я тебя люблю. / Тебя я люблю. 等任意组合,语法上都是正确的。习惯上谓语不放句首。
- 一般疑问句的语序和陈述句一样,通过语调来体现。
- 否定句在变位动词前加上не。
- 特殊疑问句将疑问词放在句首,后续按照陈述句语序。
当“люблю”出现时,主语是“我”的概率是 1(必定是я),宾语是“你”的概率是 1/7(меня/тебя/его/её/нас/вас/их),因此计算得信息量是 \(I_s=0\) ,\(I_o=2.81\) ,\(I=2.81\) 。
阿拉伯语
| |
- 词性分类为名词、动词、虚词三类。形容词、代词、数词等都属于名词。(与日语的体言用言的分法有点类似,不过日语的形容词、形容动词属于用言。)
- 名词分性(阴性/阳性)、数(单数/双数/复数)、格(主格/属格/宾格)、指(确指/泛指)。
- 动词分过去式、现在式、将来式,并且要按照对应的人称的性数格进行变位。
- 代词有性数格的变化,人称有 14 个(我,我们,你,妳,你俩,妳俩,你们,妳们,他,她,他俩,她俩,他们,她们,其中双数词形一样)。
- 名词句以名词开头,动词句以动词开头。疑问句以疑问词开头。动词句中主语作为主格内含人称代词加在动词后(相当于过去式变位),现在式再在动词前面加符号。
- 陈述句通常为“谓语-主语-宾语”的顺序。一般疑问句通常只需在陈述句前加上هل。
- 动词句的否定形式比较复杂,在动词前加لَا否定未完成体,在动词前加مَا否定完成体,此外还有لَنْ和لَمْ的否定标记。
当“ احب”出现时,主语是“我”的概率是 1(必定是آنَا),宾语是“你”或“妳”的概率是 2/12( 词形一样合算一个,ـنِى/ـنَا/ـكَ/ـكِ/ـكُمَا/ـكُمُ/ـكُنَّ/ـهُ/ـهَا/ـهُمَا/ـهُمْ/ـهُنَّ),因此计算得信息量是 \(I_s=0\) ,\(I_o=2.59\) ,\(I=2.59\) 。
TODO 日语
| |
TODO 韩语
| |
TODO 其他
| |
以上都是主格-宾格语言的例子,希望能增加作格-通格语言的例子。
TODO 各语言信息量汇总表
| 语系 | 语族 | 语言 | 信息量 |
|---|---|---|---|
| 汉藏语系 | 汉语族 | 汉语 | 6.64 |
| 印欧语系 | 日耳曼语族 | 英语 | 4.81 |
| 印欧语系 | 日耳曼语族 | 德语 | 3.00 |
| 印欧语系 | 罗曼语族 | 法语 | 4.39 |
| 印欧语系 | 罗曼语族 | 西班牙语 | 4.00 |
| 印欧语系 | 罗曼语族 | 意大利语 | 4.00 |
| 印欧语系 | 斯拉夫语族 | 俄语 | 2.81 |
| 闪含语系 | 闪语族 | 阿拉伯语 | 2.59 |
TODO 结论
- 大致上越简洁的语言,其信息量越大;屈折变化越复杂的,信息量越小。
