关于知网-中文信息结构库

董振东 董强

《知网-中文信息结构库》的研究与建设,是《知网》这一知识系统向中文研究延伸的具体体现。现在我们公布的中文信息结构库包含268种信息结构模式,附带着一万多实例,总字数六万余。就其规模而言它还只能算是一个雏形,但就其所包含的模式而言应该说已趋于成熟。中文信息结构库将是中文信息处理的重要的甚至是不可或缺的资源之一。它也被我们称为袖珍型经典语料库,这是因为它的素材来源于实际语料,而另一方面又是经过人工精心筛选整理的,它覆盖面宽但又能避免统计价值不高的重复。下面我们将对《知网-中文信息结构库》做出说明。

  1. 信息结构的描述对象
    本库的基础是《知网》。本库的信息结构的描述对象是:由中文词语所表述的、由《知网》所规定的最基本的运算单元,它们是:万物、部件、属性、属性值、事件、时间和空间等。本库的信息结构的描述内容是:中文词语的各个组成部分之间的、由《知网》所规定的动态角色关系或属性。通过对信息结构的揭示,我们可以认识到中文是如何描述诸如万物、部件、属性等等概念的,或如何由简及繁地表达意义的。由此本库也将揭示中文的语言结构的规律。

  2. 本库现有规模
    现在我们公布的中文信息结构库包含:
    A. 信息结构模式:271个
    B. 句法分布式:49个
    C. 句法结构式:58个
    D. 实例:11,000词语
    E. 总字数:中文60,000字

  3. 说明

    1. 本库可以认为是由两个文件组成的:
      (A)信息结构模式描述及例子;
      (B)信息结构模式的句法结构索引。
    2. 信息结构的获取
      中文的信息结构将主要从大规模真实语料中抽取。其方法简单地说其要点是:抽取虚词之间的语言片段,然后经人工选择,确定取舍。我们的信息结构基本上是不可以包含虚词的,这有两点考虑:第一,汉语中的虚词与其他语言一样,由它们引导的短语,其自身多半可以表示相当明确的意义,如:各种介词,结构助词等。第二,那将使结构模式的数量大大膨胀,以至难以控制,至少我们目前没有能力去建设那样大规模的语料库。
    3. 术语解释
      (A)信息结构
      试以"走私集团"这样一个词语为例。如果把其中的两个基本单元"走私"和"集团",描述为定中结构,那么这是句法结构;如果把两个基本单元描述为"行为动作"和"施事"间的关系,那么这是语义关系结构;然而,如果不仅能反映"行为动作"和"施事"间的关系,而且还能够反映出是"一个团体""从事运送,这个运送且是一种罪行",那么这就是我们所谓的信息结构(message structure)。又如:"餐馆"--它的句法结构可以认为是由"餐" 这一名词和"馆"这一名词构成的定中结构的词语;它的语义结构可以认为是"食物"这一概念对"场所"这一概念的限定;而信息结构不仅体现了上述语义结构表现的关系,更重要的是在这个结构中还隐性的包含一个行动的义元,并且这一行动的义元只能是"吃",这样的结构将成为文本理解的基础。由语言代表的信息结构是依赖于特定语言的。
      (B) 句法分布式
      由词性代表的词语基本单元的排列,如:"餐馆"这样的词语的排列为N1 + N2, 而"走私集团"这样的词语的排列为V + N。这里仅仅反映排列顺序,而不涉及管辖关系。同一个句法分布式可能有多种不同的管辖关系,因此它可能是歧义的。

      (C) 句法结构式
      由词性代表的词语基本单元的排列以及它们之间的管辖关系。如:"餐馆"这样的词语的句法结构式为N1 <-- N2, 而"走私集团"这样的词语的句法结构式为V <-- N。同一个句法结构式虽然只有同一的管辖关系,但由于可能会对应着不同的信息结构模式,因此它可能是歧义的。例如,"餐馆"和"花园洋房"有着相同的句法结构式,即N1 <-- N2。但它们的信息结构模式是不同的。前者为:{(物质,食物) [受事] <-- <事件,行动,吃>} <-- [处所] (组织/场所),而后者为:(万物) [领属物] <-- (万物)。

      (D) 信息结构模式
      由义元代表的词语基本单元的排列以及它们之间的管辖关系。如:"餐馆"这样的词语的信息结构模式为:{(物质,食物) [受事] <-- <事件,行动,吃>} <-- [处所] (组织/场所); 又如"走私集团"这样的词语的信息结构模式为(事件,行动) <-- [施事] (人/拟人)。信息结构模式跟句法分布式和句法结构式不一样,它们是没有歧义的。不同的意义将由不同的信息结构模式来表达。目前本库的基本状况也反映了这些特性,本库句法分布式有47个,句法结构式有57个,而信息结构模式有264个(应该还会多一些)。
    4. 本库信息结构模式描述由下列部分构成:
      (A) SYN_S= 表示相应的句法结构式
      (B) SEM_S= 表示信息结构模式
      (C) Query 和Answer:表示该信息结构模式传达的真正信息并由此可产生的问与答
      (D) 例子:给出符合该信息结构模式的真实语料的实例
    5. 本库采用的标识
      (a)词类标记:
      N 名词 NUM 数词 CLAS 量词
      V 动词 PREP 介词 CLASP 数量短语
      A 形容词 PREFIX 前缀
      ADV 副词 SUFFIX 后缀

      (b)义元标记:
      诸如"万物"、"事件"、"属性"、"属性值"等均来源于《知网》,这里不必赘述。

      (c)动态角色和属性标记:
      诸如"施事"、"经验者"、"时间"、"限定"、"发端"等均来源于《知网》,除此而外,还有几个新增的,如:"合成"、"紧缩并列"等,它们意义明显,不必赘述。

      (d)其他标识符:
      (1)():其中放置义元标记如:(人,家) [修饰] <-- (人,专/专/姓);在Query中
      表示"或"。
      (2){}:其中放置有多重套叠关系的词语或义元标记;
      如:{N <-- V} <-- N{(万物/属性) [受事/成品受事/范围/内容/对象/领属物] <-- (事件,行动)} <-- [施事] (人/组织/部件,%组织)
      (3)[]:其中放置动态角色和属性标记;如:(人,家) [修饰] <-- (人,专/专/姓)
      (4)<>: 其中放置义元标记,这些义元标记仅出现于信息结构中,它们没有相对应的词语;如:{(事情) [受事]<-- <事件,行动,从事>}<-- [场所] (设施/组织)
      (5)<-- 和 -->:在句法结构和信息结构模式中应用,表示词语和义元之间的管辖关系。标记的箭头端指向的是"受辖者(governed)",后端指向的是"管辖者(governor)"。如:(人,家) [修饰] <-- (人,专/专/姓)
      (6)/ :表示"或", 如:(人,专/专/姓);
      (7), (英文逗号):表示"且", 如:(人,家);
      (8) ,(中文逗号):用以间隔例子,如:夫-妇,母-女,母-子,
      (9)-:用以间隔词语的各组成部分,如:猎-人,行-人,境外-毒品-走私-犯,
      (10)"":表示特定的词语而不是义元,如:("嫌"/"员"/"局"/"队"/"处");在Answer中表示作答时要添加的词语,而不是可以从句法结构中直接得到的。
      (11)+: 用于句法结构中或Answer中,表示"和";
      (12)词性N、V等后面的1、2、3等:表示句法结构中出现的多个N或V等的顺序;

鸣谢

知网-中文信息结构的理论研究开始于1996年。1998年后曾得到国家语委97@YY001课题的支持,在词汇的内部结构方面进行较深入的探讨。1999年开始得到香港大学教育资助委员会基金项目HKUST6149的支持,开展了中文信息结构库的全面建设。在中文信息结构模式方面,有香港科技大学的颜国伟博士和汪炳蔚先生以及南洋理工大学的谭慧敏博士的积极参与。他们的大规模真实语料的标注工作为信息结构库的检验、发现和补充做出了重要贡献。加拿大学者Dekang Lin博士曾给我们寄来他从大规模真实语料中抽取的词语表,为信息结构库的建设提供了可贵的原始数据。我们对上述各单位和学者表示由衷的感谢。

参考文献

(我们下面只列出在我们建设《知网-中文信息结构库》时,主要的、不可或缺的参考文献,而略去了在我们十余年研究过程中曾经参考和学习过的其他许多参考书。)

[1] 现代汉语词典(修订本),中国社科院语言研究所词典编辑室,商务印书馆,1996
[2] 现代汉语通用字典,中国人民大学语言文字研究所,外语教学与研究出版社,1987
[3] 现代汉语语法信息词典详解,俞士汶等,清华大学出版社,1998
[4] 汉语常用词搭配词典,杨天戈等,外语教学与研究出版社,1990
[5] 汉语常用动词搭配词典,王砚农等,外语教学与研究出版社,1984
[6] 形容词用法词典,郑怀德等,湖南出版社,1991
[7] 常用量词词典,台湾中央研究院词库小组等,国语日报社,1996
[8] 复合词词素间的意义结构关系,周荐,天津大学,
[9] 汉语语义学,贾彦德,北京大学出版社,1999
[10] 词汇语义和计算语言学,林杏光,语文出版社,1999
[11] 汉语计量与计算研究,邹家彦,香港城市大学语言资讯科学研究中心,1998


Copyright © 1999 - 2003 KEENAGE.com, 
Dong Zhendong & Dong Qiang. All Rights Reserved
电子邮件:support@keenage.com
联系电话:010-62348234