自然语言理解,特别是中文信息处理,一直是计算机界的难题。让机器来理解和处理丰富的自然语言,极具挑战性。因此,汉字输入、机器翻译等等在我国开展得十分火爆。各种方案和产品层出不穷。要深入地把这些工作继续下去,还需要做许多基础性的工作。中国中文信息学会常务理事董振东先生,在这方面有较深的造诣。最近,他在网上公开了自己的成果--知网。他要在中文处理和知识共享两个方面创出新路。

知网辟蹊径共享新天地
董振东先生谈知网与知识共享

微电脑世界记者--杜飞龙
--------------------------------------------------------------------------------

----问:最近听说您将自己多年的研究成果在网上进行发布,您能否谈谈这方面的情况,如网站的名称、含义和您是怎样开始这方面研究的?

----答:近十多年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。我在从事多年这方面研究的基础上,在Internet上建立了一个名为知网(HowNet)的网站。

----知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为语言信息处理的研发提供了丰富的知识资源。它现已上网,网址是:http://www.how-net.com。

----我过去从事过英汉翻译方面的科研,深深地感到,要做出一个成功的翻译软件,必须有深厚的理论基础,然而,目前的研究成果还远远不够。另外,随着Internet的普及,人们对搜索引擎的需求也越来越多。但是,现有的搜索引擎虽然可以查到一些网站或文章,结果却很不理想。找出的东西一大堆,但很少有符合要求的。

----为此,我非常希望能和更多的研究者交流成果,并在更高的起点上从事进一步的研究。国外已经有一些这样网上交流的情况。例如普林斯顿大学的英语WordNet,微软的MindNet,在欧洲有基于WordNet的EurowordNet,日本有电子辞书研究所(EDR)的日语和英语的概念词典,还有美国HPKB(HighPerformanceKB)等等。其中WordNet早已上网用于非营业性研究。

----问:知网包括哪些内容?它们都起什么作用?

----答:知网包括下列数据文件和程序:中英双语知识词典、中文简体知识词典、中文繁体知识词典、概念的主要特征(1)、概念的主要特征(2)、概念的次要特征(1)、概念的次要特征(2)、概念的次要特征(3)、知网管理程序、词类表、反义关系表、对义关系表和标识符号及其说明。

----其中知识词典是知网的基本文件或数据库。其中的中英双语知识词典则是最基础的数据库。它是中文简体知识词典和中文繁体知识词典的基础。现有的中英双语知识词典包含11万多个词汇。

----概念的主要特征(1)载明知网所规定的事件类或称V范畴的主要特征,现有800多个,组织在一个层级网络中;概念的主要特征(2)载明知网所规定的事物类或称N范畴的主要特征,现有150左右,组织在一个层级网络中。例如:

----概念的次要特征(1)包含的是属性以及某些非语义特征;概念的次要特征(2)包含的是属性值;概念的次要特征(3)包含的是领域以及部件的具体部位。

----问:您认为知网的特色主要表现在哪些方面?您研究知网体会最困难的部分是什么?

----答:知网上网发布的信息特色主要表现在如下方面:

----1.知网并不是一个在线的词汇数据库。知网是一个利用一种知识词典描述语言来描述概念与概念之间的关系以及概念的属性与属性之间的关系的知识系统。

----2.知网所描述的不仅包含同类概念之间的关系,如上下位关系、同义关系、反义关系、对义关系、部件与整体关系、材料和成品关系、属性和宿主关系,还包含非同类概念之间的关系,如属性值和属性的指向关系、事件和角色关系。

----3.知网对语义研究的贡献可以归结为两点。一是把语义研究置于知识描述的基础上;一是语义描述呈网状。这个关系网的关键是:用对个别概念进行静态的、孤立的描述最终形成动态的、相关的知识网络。

----知网的研究与建设前后经历了十多年的时间,我体会其最困难部分是:

----1.确定主要特征和次要特征,以及对它们的组织。

----2.确定描述的方法和建立概念的描述语言。

----问:您为什么要公开知网?

----答:我从事科研工作之初,就一直主张在基础研究中的资源性成果应该进行公开。现在有了Internet,它提供了一个公开的天地。我为什么主张公开呢?因为十几年来,我看到国内的许多研究生在做项目时,导师让他做中文的分析,但是他最后没有做,他没有办法做,由于他没有计算机分析用的词典,词典中起码要有词性、词义等内容。再有,中文句子中,每个词连在一起,他还需要分词。所以,他必须先完成词典和分词工具软件。做完这些工作,两年的时间已经过去了,他该毕业了。而且他只能做一个规模很小的东西,因为没有那么多时间。也就是说,基础的东西太多了,尤其是中文。

----中文是非常复杂的,和英文等西方语言不一样。在"八五"期间,曾经有一个项目,叫做"905中文平台"。当时我是主题组负责人,我们的思想是做一个好的词典、一个好的句法分析规则。但是后来的成果并没有公开。我一直感到,国家的科研项目,分到各个单位去做,以后的成果基本上就是这个单位的了。按说我们是社会主义国家,成果最容易公开,但实际上最不容易公开。一些非常基础性的东西,如语料库,北京大学有,清华大学有,国家语言工作委员会也有,但是一般人搞不到。港台的语料库就是公开的,谁都可以得到。中文处理时,需要分词。分词系统根本不是一个应用系统,和机器翻译完全不一样,分词永远不是目的。但是,尽管国内有各种各样的分词系统,但网上一个也没有。一个人在深入研究中文处理时,有一个现成的分词系统就行了,准确率是95%或97%都关系不大。因为要研究的是后面的内容。但是由于研究者拿不到这些信息,就逼着他去做前面的。这样造成严重的低水平重复。同时,每个人都做不了很大、很全面的系统。词典也是如此。

----问:您希望在公开知网后,如何发挥它的作用?如果有人利用它取得进一步的成果,甚至因此而获利,您怎样看待这个问题?

----答;在有些情况下,开发人员可能希望公开,但是单位不同意。基础性的研究需要很大的投入,无论是财力还是人力,个人和单位都办不到,只有国家投资。我认为,这些研究做完之后,应当有适当的措施,使更多的人享受,实现真正意义上的资源共享,促进在语言处理研究的发展。一些外国公司曾经想买我的知网,我没有同意,因为这样别人就无法使用了。应该有一种好的机制,专利是一种。专利的本质是让别人用。

----我在网上也发布了使用知网的条件,不能去做商用。我还想通过这种方式促成一种良性循环,就是大家都来用。如果真是通过利用知网赚了钱,他应该向我申请许可证。如果赚的钱很少,我可以不要钱。如果赚的很多,就应该返还我一部分。我把这个钱再搞科研。我觉得在国内可以实现这样的"共建、共享、共保。"

----国外一些单位组成类似合作社或俱乐部的组织,每个参加者交一些会费,就可以实现成果共享。因为基础研究的东西,公司不必去做,投资就行了。公司只做应用方面的开发,大学和一些研究机构等做基础研究。这是一个好的办法。我们国家如何去做,还需要研究。机器翻译系统的应用性很强,不可能公开。但是机器翻译系统中很基础的部分,应该尽早公开。例如,年月日的表现方法,英文有多种表示方法。总结出来之后,就应该公开,没有必要每个人都去总结。

----有人问我:如果谁用了知网不告诉你,你怎么办?我想,不告诉就不告诉。如果他不发财,你去和他打官司,对你一点好处都没有。如果他发了财,他一般就不会不给你钱,这样对他不值得。总之,我希望通过知网,培养共建共享共保这样一种体制。中国现在还没有这种做法,也没有人这样公开自己的成果。

----问:知网目前的情况如何?您今后对知网的发展有什么计划?

----答;我希望在两年后,召开知网的国际会议,交流成果。知网发布至今仅仅4个月,已引起海内外的广泛注意。在内地和港台已有不少学者和研究者开始研究和使用它,如香港科技大学的学者已采用知网来进行语料库语义标注。台湾中研院资讯所的语言应用室组织了一个小组专门学习和研究。知网第一版的繁体版本已于7月19日发布并上网。我还要发布英文的知网,并继续不断改进。

----知网的研究与建设不仅有很高的探索性,而且有很强的工程性。知网的今后发展首先会在两个方面进行:首先是增加已有语种的概念总量;其次是优化知识词典描述语言(KDML),强化其描述能力。

责任编辑:李明霞li_mingxia@ccw.com.cn

以上文章转载自微电脑世界


Copyright © 1999 - 2002 KEENAGE.com, 
Dong Zhendong & Dong Qiang. All Rights Reserved
电子邮件:support@keenage.com
联系电话:010-62348234