数据库要有内容服务标准 否则将失去实用价值
TTOD数据库质量监督委员会主任 李滋兰 教授 TTOD市场总监 张群山 副研究

  近几年来,信息资源共享巨大的市场需求推动了我国基于内容服务的公共信息资源数据库产业的迅猛发展。政府、图书馆、情报所、企业等单位纷纷投资建设用于商业化信息服务的内容数据库,数据库的内容建设层次已经从题录、文摘数据库发展到全文数据库,出现了很多期刊、报纸、图书、博硕士论文、会议论文、专利、法律法规等各种媒体类型的全文数据库;数据库信息量规模也从几十GB发展到数千GB,文献量最多高达近千万篇。我国在内容数据库建设方面已经形成了"百花齐放、百家争鸣"的可喜局面。
    用于商业化信息服务的数据库一般以两种形态出现在用户面前:一种是作为物化的产品,将整个数据库用镜像、光盘等有形载体方式提供给机构,供机构中的个人用户在数据库产品中任选信息,同时机构可以将其视为资料的数字馆藏加以保存;另一种是作为一种虚拟的资源将数据库置于互联网上,用包库、计数收费等远程服务方式,直接开放给机构或个人使用。实际上,两者的本质都一样,对用户而言,不论各自最终检出多少信息,他们在搜索、发现自己所需要信息的过程中,依赖和使用的并不是其中部分数据,而是数据库的整体。因此,数据库对用户来说,尽管看不见、摸不着,但和其它商品一样,同样是一种整体的产品。
    众所周知,凡是产品,都应有产品标准。对数据库而言,过去,为了解决资源共享的问题,人们一直在研究、改进它的技术标准。如数据格式、元数据结构与置标语言、数据通讯模式等等,产生了SGML、 XML、 HTML、DUBLIN-CORE、RDF等一系列国际标准。但作为信息资源产品来说,用户最终所要的是信息内容,因此,人们对数据库的内容本身和提供内容服务的方式越来越关注。于是,在"2001知识仓库建设标准国际研讨?quot;上,我们首先提出了CNKI数据库的内容服务标准,引起了国内外专家学者和广大用户的高度关注。

一、为什么数据库要有内容服务标准?
    让我们仔细体验一下各种数据库产品的使用效果,就可以看得很清楚。
    1、收录内容范围不明确或未按承诺收录完整
    用户不会要求某个数据库能包含世界上所有的信息,但他在使用数据库查找信息时需要事先知道这个数据库的内容收录范围。假定该数据库的检索工具是可以做到查全的,就应当使他能够在这个收录范围内判断和确认他检索结果的可靠性。就是说,如果这类信息在这个收录范围内有,就一定可以在这里找到;如果没有,那么也不必再去检索其它类似的数据库。这样,他就可以判断他在这个收录范围内的调查研究结果是可靠的。比如,某一数据库宣称收录了某某年到某某年的几千种期刊全文,而且可以明示其中包含了那些杂志,那么,用户在查完以后就应该相信,不必再到其它数据库中去重复查这些期刊这些年的文献了。如果它实际收录与其宣称收录的文献相差太远,比如只有1/3、1/2,那么用户对它的检索就是一种没有确定意义和价值的工作。
    2、 内容收录不科学,出现过量信息垃圾
    用户不希望在检索结果中出现太多与己无关的信息,如有,他将把它扔入信息垃圾。假定数据库的知识挖掘功能较强,可以尽可能将垃圾自动筛掉,那么,出现垃圾信息的概率将取决于数据库的内容收录标准及其贯彻执行。比如在博硕士论文数据库中,如果不加任何鉴别收录所有硕士论文,必然会出现低水平、甚至是错误的内容,对用户将形成误导或迷惑。
    3、数字化加工不彻底,无法深化内容挖掘
    内容表达方式的复杂性、元数据置标的模糊性、文献出版的不规范性,都导致了简单的元数据检索的结果不确定性。没有基于全文检索的文本挖掘技术,查全率、查准率不会有本质的突破。因此,仅仅为了低成本,采用简单扫描方式开发图象型数据库的做法,其产品的检索功能是不可提高的,是不能实现高质量的信息服务的,它在信息资源建设中是短见的、不可取的方式。
    4、数据更新不及时,失去信息服务基本价值
    互联网、卫星通讯的发达,信息社会的快节奏变化,使人们不能再忍受不能及时更新内容的数据库服务。过去,几个月甚至半年、一年更新一次的数据数据库,或者根本不承诺确定更新周期的数据库,已经不能适应时代的要求,而被人们视为没有信息服务基本价值的呆库、死库。
    5、没有解决版权问题,存在法律纠纷和停止服务隐患
内容类数据库包含的知识产品一般都有法定的编辑和作者版权。数据库开发单位如不依法解决版权授权使用问题,就会面临法律纠纷,就随时存在因被判决停止侵权而终止开发的可能。用户也会被卷入纠纷而终止使用。与其它有形产品完全不同,长远来看,不能保证依法连续正常出版的数据库是没有真正使用价值的。
从以上几点可以看出,内容类数据库要对用户负责则不能没有内容服务标准。

二、内容服务应当建立哪些标准?
    产品标准是用来保证企业对用户负责的,也是用户用来判断、鉴别产品功能、性能和质量的。没有标准,企业无法保证满足用户需求,用户无法评判产品价值。数据库是一个集成化的内容产品,原始的内容不是数据库制造商自己创造的,而且信息量庞大,来源复杂,那么客观上可行的产品标准应当是什么呢?通过多年的实践,我们认为,为了最大限度地为用户提供尽可能有价值的产品和尽可能好的服务,数据库最基本的内容与服务标准至少应当包括以下几个方面:
    1、收录信息的完整性、完备性标准
    无论数据库大小,应当在自己标称的内容收录范围内保证信息的完整性。如果是囊括某一领域的大型集成化数据库,为了保证用户的调研效率,应当建立内容收录范围相对于用户知识需求的完备性。
    2、数据更新的及时性标准
    从现在一般的工作流程看,由信息采集、数据库制作到网上服务,必须有一定周期。由出版单位直接将出版物的电子文档传至数据库制造厂是目前最快的数据采集和数据库制造方式。为了保证及时性,必须尽可能缩短加工周期,采用网上或卫星广播每天更新的办法。以期刊为例,在网上投稿系统大面积使用之前,相对于用户收到印刷版的时间,网上更新速度平均应不晚于20天。做到这一点,CNKI还要继续改进工艺流程,同时,用户单位也要给予高度重视,积极创造更新条件。
    3、数据加工的彻底性
    数据库、特别是全文数据库除了考虑用户直接检索使用的方便性以外,还要考虑图书情报单位的增值服务需要。因此,必须全部采用全数字化工艺进行文本处理,并按基于最新国际标准的可扩展产品技术标准加工元数据。
    4、使用方式的可行性
    针对互联网和用户内部网的各种环境,提供使用户最大化共享知识信息资源的全面解决方案和知识挖掘与信息处理手段。
    5、使用版权的合法性
    国家有关法律法规正在迅速健全。数据库开发不能对法律法规的暂时不太健全心存侥幸,必须以积极保护知识产权的态度,尽可能完善解决版权问题的内部控制制度和合作制度。
    知识生产、传播、扩散、利用的活动是变化的,因此数据库的标准也应相应改变。《中国学术期刊(光盘版)》创办初期收录期刊的标准是3500种,服务方式是月刊,现在已经变为5400种,网上每工作日更新。因此,数据库的内容建设与服务标准将不断根据用户需要和技术发展而不断改进。所以,数据库标准的制定应当具备前瞻性,做好基础建设,为未来产品的更新换代奠定扎实基础。