从洋洋信息中发掘知识,为各行各业提供知识服务
《中国重要报纸全文数据库》汲取教训 全面改版

  本报讯 中国学术期刊(光盘版)电子杂志社创办《中国重要报纸全文数据库》(CCND),其宗旨不同于新闻网站的信息汇总和一般情报部门的新闻剪报,也不同于转载类报刊对文章的分类整理,它的主要目的是从浩如烟海的文海中发掘知识,为各行各业提供知识服务。在这一指导思想之下,从2000年6月以来,CCND已经遴选收录了我国500多种重要报纸2000~2003年的文献270余万篇,有理论、经验、政策、艺术、事实、情报等各种类型的知识,内容覆盖了科学技术、政治军事、经济、文史哲、教育、生活等各个知识领域。
  但是总的来说,CCND办的不很成功。主要问题是CCND的办刊宗旨在实际操作过程中没有得到很好的贯彻落实。主要表现在缺乏明确的知识选题和资料甄选目的;分类体系囿于图书分类法,知识分类体系不合理;察觉新闻信息所含知识内容的思想意识模糊;数据库元数据结构过于简单,不能很好反映知识特征;检索功能单一,不能支持用户复杂的知识挖掘要求等。
总结经验和教训,电子杂志社决定近期对CCND进行彻底改版。改进工作主要有:

●关键词标引
  报纸文献,特别是新闻,题名往往不直接反映主题。因此,在题名字段构造检索式,很多有价值的文章都“漏网”了。为了尽可能把有用的文章都“捞”出来,在原有的题名、全文、副标题、报纸名称、出版日期等元数据的基础之上,增加关键词标引非常必要。

●关键句抽取
  报纸文章的知识点往往被背景文字描述所淹没,特别是新闻事实所反映的新观念、理论、方法、经验等知识隐含在文章之中,粗粗浏览很难发现。全文检索时也往往或根本想不到对应的检索词。关键句抽取就是通过专业编辑的浏览和分析,直接将这些知识抽取出来,系统可以对关键句直接检索,从而使这样的深度“隐性”的知识显性化。

●专题化编辑
  专题是人们最容易想到的数据库查询入口,也是信息收集与编辑整理的具体目标与归宿。专题化编辑就是将文章按专题聚类,是对报纸资源进行深度知识挖掘的另一必要方法。根据报纸文献的知识特点,按照《中国知识总库》的知识分类标准将每篇文献分类至最底层,并依据《总库》基础信息库知识体系的构造原则,将文献聚类到126个专题数据库。并与《中国期刊全文数据库》、《中国优秀博硕士学位论文全文数据库》、《中国重要会议论文全文数据库》在专题层次上实现跨库检索。

●按日期检索
  实现报纸数据库按文章刊登日期进行检索的功能,并可以按时间进行聚类。

●提供专业检索方式
  在深度标引的基础之上,报纸数据库提供专业的检索方式。通过逻辑与或非、括号、位置算符等操作制定全面的检索策略和合理的检索式,提高检索效率。

●提高文献时效性
  新版报纸数据库通过缩短加工周期把报纸文献上网时滞控制在7~10天。

●镜像站点日更新
  报纸对时效性的要求高于其它各类知识信息资源,而报纸数据库文献一般都短小精悍,数据量明显小于期刊、学位论文等其它文献资源。因此镜像站点的报纸数据库可以通过INTERNET实现日更新索引和全文,而不必采用光盘更新的方式,保证报纸数据库的时效性。

  改版后的CCND将于2004年1月开放。

                             (CCND编辑部副主任 张凤鑫)