CNKI平台为什么要默认高级检索

知识传播工程技术研究院知识挖掘技术研究所所长 张宏伟

   将大量无序的信息编制成数据库的目的,就是为了让人们在这种相对有序的条件下比较方便地查到对自己有用的信息和知识。
  一般来说,检索信息有四个动机:
  一是要了解“有什么”是对读者有价值的新信息。由于读者并不是准确知道他自己要查什么,所以在很多情况下并不能准确地想到一个合适的词,能够直接找到他认为有价值的新信息。因此,数据库的设计者就需要通过设计恰当的内容导航、关键词、主题词等具有传播作用的信息,引导读者发现和识别检索目标。如果只是让读者输入一个词去检索,不论它是通过篇名、关键词、摘要、全文等何种途径,只要一限定某种途径,就无法保证查全查准,甚至无法辨别检索结果是否符合检索目的。所以,单一途径的检索虽然用起来简单,但对获取信息来说并不可靠。
  检索的第二个动机是为了了解可以回答“是什么”的知识,比如“知识元”的定义。知识元的定义不是一个词,是一个短语,而且表达定义的方式有很多。简单地输入“知识元”或者“定义”,或者两者都包含的组合,都有可能查不到结果,或查不到全部结果,或查到的文件太多,无法通过一一阅读全文,找到真正需要的检索结果。所以,检索软件必须有智能化的知识挖掘功能。
  第三个动机是为了回答“为什么”的问题。比如知识元为什么要分为概念型知识元、数值型知识元、事实型知识元?能够回答这个问题的必然是某种文献,比如论文、专著、教材等等,但不可能通过简单的词语检索直接获得。
  检索的第四个动机,是给人们某种问题的解决方案。这显然是不可能通过简单词语检索直接获得的。
  所以,总的来说,对于获取知识信息而言,搜索引擎那样的简单检索,并不意味着能够简单地获取内容,由此带来的问题是,读者仍然需要在检索结果中通过大量的全文阅读才能够鉴别和找到所需要的信息和知识。
  《总库》是一种资源,也是一个专门提供知识获取手段的工具,不能因为读者缺乏必要的信息检索操作能力而避重就轻。相反,必须不断地研究和开发更加有效的检索技术与知识挖掘技术,去帮助人们从大量的信息中发现所需要的信息和知识。这个问题的解决,由于信息形态的复杂性和信息处理能力的局限性,还需要付出一代人甚至几代人的努力。
  目前,《总库》已改变了过去在检索系统中优先提供“初级检索”功能的传统做法,而将称为“高级检索”的功能作为系统默认的、优先推荐给读者的检索工具。它包括多途径、多字段、多检索词、逻辑组合检索,自动聚类、自动分类、自动排序,并在使用这些检索功能之前,提示读者恰当地选择数据库的种类以及检索目标所涉及的时空范围,以尽可能地帮助读者有效地限制检索范围,设计发现内容的检索逻辑和过程。
  比如,查找知识元的定义,采取初级检索的方法,在篇名中查到5篇。通过浏览摘要选中可能出现答案的文章3篇;但打开全文浏览并没有看到结果;按关键词途径检索查到17篇,结果一样;按摘要查到42篇,结果一样;按篇名、关键词、摘要组合检索查到45篇,仍然没有结果(事实上,读者已经阅读了20篇文章全文,花了一个半小时时间)。说明结果可能出现在按全文检索才能够查到的文献之中,但全文检索查到745篇,按词频控制(知识元一词在文章中出现3次以上的被选中)得到结果148篇,按词频控制10次以上,结果仍然有45篇,至此已无法再提高词频控制频率,否则必然会漏掉可能出现的文章。此时,只能采取二次检索和智能检索的手段继续操作,但每次检索都有可能过滤掉有用的文章。为了更加有效地捕捉检索目标,必须考虑可能给出知识元定义的文章类型,包括作者背景、项目背景、文章篇名所提至的研究范畴、目的等等因素,去合理地猜测相应的检索词以及这些词之间的逻辑关系。遵循这样的检索思路,经过几次试验之后,目标很快缩小到3篇,经过对摘要的仔细揣摩,终于查到准确结果。为了把各种各样的知识元定义查全,采用智能聚类这种方式,以一篇文章为“参考文献”,通过相似性分析得到5篇内容和结构相近的文献,又查出了另外2篇相关文章。结果发现,3种知识元定义在文章中并没有直接用“知识元定义”一词表达,而是使用了其它陈述方式。由此可见,要在数据库当中发现知识,必须依靠较为复杂的检索手段,而且读者本人必须具有一定的信息素养和检索技能。
  在CNKI平台中默认高级检索功能(同时也提供了初级检索功能),在应用中必然会造成一定的操作困难。但是,获取知识需要具备信息素养和技能是客观需要,应当在广大读者中树立这样的理念,才能不断地提高读者的知识获取能力,才能充分地发挥知识资源的应有价值。那种迁就读者现有水平的做法原则上是不可取的。