清华同方主题词、分类号智能检索系统(医学专业)(MCI)

清华同方光盘股份有限公司MCI项目部 沈小建 许景红

   清华同方主题词、分类号智能检索系统(医学专业)(Medical Subject Headings、Classification code Intelligent retrieval system,简称MCI)是由清华同方光盘股份有限公司自主研制的我国第一套医学专业主题词、分类号智能检索系统。MCI与CHKD期刊全文数据库的结合使CHKD期刊全文数据库成为我国第一套具有主题词、分类号智能检索的全文数据库系统。
   本文将从该系统研制背景、用户需求、系统特点及功能、研制意义等方面进行论述。

一、 基本概念

   随着医学科学技术的迅猛发展,医学科技文献的数量急剧增长。医学科技情报用户要想从浩瀚的文献群中获取所需要的信息,就必须进行情报检索。进行情报检索的一个首要前提,是要对纳入检索系统的每一篇文献提出检索标识,即用简练的形式描述出文献的特征,以便区分和辨识文献,作为有序存贮和检索文献的依据。没有检索标识的文献,就不能形成检索系统,也不能有效地进行检索输出。检索标识把文献工作者与情报用户联系在一起,能让用户更快地查获迫切需要的情报。主题词、分类号和关键词,都是提供文献内容特征的检索标识,然而它们在取向和字面形式上存在某些差别。
1、查准率和查全率
   查全率和查准率是对检索结果的有效性进行说明的两个概念:
   查准率=被检出的相关文献量/被检出的文献总量
   查全率=被检出的相关文献量/系统中所有的相关文献量
2、受控语言
   受控语言是符号化的概念标识系统,用于概括文献信息内容中出现的概念并用于文献的标引和检索。其“受控”的含义体现在对概念的挑选和净化、标识符号的应用等方面。同“受控”相对的是“自然”,主要是指在情报的存储和检索过程中对语词表达的概念较少的主观性,其目的是为了提高信息利用的效率,降低信息使用的时间成本和费用成本。同国内应用较广的“情报检索语言”的内涵相似,但受控语言更有助于在总体上概括文献标引和检索的全过程,而不单是“检索”用的语言。受控语言分为“主题词表” 、“分类法”和术语系统等几大类。
3、主题词、分类号、关键词
   主题词:主题词是经过规范化的词,取自于主题词表,表达同一主题的叙词,在任何情况下都具有完全一致的字面形式。主题词又称叙词,叙词(Descriptor)是我国70年代引进的外来词,也叫描述词、叙述词。它是以概念为基础、经过规范化的、具有组配性能、显示词间语义关系和动态性的词和词组,它是描述文献资料主题的一种标识符号,叙词受词表控制,通过概念组配来描述文献主题的语词型检索语言,它可以显示词间语义关系和动态性。组配标引:主题词组配是主题词标引的一个重要特点,只有极少数的文献在标引时是不需要组配的,方式分为两种:一种是主题词和主题词的组配,也叫概念组配,它是在用一个主题词不能表示某篇文献的主题概念时选用若干主题词,通过它们的逻辑关系使之表达出复杂概念以至一个完整的主题,如“文献情报管理软件的开发与应用”可组配为“情报管理”和“计算机”;一种是主题词和副主题词的组配,称方面组配,方面组配即是从论文主题所着重讨论的方面进行组配,往往同一主题需要用几个副主题词组配,如“中耳炎”可组配“病因学”和“药物疗法”等,它们与主题词组配后起到加强专指性作用,当然并不是每个副主题词都能和主题词相组配,是要按照规定的类目范围组配的,不能随意组配。主题词基本特征可以归纳为具备叙词特征、规范的语词形式、反映文献主题特征和应用于检索系统。
   分类号:分类法是按照知识分类的原理,将各种学科及研究问题的类目进行系统的线性排列,以代表类目的数字、字母符号作为文献主题标识的规范语言。如果文献内容属于或符合某个类目的范围,就可以用该类目的分类号标引,反映分类体系中的特定位置。便于从上而下,以整体的方式揭示信息的分布。
   关键词:是未经规范或很少规范的自由词,不受词表的控制,相对主题词而言,它的标引一般要求较低。

二、 研制背景

1、 受控语言自动标引的进展

1.1信息提供方式的变革

   电子计算机硬件、软件技术以及通讯网络技术的发展使获取信息方式由传统手工查阅过渡至计算机检索,带来的优点便是检索速度快、花费时间少,获得信息多,作为传统的手工查阅基础的传统人工标引主题词或分类号是一项脑力劳动大、主观因素强且细之又细的工作,不能满足信息及时更新、数据制作标准化的要求。计算机技术的不断进步为主题词、分类号自动标引提供了广阔发展空间,利用计算机提取主题词、分类号,将根本改变手工操作的落后状况,并将数据库的管理推向标准化、兼容化。标准化以实现文献资源的共享和联机网络化检索为前提,目的是在最大范围内推行一种或几种分类法、词表及有关技术规则,以方便用户检索,有利于标引数据的交换及网络环境下的跨库检索。 标准化是信息资源利用的普遍问题,面对因特网上数据库、检索系统、受控语言纷繁复杂的现实,仅靠标准化是不够的,兼容化则更加灵活和有效,受控语言的兼容目的是对同一文献主题概念采用同一语词或符号表达,尽管语词或符号不同也对应转换。兼容化既可在分类表、词表编制阶段,也可在标引或检索阶段兼容。

1.2自动标引受控语言的相关问题


1.2.1 题名关键词法 由计算机根据文献题名进行主题和分类标引。首先建立机读主题词表,由主题词、同义词指针、分类号指针等字段组成,每个主题词作为一个记录,结合已建立的主题词表,建立分类号数据库,用分类号指针使分类号与主题词建立起对应关系。编制一套用计算机进行自动标引的应用程序,由计算机搜索题名项中的关键词,在机读主题词表中找到相应的主题词,根据确定的主题词,利用分类号指针,到分类号库中取出与主题词相关的分类号,并把结果显示出来。抽词范围主要是文献的题名,这一方法往往造成标引不全,给读者造成漏检。这是因为虽然大多数的科技文献的题名能反映文献的内容,但也存在相当部分文献题名不能明确反映文献内容,而且有些能反映文献内容的题名,却也不一定能抽出有检索价值的主题词或关键词。这一方法原本是为适应计算机自动编制索引的需要而设计的,现已不适合计算机文献检索系统的要求,一般已不使用,而且中华人民共和国国家标准GB3860-83(文献主题标引规则)中也明确规定:“切忌仅依据题名进行主题分析”。

1.2.2 计算机辅助标引 国内在标引工作自动化方面的成果尚不多见。据知,有的“计算机辅助标引”系统还只是建立了电子主题词表,而利用该表的检索功能人工点击选用合适的主题词。这些系统“辅助”的程度较低,基本上还是属于人工标引,只是由计算机代替了标引人员翻阅词表的工作和部分书写工作。这种系统并没有实现计算机自动提取并生成主题词的功能。

1.2.3 全文检索系统 国内外的全文数据库具有全文的浏览功能,检索只能采用自然语言,即关键词或文本词进行全文检索,影响检索效率和质量,而主题词标引及检索可改善上述全文检索系统的查全率及查准率。全文检索同主题词并不矛盾,如果文献进行高质量编目,主题词标引比较规范,全文检索也可发挥较好作用。但是文献数量激增使单纯人工分类和标引已不可能,为完善全文检索系统的功能,自动标引规范化的文献内容特征主题词和分类号便成为一个尤为突出的问题。

2、 医学文献检索的常见问题


2.1 关键词检索
   关键词是从文献题名及内容中直接选取的表示文献关键内容的词或词组,虽专指度较高,查准率也高,但由于是一种自然语言,选取较为自由,因此,表达同一主题的关键词,往往呈规多种字面形式,同义词、近义词、多义词不加统一规范,表达概念含义有时不够明确,易漏检,查全率较低。如:耳鼻咽喉科的一些专业术语,诸如“喉肿瘤”、“喉癌及喉咽癌”等,表述这类概念的词,都可作关键词,但若用这些词组成索引,必须会使同一种概念的词分散在不同的检索标识中,如果只选择其中一个或数个关键词进行检索的话就容易出现漏检,如果改用规范化的主题词“喉肿瘤”来作为检索标识,则可将其全部同义词都集中于同一术语。这既便于读者查阅文献,又能提高文献检索的查全率和查准率。

2.2 分类途径检索


2.2.1 检索者不熟悉分类体系,难以定位
   运用分类索引时,应事先熟悉该索引的分类方法。国内目前主要应用《中国图书资料分类法》(《中图法》)作为分编或查找图书资料的依据,其中医药卫生以"R”为代表字母,其余各分科以阿拉伯数字为代表。此体系分类语言采用符号标识系统,其标记制度很难被检索者掌握,检索标识的含义也难于理解,给检索者确定自己要查找的内容所在位置设置了障碍,查阅文献时往往出现偏差,查不到相关资料。例如,查找“过敏性休克”应在“变态反应性疾病”“R593.1”中找寻,如果在“变态反应及过敏性反应”"R392.8"中查找会出现检索不到文献的结果。

2.2.2 集中与分散的矛盾,影响了查全率
   分类类目按线性排列,只能反映类目间的从属及并列关系,很难充分反映文献主题之间的交叉、渗透关系。这样往往割断了主题间的多种联系,因而一个主题的各个方面在分类目录中被分散了。读者若要全面了解某个主题,则需要通过分析在分类目录中把这些分散的方面都找出来,易造成漏检。比如:有关肾移植的资料就被分散在“肾脏手术、慢性肾功能衰竭、移植免疫、器官移植”等类目中。

2.2.3检索者很难判断复合主题的类属问题
   文章有时从很多方面对一个研究项目进行全面的综合性的研究,如:“土壤卫生与污物处理”这样的由三、四个主题组成的复合主题,分类时标引人员只能人为地分入一个类目下,而在其它类下作附加分类。而这类主题的文章在分类目录中到底被分入哪些类,检索者是很难断定的。

2.2.4对新学科、新问题的标识滞后
   分类法较多采用隐含的划分类目内容范围的规则来处理学科或论题之间的相互关系,检索者不易理解。加之体系分类法,不可能详尽无遗地列举一切事物概念,也不可能及时补充和灵活修改,导致一些细小的概念或者新学科、新事物的概念,往往被隐藏在检索者不知道的类目下,不易查找,甚至一些新变更的概念仍然在老的错误的类目下还可能误导用户。并且随着学科的发展,文献信息量激增,在一个类目下累集的文献随之增多,用户也难以找到自己确实所需的文献。

2.3 主题词检索
   同关键词检索相比,主题词是经过规范化处理的词,避免了由于自由词的多种字面形式导致漏检的情况,查全率高,并通过概念组配来表述文献的主题,提高了专指度,查准率高。
   同传统的分类法比较,主题词是从不同角度揭示文献内容,各个主题相互独立,不像分类法排列是逻辑上的顺序,故主题词便于确定某个主题在整个系统中的特定位置,其特点是适应性、直观性及通用性强,新旧事物、新旧名词可随时加进、取消或修改,能集中分散在各学科的文献,而且直接用文字做标题,表达概念清楚明确。
   主题词是规范化受控语言的内容特征检索标识,其来源是标准的主题词表,主题词表是标引和检索人员的共同语言,因此检索者能正确使用的前提便是熟悉主题词表及指南,若选择主题词不准确或不规范,就可能误检、漏检。例如,美国的<< 医学主题词表(MeSH)>>,及其扩充版《医学主题词注释字顺表(MeSHAAL) 》均有一些特殊的规定。若查找“肝癌”文献,要用“肝肿瘤”作为检索词,不能使用"肝癌",否则无法查找到肝癌文献;另外,为了加强主题词的专指性,还要采用规范化的副主题词限定词加以组配。关于具体的组配原则,各组检索工具书都有自己的特定方法。例如,<<MeSHAAL>>主题词表中,“白血病的诊断”,标引为“白血病/诊断”、“异常血红蛋白的分析”,标引为“血红蛋白,异常/分析”,等等。

3、 受控语言的用户需求分析

3.1 宏观需求分析
   宏观的用户需求是针对一个用户群或一类用户,他们在访问网络数据库即进行信息检索时,对受控语言有什么通用的需求,这种通用需求是否可以归纳为一种“需求模式”或“用户偏好”,这种偏好可为数据库信息服务向个性化发展提供依据。
   如果把阮冈纳赞的“图书馆要节省用户的时间”这条定律进行扩展的话,可得到网络环境下图书馆一条新的定律:“数据库信息服务要节省用户的上网时间”,采取有效手段来提高用户使用数据库信息服务效率成为数据库信息服务的主要目的。用户的查询行为需要数据库信息服务快速而准确地响应,而不是返回大量的无关的信息,为提高信息服务的查准率和查全率,需利用受控语言有效描述和标识来规范用户的查询行为。
   HILT项目小组对受控语言在英国的使用做过为期两年的调查和文献分析,涉及的领域包括图书馆、博物馆、档案馆和信息服务领域。调查的前提是用户对网络数据库信息服务的浏览和交叉检索的要求将会持续增长;调查目的则是为了寻找一种最佳的方式来满足这种需求。调查显示:
   1.英国几乎所有的网络信息服务都不同程度的采用了主题词表。服务提供者认为主题词表对用户和工作人员本身都有好处,可以提高他们检索信息和标引信息的效率;
   2.大多数网络信息服务提供者迫切需要一种快速应用主题词表的方式和工具来方便用户使用,但这种工具通常并不容易获得。

   综合上述调查结果可以初步归纳出用户对受控语言的宏观需求:
   1.用户在使用数据库信息服务进行检索和浏览数据库时需要受控语言;
   2.用户需要简单而快速的受控语言解决方案。
   HILT的调查结果基本反映了受控语言的应用现状,或者说受控语言的应用是由用户推动的,但目前还落后于用户的需求。

3.2 微观需求分析
   微观的用户需求是从一个具体的信息检索过程出发,探讨受控语言对用户的知识视野或信息视图的影响和引导作用,从而提出用户需求的具体层次,也就是从具体的浏览和检索过程来归纳用户对受控语言的需求。
   信息检索过程实际上是“系统的知识视野和检索者的知识范围相互作用和融合的过程”。在反复交互过程中,受控语言起到了引导检索方向、净化检索词甚至提供知识本身的作用。受控语言作为知识容器或知识框架,保证检索者和检索系统间顺利交互。具体检索过程及分析如下:
   A.检索开始阶段一—检索者并没意识到主题词表的存在,检索需求是一个单词或词组;检索系统返回的结果可能修正它对需求信息的认识,此时主题词表作为检索用词的参照,成为检索者进一步检索中检索词挑选的依据,这时检索者开始意识到主题词表的存在,进入下一个检索阶段;
   B.检索进行阶段——主题词表的作用体现在改善检索词的表达性,检索者利用主题词表可选用适合需要的检索用词,随后进入下一阶段;
   C.检索深入阶段——主题词表的作用体现在“控制装置”,即通过概念之间的关系来扩大和缩小检索范围,成为“系统和检索者知识范围融合的必要工具”。
   上述检索过程描述说明,主题词(受控语言)在检索的每个阶段都降低了检索的“不确定度”,为检索者提供了值得参考和有意义的选择。因此可以说受控语言的微观需求体现在减少信息检索的不确定度上。可以把用户对受控语言的微观需求归纳为发现、确认、选择几个层次:
   1.发现信息:通过提供主题词浏览结构引导用户找到需要的信息;
   2.确认信息:通过主题词表之间的“用、代、属、分、参”等概念关系确认信息的价值;
   3.选择信息:为用户提供选择信息的依据;
   通过上述对用户宏观需求和微观需求的分析,受控语言在数据库信息服务中的积极性得到充分体现。可以说受控语言的应用需求是分层的,在宏观上受控语言需要简单、经济地解决用户界面,以便在浏览和检索过程中介入;微观上受控语言在减少信息检索的不确定性,并在信息的发现、确认、选择等环节发挥作用。
                                         下一页