互联网信息整合系统(3I)及其在外文生物医学索引数据整合中的应用
3I-外文生物医学数据整合部经理 王利敏

一、问题的提出

   外文医学科学文献是很重要的科学文献资源。印刷型外文资料昂贵,而互联网上大量有价值的免费外文医学文献资源很多且很少被利用。比如许多学术价值比较高的印刷型期刊(包括许多核心期刊), 如世界著名杂志《Science》、《Nature》、《British Medical Journal》、《JAMA》(美国医学会会刊)等,均可免费浏览检索文献目次、摘要、包括文献全文。也有象MEDLINE的Pubmed等数据库资源。网上免费资源不好用的原因很多,它们要么分散在不同的网站上,被互联网上的海量“垃圾”信息所淹没,而不宜被人发现;要么提供服务的网站出现问题,无法保证及时使用;要么医疗卫生机构本身网络条件所限,无法直接使用;即使这些问题全部解决了,也会因为互联网上文献资源表达方式和使用方法各异而无法统一检索,使其无法得到有效地利用。可见,整合网上资源非常必要,且难度不小。

二、清华同方互联网信息整合系统(3I)

  为了使各单位根据自己的需要方便地采集、管理和利用网上丰富的外文科技资料,清华同方开发了互联网信息整合系统,现在,我们可以用来自动地分门别类地采集专业资料,并自动分类,编制成一个结构化的全文数据库和CHKD一样方便地使用。下面介绍3I系统的功能和特性。

1、基本概念
  清华同方互联网信息整合系统(Internet Information Integration System,简称3I),是根据机构对知识资源的需求,从互联网上遴选、下载有价值的知识资源,经过分类整合后在本单位服务器上建立知识库的软件系统。

2、系统功能
(1)下载功能:根据系统设置,通过各种上网方式,自动将经过严格筛选后锁定的、稳定的、质量可靠的网络信息资源下载到本地服务器中;
(2)分类功能:根据系统设置的分类模式,自动对下载的信息资源进行专业分类,使无序的资源有序化。
(3)建库功能:自动将分类后的信息资源,进行标引后入库,形成数据库型网站或者非数据库型网站。
(4)发布功能:将建立的数据库型内容或非数据库内容,自动发布在单位内部网上,供本单位内部人员使用。
(5)管理功能:根据系统的配置,系统自动实现数据的周期性更新,无需人工干预。

3、系统性能
(1)网站格式:数据库网站、非数据库网站
(2)网页格式:WEB格式、PDF格式、JPG格式等
(3)线程数量:<1000个
(4)联网方式:DDN专线、ADSL、ISDN等

4、系统特点
(1)按需建库:
  通过设定信息采集目标、范围和合理的下载策略,将采集信息的主题内容提取出来保存入库。
(2)定制分类自动标引:
  根据系统设置中已经定义好的医学专业分类和其他分类模式,对采集的信息自动分类入库,并按照预置的字段实现自动标引。
(3)实时监控自动更新:
  对系统定制的网站可实时监控,当其内容更新时,系统会自动将更新的内容及时下载到本地,极大满足了临床工作者以及科研人员对最新文献和动态信息的需求。

5、整合的价值
(1)实现“一站式”(ALL-IN-ONE)检索:
  通过资源整合实现“一站式”(ALL-IN-ONE)检索,提高检索效率。使得临床、科研、管理人员在有限的精力和时间下,最大限度的、有效的利用经过专业分类和整合加工后的有价值的有序信息资源。
(2)实现外文资源数字化,节约存储空间,减少维护费用
  节约订购经费,降低外文信息资源建设成本,彻底解决网络数据库因网络的脆弱性、数据库系统不够稳定和安全、新旧软件兼容性不强等因素造成的使用方面的隐患,从而实现有价值资源的合理有效使用、永久保存和永久使用权;
(3)降低网络通讯费用,提高网络系统安全性
  使用3I系统后,机构内仅需一台计算机连接到互联网上进行下载和更新,减少单位内部的局域网与互联网连接,降低网络通讯费用,同时提高机构内部网络系统的安全性。另外,使用3I系统的定时下载功能,在晚上费用低和网络流量少时下载,还可大大提高互联网的使用效率,避免网络文献及信息资源的浏览和检索受网络稳定性和网速的影响。

三、3I在外文生物医学数据整合的应用

  作为应用范例,我们采用3I系统,将有价值的互联网外文生物医学文献进行了整合,形成一个虚拟的外文生物医学文献资源库。

1、资源内容
(1)资源类型:期刊数据库、电子图书、论文报告、专业资源、新闻动态等。
(2)采集依据:期刊资源均来源于传统印刷版期刊的电子网站,其中核心期刊依据:世界卫生组织推荐外文医药卫生核心期刊、《国外科技核心期刊手册》(1991版)推荐外文医药卫生核心期刊等
(3)具体内容:期刊文献4500多种,其中全文800多种;电子图书800多种;论文报告1000多种;文献总量约300多万条;信息总量约300GB。

2、系统功能
(1)分类方式:按首字母排序、按医学专业排序、按全文发布时间排序
(2)检索方式:本期刊检索、数据库检索、网页快照检索
(3)原文显示方式:WEB格式、PDF格式
(4)使用方式:可用硬盘提供软件和索引数据。

3、服务内容
(1)免费安装:为用户机构提供系统的首次安装;
(2)免费培训:为用户机构提供一次技术培训;
(3)免费更新索引数据:为没有上网条件的机构提供每月一次数据更新,为期一年。