数字图书馆最新技术介绍

1、数字图书馆资源管理技术
    分布式异构平台 数字图书馆中大量的数字资源往往由不同的厂家提供,这些数据库通常运行硬件软件系统环境、用户使用方式各不相同。用户在使用数据库时,不但要学习多种系统的使用方法,而且需要反复地登录不同数据库,重复输入检索词,不但浪费读者大量的时间和精力而且效率比较低,给访问数据库造成了很大的障碍。
    为了解决这个问题,TPI系统提供了异构统一检索平台USP。它是一个智能的网络数据库检索平台,采用基于中间件的技术,为每一种数据库系统定制专用的数据驱动中间件,实现在同一个用户界面上对多个异构网络数据库进行检索,实现数据库融合,消除数据的壁垒,降低用户使用难度,增加数据库的易用性。
    USP已经支持的数据库有:ABI,INSPEC、GOOGLE、Ei、Elsevier Science、Zbl.Math、IOP E-journals、IEEE/IEE 全文库、 JCR、 Science Online、 NTIS、 PQDD、 CSA、 ISI Proceedings、 EBSCO、 Academic、Nature、 Springer Link、 中国期刊网、万方数据库、中国资讯行、高校学位论文、超星电子书等。
    搜索引擎 面向Internet的搜索引擎是从各种网络资源中浏览和检索信息的工具。这些网络资源包括:Web、FTP文档、新闻组、Gopher、E-MAIL等。搜索引擎由网络蜘蛛、全文搜索系统、用户访问界面几个部组成。随着因特网的发展,专业搜索引擎发展迅猛。专业搜索引擎通过用户订户定制特定的搜索需求,大大提高了搜索质量。目前搜索引擎正向智能化方向发展,智能搜索的智能体现在三个方面:(1)网络蜘蛛的智能化。(2)为特定用户主动提供相关信息。(3)搜索引擎人机接口的智能化。
    全文检索技术 经过多年的发展,传统的基于布尔模型的检索系统已经成熟。但布尔系统的弱点也非常突出,查准查全都相对较低,经常返回大量不相关的垃圾信息。基于知识网络语义网络的新一代智能检索系统正得到巨大的发展。智能检索系统通常支持同义词、主题词扩展检索,支持文档相似性检索,检索结果的动态聚类,多语言混合检索以及扩语言检索等功能。此外,新一代全文检索系统需面对TB级海量数据库的考验。清华同方的全文检索FTS4.0版就是业界第一款智能中文检索引擎。
    推送服务技术 这是一种主动服务技术。用户利用搜索引擎查找资料是一种被动式服务,检索过程需要用户参与。推送服务只需要用户指明服务的具体要求即可,而服务过程本身不需用户参与。目前,推送服务主要有异步推送和同步推送两种。异步推送主要通过电子邮件系统进行,对于实时性要求差的服务一般采用此种方式。同步推送通过实时消息平台进行,如短消息平台等。在数字图书馆中,可以开展订阅型推送服务、检索型推送服务和提示推送服务。订阅型服务主要用于期刊报纸类电子读物的订阅,系统定期将资料通过电子邮件系统发送给用户。检索型推送服务需要用户详细给出自己的检索需求,系统定期将最新的相关资料发送给用户。这两种服务都是异步服务。

2、数字图书馆资源建设技术
    TPI数字资源加工系统 集清华同方多年资源加工经验的结晶。不但产品全面完整,而且符合加工实际,采用流水线设计技术,大大提高资源加工效率。加工工具包括电子图书制作工具,元数据标引工具,分类工具,检查工具和通用文件格式转换工具。其制作的电子书和CNKI数据库共用浏览器Cajviewer,CAJ浏览器具有专业出版级的显示质量和打印输出效果。同时还支持流式浏览,极大提高用户响应速度。
TPI资源加工系统支持多种文件格式。如常用的WORD PDF TXT S2,S72,PS2 等,通过通用文件转换工具几乎可以支持所有的文档格式。TPI标引工具独特的版面直接标引技术使得元数据标引这一资源加工中的难题迎刃而解。
    TPI无需编程,自动支持数据库跨库检索。此外,还内置多种应用模板,如图片,声音,视频,电子图书,教学参考书,新闻,网络资源等,极大方便用户建设自己的特色资源数据库。
    实时信息采集系统(RIG) 对Internet进行信息钻探、切片、挖掘、抽取、监视的专业系统。通过RIG,用户可以实现对整个Internet的定制,包括内容频道、特定资源监控、专业资源采集等系统通过智能网页分析机器人,自动及时对相关网站或网页进行实时分析,并将结果放入FTS服务器中。用户利用Internet浏览器访问采集到的信息。
    RIG可以用于个人离线浏览网站;实时搜集专业领域动态和学习专业新知识;企业搜集本行业网站的情报;咨询公司的信息采集系统;商业竞争中的监控系统;实时新闻获取等等。

3、数字图书馆平台管理技术
    用户管理 TPI的用户管理包括检索用户的管理和数据制作人员的管理两部分。检索用户权限控制包括数据库访问,字段访问,口令,密码,IP 控制等。数据制作帐户包括标引,分类,检查等。检索用户无权对系统数据进行更改,未经授权用户无法进行相应的操作,确保系统安全。
    数据更新 TPI的分布式体系结构和真正的海量处理能力,使得数据更新非常容易,通常情况下,TPI采取实时更新方式,边服务边更新,系统采用增量索引技术,更新安全、高效。当数据量较大时(如几十兆字节),可以采用后台更新方式,系统自动调度更新作业,大大提高了系统响应能力。
    备份管理 TPI提供完善的数据备份安全机制,既可以让系统定期自动备份,又可以手工备份。当硬件系统出现问题时,轻松从备份数据中恢复系统。作到数据资源万无一失。
                                                (信息化工程事业部数字图书馆项目室)