《中国学术期刊网络出版总库》数据质量测试报告

  受新闻出版总署组织的《中国学术期刊网络出版总库》(以下简称《总库》)鉴定委员会委托,本测试组对《总库》的数据质量进行测试。现报告如下:

一、测试内容
  
主要测试内容包括:著录元数据、标引元数据、全文数据三个部分。详细指标见下表 1 。

表1数据质量 测试项目指标

序号

项目

标准指标

监督总体数量

抽样方案

样本量(n)

监督质量水平(P0 %)

不通过判定数(Re)

相当的文章数量

1.1

单篇文献著录元数据

中文题名

著录文字错误率<0.05%

2.2 亿字

700

0.05%

2

47

1.2

其他语种题名

著录文字错误率<0.08%

1.2 亿字

438

0.08%

2

29

1.3

中文摘要

著录文字错误率<0.1%

12 亿字

1999

0.10%

5

7

1.4

英文摘要

著录文字错误率<0.1%

10 亿字

1999

0.10%

5

7

1.5

参考文献

著录文字错误率<0.1%

11 亿字

1999

0.10%

5

7

1.6

基金

著录文字错误率<0.05%

4500 万字

700

0.05%

2

35

1.7

作者中文名

著录项错误率<0.05%

3000 万个作者名

63

0.05%

1

32

1.8

作者机构

著录项错误率<0.08%

3000 万个作者机构

39

0.08%

1

19

1.9

第一责任人

著录项错误率<0.05%

2100 万篇

63

0.05%

1

63

1.10

页数

著录项错误率<0.05%

2100 万篇

63

0.05%

1

63

1.11

语种

著录项错误率<0.01%

2100 万篇

315

0.01%

1

315

1.12

出版年卷期号

著录项错误率<0.01%

70 万期

315

0.01%

1

315

1.13

整刊著录元数据

中文刊名、英文刊名

著录项错误率<0.01%

6642 种

315

0.01%

1

 

1.14

国际标准连续出版物号(ISSN)

著录项错误率< 0.01%

6642 种

315

0.01%

1

 

1.15

中国印刷版出版物编号 (CN)

著录项错误率< 0.01%

6642 种

315

0.01%

1

 

1.16

标引元数据

主题词

标引正确率 ≥ 90%

2500 万个主题词

20

10%

5

5

标引一致度 ≥ 90%

2500 万个主题词

20

10%

5

20

1.17

中文关键词

标引正确率 ≥ 90%

7500 万个关键词

20

10%

5

5

标引一致度 ≥ 90%

7500 万个关键词

20

10%

5

20

1.18

全文数据

文本型全文数据

版面错误率< 0.05%

4500 万版

63

0.05%

1

21

 

1.19

图像型全文数据

文字和灰度图片扫描分辨率 ≥ 300dpi

4500 万页

63

0

1

21

彩色图片扫描分辨率 ≥ 200dpi

4500 万页

63

0

1

21

页面错误率< 0.05%

4500 万页

63

0.05%

1

21

  注 1 : n —样本量 ; P0 —监督质量水平,不合格品率 P0=1- 合格品率 ; Re —不通过判定数 ; α—错判风险为 0.05 。
  注 2 :由于整刊著录元数据测试需要印刷版样刊,目前在生产线上只有 2006 年的印刷版样刊,故本测试以 2006 年出版的期刊为样本。
  注 3 :著录文字错误不包括公式及标点符号错误。注 4 :主题词项标引元数据在医药卫生类文献范围内测试。

二、测试方法

  本测试采用随机抽样测试方法。

  本测试抽样方案依据 GB/T 14437-1997 《中华人民共和国国家标准·产品质量监督计数一次抽样检验程序及抽样方案》制定。对于大量数据(总体监督量应大于 250 ),采用随机抽样法,从大量数据中随机抽取部分数据,通过对部分数据的检查结果,近似地代表整体数据的检查结果。

三、测试过程

  1. 测试安排

见表 2 。

表 2 :测试安排

分组

测试项目

测试工具

1

单篇文献著录元数据

测试著录文字错误率,包括:中文题名、其他语种题名、中文摘要、 英文摘要 、基金、参考文献

随机抽样工具

测试多值著录项错误率,包括:作者中文名、作者机构

测试单值著录项错误率,包括:第一责任人、页数、语种、 出版年卷期号

2

整刊著录元数据

中文刊名、 英文刊名 、国际标准连续出版物号(ISSN)、中国印刷版出版物编号 (CN)

随机抽样工具

期刊专辑导航

3

标引元数据

主题词、中文关键词

主题词知识导航

中图法分类导航

随机抽样工具

4

全文数据

文本型全文数据 、 图像型全文数据

随机抽样工具

2. 测试记录
  详细测试记录见附件一。

四、测试结果

1 、 各项数据测试指标符合《总库》标准要求,详细测试结果见附件。

2 、 采用了机标关键词与主题词,可以在统一标准下对过刊文献关键词,主题词进行动态更新或重新标引。

3 、 1994 年以来各年现刊文献的文本型全文数据,基本采用了入编期刊编辑部直接提供的电子文档。 1993 年以前和部分 1994 年以后的回溯期刊的文本型全文数据,采用了由扫描图像文档经 OCR 全文自动识别后产生的电子文档,并对元数据进行了人工编校,与其相应的扫描图像文档共同存贮,其全文浏览页面为扫描图像文档。文本型全文数据版面错误率小于 0.05% ,图像型全文数据页面错误率小于 0.05% 。文字和灰度图片扫描分辨率达到 300dpi ,彩色图片扫描分辨率达到 200dpi 。

4 、 通过系统地建立智能化数据加工管理体系,采用先进的数据加工工艺和工艺规范,实施严格的质量控制体系,使海量数据的加工质量达到了《总库》标准的各项质量指标要求。

5 、 建议
a) 希望能加强著录项内容选取的准确性和一致性,如题名的选取(栏目名称和篇名的选择),参考文献的鉴定(文章最后说明的出处和参考文献的识别)等;
b) 希望能增加人工干预来删掉一些相关度不高的机标关键词,以更加符合主题词的概念。

附件一:《中国学术期刊网络出版总库》数据质量测试记录
附件二:《中国学术期刊网络出版总库》数据质量测试说明

                           《中国学术期刊网络出版总库》
                              数据质量测试组
                             组长: 郑巧英(签字)
                                 2006 年 9 月 26 日
                         郑巧英:上海交通大学图书馆副馆长

附件(略)