中国期刊网CNKI数字图书馆！

《中国学术期刊网络出版总库》数据质量测试报告

　　受新闻出版总署组织的《中国学术期刊网络出版总库》（以下简称《总库》）鉴定委员会委托，本测试组对《总库》的数据质量进行测试。现报告如下：

一、测试内容
　　主要测试内容包括：著录元数据、标引元数据、全文数据三个部分。详细指标见下表 1 。

表1数据质量测试项目指标

序号	项目		标准指标	监督总体数量	抽样方案
序号	项目		标准指标	监督总体数量	样本量(n)	监督质量水平(P0 %)	不通过判定数(Re)	相当的文章数量
1.1	单篇文献著录元数据	中文题名	著录文字错误率＜0.05%	2.2 亿字	700	0.05%	2	47
1.2		其他语种题名	著录文字错误率＜0.08%	1.2 亿字	438	0.08%	2	29
1.3		中文摘要	著录文字错误率＜0.1%	12 亿字	1999	0.10%	5	7
1.4		英文摘要	著录文字错误率＜0.1%	10 亿字	1999	0.10%	5	7
1.5		参考文献	著录文字错误率＜0.1%	11 亿字	1999	0.10%	5	7
1.6		基金	著录文字错误率＜0.05%	4500 万字	700	0.05%	2	35
1.7		作者中文名	著录项错误率＜0.05%	3000 万个作者名	63	0.05%	1	32
1.8		作者机构	著录项错误率＜0.08%	3000 万个作者机构	39	0.08%	1	19
1.9		第一责任人	著录项错误率＜0.05%	2100 万篇	63	0.05%	1	63
1.10		页数	著录项错误率＜0.05%	2100 万篇	63	0.05%	1	63
1.11		语种	著录项错误率＜0.01%	2100 万篇	315	0.01%	1	315
1.12		出版年卷期号	著录项错误率＜0.01%	70 万期	315	0.01%	1	315
1.13	整刊著录元数据	中文刊名、英文刊名	著录项错误率＜0.01%	6642 种	315	0.01%	1
1.14		国际标准连续出版物号（ISSN）	著录项错误率＜ 0.01%	6642 种	315	0.01%	1
1.15		中国印刷版出版物编号（CN）	著录项错误率＜ 0.01%	6642 种	315	0.01%	1
1.16	标引元数据	主题词	标引正确率 ≥ 90%	2500 万个主题词	20	10%	5	5
1.16		主题词	标引一致度 ≥ 90%	2500 万个主题词	20	10%	5	20
1.17		中文关键词	标引正确率 ≥ 90%	7500 万个关键词	20	10%	5	5
1.17		中文关键词	标引一致度 ≥ 90%	7500 万个关键词	20	10%	5	20
1.18	全文数据	文本型全文数据	版面错误率＜ 0.05%	4500 万版	63	0.05%	1	21
1.19		图像型全文数据	文字和灰度图片扫描分辨率 ≥ 300dpi	4500 万页	63	0	1	21
			彩色图片扫描分辨率 ≥ 200dpi	4500 万页	63	0	1	21
			页面错误率＜ 0.05%	4500 万页	63	0.05%	1	21

　　注 1 ： n —样本量 ; P0 —监督质量水平，不合格品率 P0=1- 合格品率 ; Re —不通过判定数 ; α—错判风险为 0.05 。
　　注 2 ：由于整刊著录元数据测试需要印刷版样刊，目前在生产线上只有 2006 年的印刷版样刊，故本测试以 2006 年出版的期刊为样本。
　　注 3 ：著录文字错误不包括公式及标点符号错误。注 4 ：主题词项标引元数据在医药卫生类文献范围内测试。

二、测试方法

　　本测试采用随机抽样测试方法。

　　本测试抽样方案依据 GB/T 14437-1997 《中华人民共和国国家标准·产品质量监督计数一次抽样检验程序及抽样方案》制定。对于大量数据（总体监督量应大于 250 ），采用随机抽样法，从大量数据中随机抽取部分数据，通过对部分数据的检查结果，近似地代表整体数据的检查结果。

三、测试过程

　　1. 测试安排

见表 2 。

表 2 ：测试安排

分组	测试项目		测试工具
1	单篇文献著录元数据	测试著录文字错误率，包括：中文题名、其他语种题名、中文摘要、英文摘要、基金、参考文献	随机抽样工具
		测试多值著录项错误率，包括：作者中文名、作者机构
		测试单值著录项错误率，包括：第一责任人、页数、语种、出版年卷期号
2	整刊著录元数据	中文刊名、英文刊名、国际标准连续出版物号（ISSN）、中国印刷版出版物编号 (CN)	随机抽样工具期刊专辑导航
3	标引元数据	主题词、中文关键词	主题词知识导航中图法分类导航随机抽样工具
4	全文数据	文本型全文数据、图像型全文数据	随机抽样工具

2. 测试记录
　　详细测试记录见附件一。

四、测试结果

1 、各项数据测试指标符合《总库》标准要求，详细测试结果见附件。

2 、采用了机标关键词与主题词，可以在统一标准下对过刊文献关键词，主题词进行动态更新或重新标引。

3 、 1994 年以来各年现刊文献的文本型全文数据，基本采用了入编期刊编辑部直接提供的电子文档。 1993 年以前和部分 1994 年以后的回溯期刊的文本型全文数据，采用了由扫描图像文档经 OCR 全文自动识别后产生的电子文档，并对元数据进行了人工编校，与其相应的扫描图像文档共同存贮，其全文浏览页面为扫描图像文档。文本型全文数据版面错误率小于 0.05% ，图像型全文数据页面错误率小于 0.05% 。文字和灰度图片扫描分辨率达到 300dpi ，彩色图片扫描分辨率达到 200dpi 。

4 、通过系统地建立智能化数据加工管理体系，采用先进的数据加工工艺和工艺规范，实施严格的质量控制体系，使海量数据的加工质量达到了《总库》标准的各项质量指标要求。

5 、建议
a) 希望能加强著录项内容选取的准确性和一致性，如题名的选取（栏目名称和篇名的选择），参考文献的鉴定（文章最后说明的出处和参考文献的识别）等；
b) 希望能增加人工干预来删掉一些相关度不高的机标关键词，以更加符合主题词的概念。

附件一：《中国学术期刊网络出版总库》数据质量测试记录
附件二：《中国学术期刊网络出版总库》数据质量测试说明

　　　　　　　　　　　　　　　　　　　　　　　　　　 《中国学术期刊网络出版总库》
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　数据质量测试组
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　组长： 郑巧英（签字）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2006 年 9 月 26 日
　　　　　　　　　　　　　　　　　　　　　　　　　郑巧英：上海交通大学图书馆副馆长

附件（略）