受新闻出版总署组织的《中国学术期刊网络出版总库》(以下简称《总库》)鉴定委员会委托,本测试组对《总库》的数据质量进行测试。现报告如下:
一、测试内容
主要测试内容包括:著录元数据、标引元数据、全文数据三个部分。详细指标见下表 1 。
表1数据质量 测试项目指标
序号 |
项目 |
标准指标 |
监督总体数量 |
抽样方案 |
样本量(n) |
监督质量水平(P0 %) |
不通过判定数(Re) |
相当的文章数量 |
1.1 |
单篇文献著录元数据 |
中文题名 |
著录文字错误率<0.05% |
2.2 亿字 |
700 |
0.05% |
2 |
47 |
1.2 |
其他语种题名 |
著录文字错误率<0.08% |
1.2 亿字 |
438 |
0.08% |
2 |
29 |
1.3 |
中文摘要 |
著录文字错误率<0.1% |
12 亿字 |
1999 |
0.10% |
5 |
7 |
1.4 |
英文摘要 |
著录文字错误率<0.1% |
10 亿字 |
1999 |
0.10% |
5 |
7 |
1.5 |
参考文献 |
著录文字错误率<0.1% |
11 亿字 |
1999 |
0.10% |
5 |
7 |
1.6 |
基金 |
著录文字错误率<0.05% |
4500 万字 |
700 |
0.05% |
2 |
35 |
1.7 |
作者中文名 |
著录项错误率<0.05% |
3000 万个作者名 |
63 |
0.05% |
1 |
32 |
1.8 |
作者机构 |
著录项错误率<0.08% |
3000 万个作者机构 |
39 |
0.08% |
1 |
19 |
1.9 |
第一责任人 |
著录项错误率<0.05% |
2100 万篇 |
63 |
0.05% |
1 |
63 |
1.10 |
页数 |
著录项错误率<0.05% |
2100 万篇 |
63 |
0.05% |
1 |
63 |
1.11 |
语种 |
著录项错误率<0.01% |
2100 万篇 |
315 |
0.01% |
1 |
315 |
1.12 |
出版年卷期号 |
著录项错误率<0.01% |
70 万期 |
315 |
0.01% |
1 |
315 |
1.13 |
整刊著录元数据 |
中文刊名、英文刊名 |
著录项错误率<0.01% |
6642 种 |
315 |
0.01% |
1 |
|
1.14 |
国际标准连续出版物号(ISSN) |
著录项错误率< 0.01% |
6642 种 |
315 |
0.01% |
1 |
|
1.15 |
中国印刷版出版物编号 (CN) |
著录项错误率< 0.01% |
6642 种 |
315 |
0.01% |
1 |
|
1.16 |
标引元数据 |
主题词 |
标引正确率 ≥ 90% |
2500 万个主题词 |
20 |
10% |
5 |
5 |
标引一致度 ≥ 90% |
2500 万个主题词 |
20 |
10% |
5 |
20 |
1.17 |
中文关键词 |
标引正确率 ≥ 90% |
7500 万个关键词 |
20 |
10% |
5 |
5 |
标引一致度 ≥ 90% |
7500 万个关键词 |
20 |
10% |
5 |
20 |
1.18 |
全文数据 |
文本型全文数据 |
版面错误率< 0.05% |
4500 万版 |
63 |
0.05% |
1 |
21 |
1.19 |
图像型全文数据 |
文字和灰度图片扫描分辨率 ≥ 300dpi |
4500 万页 |
63 |
0 |
1 |
21 |
彩色图片扫描分辨率 ≥ 200dpi |
4500 万页 |
63 |
0 |
1 |
21 |
页面错误率< 0.05% |
4500 万页 |
63 |
0.05% |
1 |
21 |
注 1 : n —样本量 ; P0 —监督质量水平,不合格品率 P0=1- 合格品率 ; Re —不通过判定数 ; α—错判风险为 0.05 。
注 2 :由于整刊著录元数据测试需要印刷版样刊,目前在生产线上只有 2006 年的印刷版样刊,故本测试以 2006 年出版的期刊为样本。
注 3 :著录文字错误不包括公式及标点符号错误。注 4 :主题词项标引元数据在医药卫生类文献范围内测试。
二、测试方法
本测试采用随机抽样测试方法。
本测试抽样方案依据 GB/T 14437-1997 《中华人民共和国国家标准·产品质量监督计数一次抽样检验程序及抽样方案》制定。对于大量数据(总体监督量应大于 250 ),采用随机抽样法,从大量数据中随机抽取部分数据,通过对部分数据的检查结果,近似地代表整体数据的检查结果。
三、测试过程
1. 测试安排
见表 2 。
表 2 :测试安排
分组 |
测试项目 |
测试工具 |
1 |
单篇文献著录元数据 |
测试著录文字错误率,包括:中文题名、其他语种题名、中文摘要、 英文摘要 、基金、参考文献 |
随机抽样工具 |
测试多值著录项错误率,包括:作者中文名、作者机构 |
测试单值著录项错误率,包括:第一责任人、页数、语种、 出版年卷期号 |
2 |
整刊著录元数据 |
中文刊名、 英文刊名 、国际标准连续出版物号(ISSN)、中国印刷版出版物编号 (CN) |
随机抽样工具
期刊专辑导航 |
3 |
标引元数据 |
主题词、中文关键词 |
主题词知识导航
中图法分类导航
随机抽样工具 |
4 |
全文数据 |
文本型全文数据 、 图像型全文数据 |
随机抽样工具 |
2. 测试记录
详细测试记录见附件一。
四、测试结果
1 、 各项数据测试指标符合《总库》标准要求,详细测试结果见附件。
2 、 采用了机标关键词与主题词,可以在统一标准下对过刊文献关键词,主题词进行动态更新或重新标引。
3 、 1994 年以来各年现刊文献的文本型全文数据,基本采用了入编期刊编辑部直接提供的电子文档。 1993 年以前和部分 1994 年以后的回溯期刊的文本型全文数据,采用了由扫描图像文档经 OCR 全文自动识别后产生的电子文档,并对元数据进行了人工编校,与其相应的扫描图像文档共同存贮,其全文浏览页面为扫描图像文档。文本型全文数据版面错误率小于 0.05% ,图像型全文数据页面错误率小于 0.05% 。文字和灰度图片扫描分辨率达到 300dpi ,彩色图片扫描分辨率达到 200dpi 。
4 、 通过系统地建立智能化数据加工管理体系,采用先进的数据加工工艺和工艺规范,实施严格的质量控制体系,使海量数据的加工质量达到了《总库》标准的各项质量指标要求。
5 、 建议
a) 希望能加强著录项内容选取的准确性和一致性,如题名的选取(栏目名称和篇名的选择),参考文献的鉴定(文章最后说明的出处和参考文献的识别)等;
b) 希望能增加人工干预来删掉一些相关度不高的机标关键词,以更加符合主题词的概念。
附件一:《中国学术期刊网络出版总库》数据质量测试记录
附件二:《中国学术期刊网络出版总库》数据质量测试说明
《中国学术期刊网络出版总库》
数据质量测试组
组长: 郑巧英(签字)
2006 年 9 月 26 日
郑巧英:上海交通大学图书馆副馆长
附件(略) |