DOD数据标注

2022年8月

Posted by franztao on August 31, 2022

一、整体要求

标注回答几个问题

  • 表格检测:页面中是否有表格
  • 表格分类:是什么类型的表格,分子性质表/Markush表/其它表
  • 表格整体粗粒度结构:
    • 常规表格:标注 标题 + 表体 + 脚注 区域
    • Markush表格:标注 母核 + 标题 + 表体 + 脚注 区域

1、所有pdf图片表格元素都需要被框准确和划分到正确的类型,不能出现漏标注或类型标注错误的情况

2、最终交付的标注成果数据为 JSON 格式文件。

典型示例

二、 文档元素分类(标注对象)

元素 定义 备注
Text 作者,作者单位; 纸质资料; 版权信息;简介; 正文、脚注和附录中的段落; x
Text_caption 插图或者表格 标题 属于text的子类,是更细分的分类
Text_footnote 插图或者表格 注解 属于text的子类,是更细分的分类
Title 文章标题 x
List 列表 x
Table 表格 x
Table_OCSR 表格上的分子图 属于Figure的子类,是更细分的分类。逻辑上是属于表格的分子图
Figure 插图 x

具体标注样例展示如下图:

二、标注数据前统计

  • pdf数量

  • Plain pages,页数数量,每pdf页数平均数,每pdf有表的页数平均数

  • 每pdf表格平均数

  • 每有表页的表格数平均数

  • pages with Title

  • Pages with lists

  • Pages with tables

  • Pages with figures

三、标注原则:

(1)贴边规则:标注框需紧贴目标的边缘进行画框标注,不可框小或框大。要求边框尽量贴合,像素偏差小于5px,特别注意边框的高度。

(2)重叠规则:当两个目标物体有重叠的时候,比如图嵌入在大图中,表嵌入在大表中,则只框住大表,大图。也就是就框最大的框。

(3)独立规则: 每一个目标均需要单独拉框,不能出现图上有颜色的部分没有被框住

(4)边界检查: 确保框坐标不在图像边界上,防止载入数据或者数据扩展过程中存在越界报错。

(5)小目标规则:不同算法对小目标的检测效果不同,对于小目标只要人眼能分清,都应该标出来。

(6) 框唯一标签规则:每个框只有一个正确标签

小目标规则,独立规则,在当只重点标注一个类(表格时)可以不用遵守

四、常见标注错误(持续补充):

错误类型 违反规则 错误分析 样例
Correct x x x
Partial 重叠规则 表注框包含在表框内
x x 表和插图框混合在一起
Over-Segmented 贴边规则 表格top多框住其他内容
label incorrect 框唯一标签规则,贴边规则 表格类型打标错误,及表格左边区域预测少了
Under-Segmented 贴边规则 表格2的左边界少框住范围
False Positive x 漏标 x

五、标注检查规范:

(1)标注正确率:检查被标注的目标(框)的标签类别是否正确。 (2)标注精确度:检查标注框是否完整贴合目标,是否存在标注框过大或者过小情况。 (3)标注完备性:检查重叠或者部分被遮挡的目标是否存在漏标,或者重复标注情况。

六、标注质量指标(交付数据的质控标准)

1、错标数:框标签类型错误、属性(页数,文件名)错误、精度不符合要求的标注成果数量。

精度不符合要求

  1. 标注的框之间重叠

  2. 标注的框,框住冗余白色区域不超过真实框面积的5%,绝对不能框住不属于表格的区域

2、漏标数:符合标注规范要求,但被遗漏的标注元素数量。

3、多标数:

①不符合标注规范要求或真实图片不存在的要求,但被标注的元素数量;

②单一标注元素被多次重复标注的数量。

4、已验收总数:验收交付成果元素总数量。

5、正确率计算公式如下: 正确率=(已验收总数-多标数-错标数)/(已验收总数+漏标数)。

七、数据标注流程

  1. 数据采集,算法提供预标注的pdf图片,pdf图片来自数据团队提供的医药pdf文件

  2. 数据预处理,去掉没有表格和插图的pdf图片,每页pdf图片会经过掩盖ocsr分子处理

  3. 数据管理,元数据信息字段(参考下图数据视角和数据采集采样构造)

4.模型预标注,在通过模型预标注之后,需要检查预标注结果以此来挖掘试标注的不足之处,随后根据不足之处进行补充标注。

6.错误标注反馈机制(待补充)

八、标注数据范围和计划

本次标注范围

元素 是否算法预标注 是否需要标注和基于预标注修正
Text
Text_caption 是,会出现标注为Text,需要基于预标注修正
Text_footnote 是,会出现标注为Text,需要基于预标注修正
Table
Table_OCSR
Title
List
Figure

5.交付标注文件夹格式和文件格式

文件夹格式

数据集1 pdfs
|-- images
|   |-- pdf文件名_物理页码.jpg
|   |-- PMC6589332_12.jpg
|   |-- XXX.jpg
|-- voc_labels
|   |-- pdf文件名_物理页码.xml
|   |-- PMC6589332_12.xml
|   |-- XXX.xml
|-- coco.json

XXX.xml文件 voc数据格式

<?xml version="1.0" ?>
<annotation>
   <folder/>
   <filename>PMC6589332_11.jpg</filename>
   <size>
      <width>773</width>
      <height>1000</height>
      <depth>3</depth>
   </size>
   <object>
<supercategory>table<supercategory>
      <name>table</name>
      <bndbox>
         <xmin>243.93609898386438</xmin>
         <ymin>133.85618575895674</ymin>
         <xmax>721.0680585873672</xmax>
         <ymax>351.1486631451231</ymax>
      </bndbox>
   </object>
</annotation>

没有标注的文件那就是没有xml

coco.json 文件 coco数据格式

{
 "images": [
  {
   "id": 0,
   "width": 1984,
   "height": 2806,
   "file_name": "0064177888b53c6667f6ce67f2efe82f01c40_0.png",(文件名称!!)
  }
  ],
  "annotations": [
  {
   "id": 0,
   "image_id": 50,
   "category_id": 1

   "area": 100802.70731920577,
   "bbox": [
    x,
    y,
    w,
    h
   ],
   "iscrowd": 0
  }],
 "categories": [
  {
   "supercategory": "Table_title",
   "id": 1,
   "name": "Table1_title"
  }]
  }