DOD数据标注

一、整体要求

标注回答几个问题

表格检测：页面中是否有表格
表格分类：是什么类型的表格，分子性质表/Markush表/其它表
表格整体粗粒度结构：
- 常规表格：标注标题 + 表体 + 脚注区域
- Markush表格：标注母核 + 标题 + 表体 + 脚注区域

1、所有pdf图片表格元素都需要被框准确和划分到正确的类型，不能出现漏标注或类型标注错误的情况

2、最终交付的标注成果数据为 JSON 格式文件。

典型示例

二、文档元素分类(标注对象)

元素	定义	备注
Text	作者，作者单位；纸质资料；版权信息;简介；正文、脚注和附录中的段落；	x
Text_caption	插图或者表格标题	属于text的子类，是更细分的分类
Text_footnote	插图或者表格注解	属于text的子类，是更细分的分类
Title	文章标题	x
List	列表	x
Table	表格	x
Table_OCSR	表格上的分子图	属于Figure的子类，是更细分的分类。逻辑上是属于表格的分子图
Figure	插图	x

具体标注样例展示如下图：

二、标注数据前统计

pdf数量
Plain pages,页数数量，每pdf页数平均数，每pdf有表的页数平均数
每pdf表格平均数
每有表页的表格数平均数
pages with Title
Pages with lists
Pages with tables
Pages with figures

三、标注原则：

（1）贴边规则：标注框需紧贴目标的边缘进行画框标注，不可框小或框大。要求边框尽量贴合，像素偏差小于5px，特别注意边框的高度。

（2）重叠规则：当两个目标物体有重叠的时候，比如图嵌入在大图中，表嵌入在大表中，则只框住大表，大图。也就是就框最大的框。

（3）独立规则: 每一个目标均需要单独拉框，不能出现图上有颜色的部分没有被框住

（4）边界检查: 确保框坐标不在图像边界上，防止载入数据或者数据扩展过程中存在越界报错。

（5）小目标规则:不同算法对小目标的检测效果不同，对于小目标只要人眼能分清，都应该标出来。

(6) 框唯一标签规则：每个框只有一个正确标签

小目标规则,独立规则，在当只重点标注一个类（表格时）可以不用遵守

四、常见标注错误（持续补充）：

错误类型	违反规则	错误分析	样例
Correct	x	x	x
Partial	重叠规则	表注框包含在表框内
x	x	表和插图框混合在一起
Over-Segmented	贴边规则	表格top多框住其他内容
label incorrect	框唯一标签规则，贴边规则	表格类型打标错误，及表格左边区域预测少了
Under-Segmented	贴边规则	表格2的左边界少框住范围
False Positive	x	漏标	x

五、标注检查规范：

（1）标注正确率：检查被标注的目标（框）的标签类别是否正确。（2）标注精确度：检查标注框是否完整贴合目标，是否存在标注框过大或者过小情况。（3）标注完备性：检查重叠或者部分被遮挡的目标是否存在漏标，或者重复标注情况。

六、标注质量指标（交付数据的质控标准）

1、错标数：框标签类型错误、属性(页数，文件名)错误、精度不符合要求的标注成果数量。

精度不符合要求

标注的框之间重叠

标注的框，框住冗余白色区域不超过真实框面积的5%，绝对不能框住不属于表格的区域

2、漏标数：符合标注规范要求，但被遗漏的标注元素数量。

3、多标数：

①不符合标注规范要求或真实图片不存在的要求，但被标注的元素数量；

②单一标注元素被多次重复标注的数量。

4、已验收总数：验收交付成果元素总数量。

5、正确率计算公式如下：正确率=（已验收总数-多标数-错标数）/（已验收总数+漏标数）。

七、数据标注流程

数据采集，算法提供预标注的pdf图片，pdf图片来自数据团队提供的医药pdf文件
数据预处理，去掉没有表格和插图的pdf图片，每页pdf图片会经过掩盖ocsr分子处理
数据管理，元数据信息字段（参考下图数据视角和数据采集采样构造）

4.模型预标注，在通过模型预标注之后，需要检查预标注结果以此来挖掘试标注的不足之处，随后根据不足之处进行补充标注。

6.错误标注反馈机制（待补充）

八、标注数据范围和计划

本次标注范围

元素	是否算法预标注	是否需要标注和基于预标注修正
Text	是	否
Text_caption	否	是,会出现标注为Text,需要基于预标注修正
Text_footnote	否	是,会出现标注为Text,需要基于预标注修正
Table	是	是
Table_OCSR	是	是
Title	是	否
List	是	否
Figure	是	否

5.交付标注文件夹格式和文件格式

文件夹格式

数据集1 pdfs
|-- images
|   |-- pdf文件名_物理页码.jpg
|   |-- PMC6589332_12.jpg
|   |-- XXX.jpg
|-- voc_labels
|   |-- pdf文件名_物理页码.xml
|   |-- PMC6589332_12.xml
|   |-- XXX.xml
|-- coco.json

XXX.xml文件 voc数据格式

<?xml version="1.0" ?>
<annotation>
   <folder/>
   <filename>PMC6589332_11.jpg</filename>
   <size>
      <width>773</width>
      <height>1000</height>
      <depth>3</depth>
   </size>
   <object>
<supercategory>table<supercategory>
      <name>table</name>
      <bndbox>
         <xmin>243.93609898386438</xmin>
         <ymin>133.85618575895674</ymin>
         <xmax>721.0680585873672</xmax>
         <ymax>351.1486631451231</ymax>
      </bndbox>
   </object>
</annotation>

没有标注的文件那就是没有xml

coco.json 文件 coco数据格式

{
 "images": [
  {
   "id": 0,
   "width": 1984,
   "height": 2806,
   "file_name": "0064177888b53c6667f6ce67f2efe82f01c40_0.png",(文件名称!!)
  }
  ],
  "annotations": [
  {
   "id": 0,
   "image_id": 50,
   "category_id": 1

   "area": 100802.70731920577,
   "bbox": [
    x,
    y,
    w,
    h
   ],
   "iscrowd": 0
  }],
 "categories": [
  {
   "supercategory": "Table_title",
   "id": 1,
   "name": "Table1_title"
  }]
  }

2022年8月

CATALOG

FEATURED TAGS

FRIENDS