theory_table understanding
陶恒franz
2022-11-13
https://github.com/tommyMessi/awesome-table
table AI
problem
Challenge: Variety in Tables
error analysis
Table with graphic lines
Table with visual clues only
Complex tables – graphical lines can be misleading – is this 1, 2 or 3
tables ?
Nested row headers
Multi-row, multicolumn column headers
Table interleaved with text and charts
Tables with Textual content
子主题
subtask
§Analyze Page
– Read symbols & lines
– Identify low-level structures & relations
– Take shortcuts
§ The Main Tasks
– Table (region) detection
– Cell structure recognition (given table region)
§ Refine Tables
– Discard false positives
– Adjust table border and structure
– Customer specific rules
步骤
任务
main task
table detection
structure recognition
functional analysis
structural analysis
interpretation
column type identification
entity linking
sub task
realation extraction
架构
http://www.cs.ox.ac.uk/isg/challenges/sem-tab/
competition
文档分析技术
研究方向
1.版面分析模块: 将每个文档页面划分为不同的内容区域。该模块不仅可用于划定相关
区域和不相关区域,还可用于对其识别的内容类型进行分类。
2.光学字符识别 (OCR) 模块: 定位并识别文档中存在的所有文本。
3.表格识别模块: 将文档里的表格信息进行识别和转换到excel文件中。
4.信息提取模块: 借助OCR结果和图像信息来理解和识别文档中表达的特定信息或信息之
间的关系。
版面分析
背景介绍
版面分析主要用于文档检索,关键信息提取,内容分类等,其任务主要是对文档图像
进行内容分类,内容的类别一般可分为纯文本、标题、表格、图片和列表等。但是文
档布局、格式的多样性和复杂性,文档图像质量差,大规模的带标注的数据集的缺少
等问题使得版面分析仍然是一个很有挑战性的任务。
代表性论文
基于目标检测的方法
基于语义分割的方法
Semantic Segmentation
Visual Detection with Context,Object Detection,VSR
表格识别
背景介绍
表格结构重建的原理分类
1.
2.难点
1.表格种类和样式复杂多样,例如
2.不同的行列合并,不同的内容文本类型 等。
3.文档的样式本身的样式多样。
4.拍摄时的光照环境等
1.基于启发式规则的方法
2.基于CNN的方法
3.基于GCN的方法
基于End to End的方法
T-Rect,pdf2table
CascadeTabNet, Multi-Type-TD-TSR, LGPMA, tabstruct-net, CDeC-Net,
TableNet, TableSense, Deepdesrt, Deeptabstr, GTE, Cycle-CenterNet, FCN
GNN, TGRNet, GraphTSR
Table-Master
Document VQA
背景介绍
在VQA(Visual Question Answering)任务中,主要针对图像内容进行提问和回答,但
是对于文本图像来说,关注的内容是图像中的文字信息,因此这类方法可以分为自然
场景的Text-VQA和扫描文档场景的DocVQA
任务
SER: 语义实体识别 (Semantic Entity Recognition)
RE: 关系抽取 (Relation Extraction)
基于Grid的方法
基于Token的方法
基于GCN的方法
基于End to End 的方法
4.基于端到端的方法
Created With
MindMaster