每月学习笔记

2022年5月

Posted by franztao on May 31, 2022

0501

目标检测数据集 数量集图像和目标数量的基本信息,分为4大类,20小类 为什么得到的新坐标减1?VOC的矩形标注坐标是以1为基准的(1-based),而我们在处理图像坐标都是0起始的(0-based)。 Components of Natural Language Processing (NLP) a. Lexical Analysis: With lexical analysis, we divide a whole chunk of text into paragraphs, sentences, and words. It involves identifying and analyzing words’ structure.

b. Syntactic Analysis: Syntactic analysis involves the analysis of words in a sentence for grammar and arranging words in a manner that shows the relationship among the words. For instance, the sentence “The shop goes to the house” does not pass.

c. Semantic Analysis: Semantic analysis draws the exact meaning for the words, and it analyzes the text meaningfulness. Sentences such as “hot ice-cream” do not pass.

d. Disclosure Integration: Disclosure integration takes into account the context of the text. It considers the meaning of the sentence before it ends. For example: “He works at Google.” In this sentence, “he” must be referenced in the sentence before it.

e. Pragmatic Analysis: Pragmatic analysis deals with overall communication and interpretation of language. It deals with deriving meaningful use of language in various situations.

img_2.png

img_3.png

img_5.png img_6.png

0513

5014

权重/参数初始化

什么是关系重叠&复杂关系问题?

0519

0524

0525

table recognition structure loss comparison

  1. Pairing Loss for CyclePairing Module

  1. focal loss

  2. LGPMA

L2

TableFormer

0526

0530

图片

ml-engineer.png

nlp.png

textmining.png

5月居家日报

日期 目标 进展 其他事项
5.23 1. 数据清理:sparse数据集150k数据。2.训练评估阶段:自研算法基于开源数据extractable训练. 3.训练评估阶段:重构数据预测后处理代码,达到每次训练完开源数据就能将自有数据预测出来做badcase分析 1. 清理调试中解决一些bug. 2.跟自有数据指标趋势一样(https://wandb.ai/franztao/table_master_lmdb_ResnetExtract_Ranger_0322/runs/3p6fnb3k?workspace=user-franztao) 3.完成20% 面试实习生
5.24 1.训练评估阶段:自研算法基于开源数据1w数据训练,2.训练评估阶段:重构数据预测后处理代码,达到每次训练完开源数据就能将自有数据预测出来做badcase分析 1.数据处理完,当前训练中. 3.完成90% (KnowledgeGraphCommon\models\cv\recognition\table\tgr_tablemaster\mmocr\datasets\ocr_dataset.py) 飞书培训,ocr表格上线会议, 定位分析线上表格提取问题
5.25 1.训练评估阶段:自研算法基于开源数据1w数据训练,2.训练评估阶段:重构数据预测后处理代码,达到每次训练完开源数据就能将自有数据预测出来做badcase分析.3. 150k 开源数据预处理中(在跑,已过1天)4. 算法设计阶段:TSR算法loss调研和分析 1.1w数据训练,复现实验效果. 2.完成95% ,研究如何预测出图片存入wandb,便于界面形式分析badcase,4.修改开源方案box loss L1成其他类型再进行实验 飞书培训,面试实习生
5.26 1.训练评估阶段:重构数据预测后处理代码,达到每次训练完开源数据就能将自有数据预测出来做badcase分析 2.调研”检索图片文件系统” 2.检索图片系统,https://github.com/ProvenanceLabs/image-match 早会,表格识别需求评审
5.27 1.产品体验 2.下版本开发设计 1.体验产品,分析badcase,2.进行下版本开发,代码中 早上请假
       
5.30 1.产品体验 1.产品体验,跟开发确定若干问题,接口修改开发中  
5.31 1.一键识别端到端时间预估 2. 自研表格 1.一键识别端到端时间预估,代码完成 2.分析loss下降但是指标未上升的原因 实习生面试
6.1 1.一键识别端到端时间预估 2.自研表格 1.补充mask部分 2. 分析loss下降但是指标未上升的原因  
6.2     请假一天
       
6.6 1.接口变更 2. 自研表格   实习生面试。接口定位
6.7 1.tsr 性能测试2. 自研表格   沟通交流培训
6.8 1.自研tsr与extractable在开源数据上的效果评估。2.实习生工作交接 makush定位两个接口定位,实习生代码 实习生面试
6.9 1. 自研表格 定位和处理makush项目定位问题。分析开源数据extractable与selfstudy的badcase 周会。实习生面试
6.10 1. 自研表格