franztao

Talk is cheap, show me the code.

实验跟踪

2022年10月

管理和跟踪机器学习实验。 Intuition 到目前为止,一直在训练和评估不同的基线,但还没有真正跟踪这些实验。将解决这个问题,但定义一个适当的实验跟踪过程,将用于所有未来的实验(包括超参数优化)。实验跟踪是管理所有不同实验及其组件(例如参数、指标、模型和其他工件)的过程,它使能够: 组织特定实验的所有必要组件。重要的是把所有东西都放在一个地方并且知道它在哪里,这样你以后可以使用...

建模基线模型

2022年10月

鼓励使用基线模型进行迭代建模。 Intuition 基线是为迭代开发铺平道路的简单基准: 由于模型复杂度低,通过超参数调整进行快速实验。 发现数据问题、错误假设、代码中的错误等,因为模型本身并不复杂。 帕累托原则:可以用最少的初始努力实现良好的性能。 过程 这是建立基线的高级方法: 从最简单的基线开始,以比较后续开发。这通常是一个随机(机会)模型。 使用...

每月学习笔记

2022年10月

1012 透视图 1015 各种各样神奇的自注意力机制(Self-attention)变形 沐神的装机经验总结 装机清单 装机的需求,首先就要是足够安静。不然太吵的话没法工作。 第二个需求就是散热要好。不然温度过高的话会导致G...

每月学习笔记

2022年9月

Python风格规范 — Google 开源项目风格指南

DOD数据标注

2022年8月

一、整体要求 标注回答几个问题 表格检测:页面中是否有表格 表格分类:是什么类型的表格,分子性质表/Markush表/其它表 表格整体粗粒度结构: 常规表格:标注 标题 + 表体 + 脚注 区域 Markush表格:标注 母核 + 标题 + 表体 + 脚注 区域 1、所有pdf图片表格元素都需要被框准确和划分到正确的类型...

TSR数据标注

2022年8月

一、整体要求 1、对图片上的表格画横和竖的物理实线,在完成横和竖的实线后表格形成m*n的长方形格子区域,对语义上是相关的物理格子进行合并,标注是表头的格子区域。 2、最终交付的标注数据为 JSON 格式文件。 二、 标注对象 元素 定义 备注 例子 横线(紫线) ...

OCR数据标注

2022年8月

一、整体要求 对医药期刊和专利文本图片,OCR字符标注,字符集为ascii码和latex码 二、标注对象 元素 定义 ascii码 常见的数字和英文字母 latex码 除常见的数字和英文字母外,非中文字符 中文 ...

每月学习笔记

2022年8月

0808 0820 分组卷积 深度可分离卷积 深度学习常用各种卷积 基本卷积 多尺度非线性 空洞卷积 深度可分离卷积 可变形卷积 特征重标定卷积 图解LSTM和GRU 0826 一、提供的第一版ocr评测,算法反馈计算结果...

《从总账到总监》读书笔记

2022年07月

书本封面 内容简介 这是一本用小说体例写作的财务专业书籍。工作中如何将财物数据业务化,找到绩效管理的关键点?在人工智能都会写诗的时代,财务这门学科是否会毫无价值?以及在未来,财务人员应该具备哪些专项能力才能不被替代? 跨国公司全球首席财务官钱自严与我们分享了一个资深财务人眼中的商业世界,看看他怎样透过数据,以资源效率的视角,揭示绩效管理的秘诀和方法。本书的每个管理工具与财务模型,都...

每月学习笔记

2022年7月

0707 **适当容量模型->大的分辨率->无监督pretrain(时间充足情况,几轮数据迭代收益就吃没了)->自监督 伪标签 noise student->ensemble distill->fixres->sam->ema swa**