franztao

Talk is cheap, show me the code.

测试机器学习系统:代码、数据和模型

2022年10月

Intuition 在本课中,将学习如何测试代码、数据和模型,以构建可以可靠迭代的机器学习系统。测试是确保某些东西按预期工作的一种方式。被激励在开发周期中尽早实施测试并发现错误来源,以便可以降低下游成本和浪费时间。一旦设计了测试,可以在每次更改或添加到代码库时自动执行它们。 tip 强烈建议您在完成之前的课程_后_探索本课程,因为主题(和代码)是迭代开发的。但是,确实创建了 ...

命令行界面 (CLI) 应用程序

2022年10月

使用命令行界面 (CLI) 应用程序来组织应用程序的进程。 Intuition 当模型要提供服务时,需要考虑将应用程序的功能公开给自己、团队成员以及最终最终使用用户。实现这一点的接口会有所不同。回想一下Organization lesson,通过终端和 Python 解释器执行main operations from tagifai import main main.elt_data(...

模型服务 API

2022年10月

设计和部署 API 以服务于机器学习模型。 Intuition CLI 应用程序使与模型交互变得更加容易,特别是对于可能不想深入研究代码库的团队成员。但是使用 CLI 为模型提供服务有几个限制: 用户需要访问终端、代码库、虚拟环境等。 终端上的 CLI 输出不可导出 为了解决这些问题,将开发一个应用程序编程接口 (API),_任何人都_可以通过一个简单的请求与应用程序进行...

评估机器学习模型

2022年10月

评估机器学习模型 通过整体、每类和slice性能来评估 ML 模型。 intuition 评估是建模的一个组成部分,它经常被忽略。经常会发现评估只涉及计算准确性或其它全局指标,但对于许多实际工作应用程序,需要更细致的评估过程。然而,在评估模型之前,总是希望: 清楚优先考虑的指标 注意不要过度优化任何一个指标,因为这可能意味着你正在妥协其他指标 # Metrics m...

优化超参数

2022年10月

优化超参数子集以实现目标。 Intuition 优化是在实验中微调超参数以优化特定目标的过程。它可能是一个涉及计算的过程,具体取决于参数的数量、搜索空间和模型架构。超参数不仅包括模型的参数,还包括来自预处理、分割等的参数(选择)。当查看所有可以调整的不同参数时,它很快就变成了一个非常大的搜索空间。然而,仅仅因为某些东西是超参数并不意味着需要调整它。 lower=True修复一些超...

实验跟踪

2022年10月

管理和跟踪机器学习实验。 Intuition 到目前为止,一直在训练和评估不同的基线,但还没有真正跟踪这些实验。将解决这个问题,但定义一个适当的实验跟踪过程,将用于所有未来的实验(包括超参数优化)。实验跟踪是管理所有不同实验及其组件(例如参数、指标、模型和其他工件)的过程,它使能够: 组织特定实验的所有必要组件。重要的是把所有东西都放在一个地方并且知道它在哪里,这样你以后可以使用...

建模基线模型

2022年10月

鼓励使用基线模型进行迭代建模。 Intuition 基线是为迭代开发铺平道路的简单基准: 由于模型复杂度低,通过超参数调整进行快速实验。 发现数据问题、错误假设、代码中的错误等,因为模型本身并不复杂。 帕累托原则:可以用最少的初始努力实现良好的性能。 过程 这是建立基线的高级方法: 从最简单的基线开始,以比较后续开发。这通常是一个随机(机会)模型。 使用...

每月学习笔记

2022年10月

1012 透视图 1015 各种各样神奇的自注意力机制(Self-attention)变形 沐神的装机经验总结 装机清单 装机的需求,首先就要是足够安静。不然太吵的话没法工作。 第二个需求就是散热要好。不然温度过高的话会导致G...

每月学习笔记

2022年9月

Python风格规范 — Google 开源项目风格指南

DOD数据标注

2022年8月

一、整体要求 标注回答几个问题 表格检测:页面中是否有表格 表格分类:是什么类型的表格,分子性质表/Markush表/其它表 表格整体粗粒度结构: 常规表格:标注 标题 + 表体 + 脚注 区域 Markush表格:标注 母核 + 标题 + 表体 + 脚注 区域 1、所有pdf图片表格元素都需要被框准确和划分到正确的类型...