franztao

Talk is cheap, show me the code.

ML 系统的日志记录

2022年10月

Intuition 日志记录是跟踪和记录应用程序中发生的关键事件的过程,用于检查、调试等。它们比print语句更强大,因为它们允许将特定的信息片段发送到具有自定义功能的特定位置格式化、共享接口等。这使得日志记录成为能够从应用程序的内部流程中发现有洞察力的信息的关键支持者。 成分 有几个总体概念需要注意: Logger: 从应用程序发出日志消息。 Handler:将日志记录发...

代码文档

2022年10月

为您的团队和您未来的自己代码文档。 Intuition 代码告诉你_怎么_做,注释告诉你_为什么_。——杰夫·阿特伍德 可以通过代码文档来进一步组织代码,让其他人(以及未来的自己)更容易轻松地导航和扩展它。在完成编写代码库的那一刻就最了解代码库,但幸运的是,记录它将使能够快速回到熟悉的心态。文档对开发人员来说可能意味着很多不同的东西,所以让定义最常见的组件: comme...

拆分数据集以进行机器学习

2022年10月

适当拆分数据集以进行训练、验证和测试。 Intuition 为了确定模型的有效性,需要有一个公正的测量方法。为此,将数据集拆分为training、validation和testing数据拆分。 使用训练拆分来训练模型。 在这里,模型将可以访问输入和输出以优化其内部权重。 在训练拆分的每个循环(epoch)之后,将使用...

数据预处理

2022年10月

数据预处理 通过准备和转换对数据集进行预处理,以用于训练。 Intuition 数据预处理可以分为两类过程:准备和转换。将探索常见的预处理技术,然后针对特定应用逐步完成相关过程。 warning 某些预处理步骤global(不依赖于数据集,例如小写文本、删除停用词等)和其他步骤local(结构仅从训练拆分中学习,例如词汇、标准化等)。对于本地的、依赖于数据集的预处理步骤,...

数据标签

2022年10月

什么是数据标签 标记(或注释)是识别值得建模的输入和输出(而不仅仅是可以建模的内容)的过程。 使用目标作为指导来确定必要的信号。 探索创建新信号(通过组合特征、收集新数据等)。 迭代地添加更多功能以证明复杂性和工作量。 warning 注意不要在数据集中包含预测期间不可用的特征,从而导致数据泄漏。 还能学到什么? 这不仅仅是识别和标记初始...

探索性数据分析

2022年10月

有目的性的探索数据集以获取具体的优化方向和思路。 Intuition 探索性数据分析 (EDA) 以了解数据集的信号和细微差别。这是一个循环过程,可以在开发过程的各个阶段(标记之前/之后、预处理等)完成,具体取决于问题的定义程度。例如,如果不确定如何标记或预处理数据,可以使用 EDA 来解决这个问题。 将从 EDA 开始项目,这是一个经常被误解的重要(且有趣)的过程。以下是对 EDA ...

数据增强

2022年10月

在训练数据拆分上评估数据增强,以增加高质量训练样本的数量。 Intuition 通常希望通过数据扩充来增加训练数据的规模和多样性。它涉及使用现有样本生成合成但真实的示例。 拆分数据集。想首先拆分数据集,因为如果允许将生成的样本放置在不同的数据拆分中,许多增强技术会导致某种形式的数据泄漏。 例如,一些增强涉及为句子中的某些关键标记生成同义词。如果允...

利用版本控制管理代码、数据和模型

2022年10月

利用版本控制管理代码、数据和模型 对代码、数据和模型进行版本控制,以确保 ML 系统中的可重现性。 intuition 学习了如何对代码进行版本控制,但还需要跟踪和版本化其它几类非常重要的工件:配置、数据和模型。重要的是对所有内容进行版本控制,以便可以随时重现完全相同的应用程序。将通过使用 Git 提交作为用于生成特定模型的代码、配置和数据的快照来做到这一点。以下是需要合并的关键元...

推荐系统

推荐系统 推荐系统 推荐系统  推荐系统是什么   推荐系统是帮助用户发现内容,克服信息过载的重要工具    信息过载: 信息过载是信息时代信息过于丰富的负面影响之一。指社会信息超过了个人或系统所能接受、处理或有效利用的范围,并导致故障的状况。   它通过分析用户行为,对用...

如何思考数学问题

如何思考数学问题 如何思考数学问题 1.理解问题  证明... 推算...  求...(值) 求所有的....(值)  是否存在... 2.理解题目所给出的信息 3.理解题目所要求的目标 4.选择恰当的符号(由那门数学基础建模) 5.用选定的符号表达你所知道的信息 6.对问题稍作修改  1...