franztao

Talk is cheap, show me the code.

机器学习编排

2022年11月

机器学习编排 通过创建可扩展的管道来创建、安排和监控工作流。 Intuition 到目前为止,已经将 DataOps(ELT、验证等)和 MLOps(优化、训练、评估等)工作流实现为 Python 函数调用。这很有效,因为数据集是静态的并且很小。但是当需要: 在新数据到来时安排这些工作流程? 随着数据的增长扩展这些工作流程? 将这些工作流程共享给下游应用程序? ...

特征仓库

2022年11月

使用特征存储连接 DataOps 和 MLOps 工作流,使协作团队能够高效开发。 什么是feature store 让通过按时间顺序查看开发人员在当前工作流程中面临的挑战来激发对特征存储的需求。假设有一项任务需要使用实体(例如用户)的特征来预测某些东西。 重复:孤立地开发特征(针对每个独特的 ML 应用程序)可能会导致重复工作(设置摄取管道、特征工程等)。 ...

机器学习编排

2022年11月

通过为分析和机器学习应用程序构建现代数据堆栈来学习数据工程基础知识。 Intuition 到目前为止,已经可以方便地使用本地 CSV 文件作为数据源,但实际上,transformers数据可能来自许多不同的来源。此外,理想情况下,transformers数据转换和测试流程应该移至上游,以便许多不同的下游流程可以从中受益。transformers ML 用例只是众多潜在下游应用程序中的一个...

学习观第一季【转载】

学习观第一季 学习观第一季 总原则  从有限例子找出规律  压缩信息来预测未知  明确输入输出  重塑大脑链接 运动类  特点   速度快、精度低、容错高   多因素、可并行   例子 (速度快、精度低、容错高, 多因素、...

学习观【转载】

学习观 学习观 时间之矢  信息与熵   定义    熵:某人对某事是哪种情况的不确定性    信息:消除该人对该事不确定性的事物     调整情况概率     排出干扰情况 ...

Note_【openbmb论文速读】第二篇【转载】

🔔【OpenBMB论文速读】第二篇 🔔【OpenBMB论文速读】第二篇 🔗 文章:PPT: Pre-trained Prompt Tuning for Few-shot Learning (ACL 2022) https://aclanthology.org/2022.acl-long.576.pdf ㊔...

Note_【openbmb论文速读】第一篇【转载】

🔔【OpenBMB论文速读】第一篇 🔔【OpenBMB论文速读】第一篇 🔗 文章:The Power of Scale for Parameter-Efficient Prompt Tuning (EMNLP 2021) https://aclanthology.org/2021.emnlp-main.243/ &#...

每月学习笔记202211

2022年11月

数据分析时的七种思路 版面分析 ü 二级版面标签(语义标签) ü 业内数量最多的版面标签 • 跨页合并 ü 跨页段落合并 ü 跨页表格合并 ü 跨页表格单元格合并 • 文档逻辑结构 ü 父子层级树 ü 指代等关系 内置属性:样本级别难例原因ID列表。。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 ...

monitoring

2022年10月

了解如何监控 ML 系统以识别和解决漂移源,以防止模型性能下降。 intution 尽管已经训练并彻底评估了模型,但一旦部署到生产环境,真正的工作就开始了。这是传统软件工程与 ML 开发之间的根本区别之一。传统上,使用基于规则的确定性软件,大部分工作发生在初始阶段,一旦部署,系统就会按照定义的方式工作。但是对于机器学习,并没有明确定义事物的工作原理,而是使用数据来构建概率解决方案。这种方...

Dashboard

2022年10月

创建一个交互式仪表板以使用 Streamlit 直观地检查应用程序。 intution 在开发应用程序时,有很多技术决策和结果(预处理、性能等)是系统不可或缺的。如何才能有效地将其传达给其他开发人员和业务利益相关者?一种选择是 Jupyter notebook,但它经常被代码弄得乱七八糟,对于非技术团队成员来说访问和运行并不容易。需要创建一个无需任何技术先决条件即可访问并有效传达关键发现...