franztao

Talk is cheap, show me the code.

文档智能技术路线

2025年5月

文档智能技术路线 文档智能技术pipeline和end2end的区别 技术类型 Pipeline(OCR-nofree) End2End(OCR-free) 代表工作 PP-Structure、RagFlow、Miner-U、PPOCR v5.0 通用 VLM:GPT...

多模态RAG

2025年5月

多模态RAG调研 建立多模态RAG技术能力,需要解决以下几点问题 如何有效地解析和索引多模态文档 MRAG系统需要对多模态文档进行解析和索引。这包括提取文本内容(使用OCR或特定格式的解析技术从多模态文档中提取文本内容)、检测文档布局并将其分割成结构化元素(如标题、段落、图像、视频等)。 如何建立多模态index与进行多模态检索 方法分为三类: (a) 单模态单stream检...

LLM agent的视觉指南A Visual Guide to LLM Agents

2025年3月

最近在做agent的工作,一篇对agent技术深入浅出的博文https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents,写的很棒,特地翻译下。 正文 LLM agent正变得越来越普遍,似乎正在取代我们熟悉的“常规”对话式 LLM。这些令人难以置信的功能并不容易实现,需要许多组件协同工作。 通过...

图解20个重要的思维模型


读王慧文清华产品课笔记

2024年12月

战略 战略是不同时空里ROI最高的Strategy。 一、市场体量(TAM: Total Addressable Market) 二、规模效应 规模效应是商业世界里的万有引力,规模效应在商业世界里的重要性就像物理世界里的万 有引力。 规模效应是交易额/客户使用量足够大之后所产生的客户体验优势或成本优势, 具体是成本优势还是客户体验优势取决于具体的生意模式 互联网的价值和节点数的...

Multimodel_documentai_rag

任务描述 学习gradio,自己搭建一个NLP/多模态/RAG等方向的一个demo paper(https://arxiv.org/pdf/2407.01449) 参考资料 Multimodal Retrieval-Augmented Generation (RAG) with Document Retrieval (ColPali) and Vision Langua...

量化压缩kernal分析

子任务: •1. 采用常见深度学习框架实现一个经典模型 •框架可以选:tensorflow/pytorch/caffe •经典模型可以从前文算法模型中选择一个 •最好是从0开始搭建,不要直接将网上模型下载下来,理解深度学习模型中的基本元素,包括节点,边,层,图等。 •2. 基于训练集设计预处理、loss并训练到收敛 •设计图像预处理逻辑,理解预处理对训练收敛的意义 •自行设计l...

Query_operation

query->multi query • 为什么要进行 query 理解 1、用户表达的模糊性 2、query 和 doc 不在同一个语义空间 3、用户的 query 可能比较复杂 • query 理解有哪些技术(从 RAG 角度) query 理解技术分为三大类:query 改写、query 增强和 query 分解 • 各种 query 理解...

采用CUDA实现矩阵乘法

2024年11月

任务描述 采用CUDA实现矩阵乘法:A矩阵:1024x1024,B矩阵:1024x1024,C矩阵:1024x1024,目标是尽可能的减少整个流程时间 学习目标 入门cuda,什么是cuda,cuda的基本操作 如何对一个cuda问题,基于cuda领域持续优化,从哪些角度思考,优化cuda需要结合硬件情况,不只是考虑算法的时间复杂度,也需要从硬件是否可以实现甚至实现的高效性考...

CUDA编程基础入门系列

2024年11月

cuda入门 参考B站CUDA编程基础入门系列(持续更新)的学习笔记 CPU+GPU异构架构 GPU不能单独计算, CPU+GPU组成异构计算架构;CPU起到控制作用, 一般称为主机(Host) ; GPU可以看作CPU的协处理器, 一般称为设备(Device) ;主机和设备之间内存访问一般通过PCIe总线链接。 查询GPU详细信息 查询GPU详细信息 nvidia-smi –q...