franztao

Talk is cheap, show me the code.

GUI Agent数据标注与合成实操

2025年7月

GUI Agent数据标注与合成实操 OpenCUA方案 自研方案 1 人标注AgentNetTool – Annotation & Verification Tool (人标注,得到视频和点击的标注数据) 上图红色字体的操作,通过AgentNetTool 人标注能直接获得 2 直接录视频(无标注人力,只有操作的视频) 上图红色字体的操作,如果没有人力标注...

多模态RAG调研

2025年7月

有哪些新的需求需要多模态RAG 外宣合规 Agent 涉及一些插图或者图片式文字需要审核,需要对图片式文字进行OCR解析然后分析,插图进行图像理解的分析  ppt,xlsx等不同文件格式需要审核 国电投项目 有不可编辑的p...

多模态RAG调研,VRAG技术报告解读

2025年7月

为什么提出VRAG 思路:传统的的文本RAG,一些场景解决不了,具体哪些场景解决不了,然后提出VRAG 1)视觉信息处理能力不足:基于文本的 RAG 方法无法有效解析图像中的信息,缺乏对视觉数据的理解和推理能力。 2)固定流程限制动态推理:现有视觉 RAG 方法多采用固定的检索-生成流程,难以在复杂任务中动态调整推理路径,限制了模型挖掘视觉信息的能力。 3)检索效率与推理深度不足:传...

李宏毅2025年生成式AI学习作业3运行记录与笔记

2025年5月

Understanding LLM / Transformers (You cannot run the code without saving a copy) Check the status of your GPU !nvidia-smi Tue Apr 22 13:09:02 2025 +--------------------------------------...

李宏毅2025年生成式AI学习作业2运行记录与笔记

2025年5月

Machine Learning Course 2025 HW2 The code scripts are from aideml project on github with some modifications. AIDE: AI-Driven Exploration in the Space of Code https://arxiv.org/pdf/2502.13138 Mak...

李宏毅2025年生成式AI学习作业1运行记录与笔记

2025年5月

ML2025 Homework 1 - Retrieval Augmented Generation with Agents Environment Setup First, we will mount your own Google Drive and change the working directory. from google.colab import drive drive...

文档智能技术路线

2025年5月

文档智能技术路线`` 文档智能技术pipeline和end2end的区别 技术类型 Pipeline(OCR-nofree) End2End(OCR-free) 代表工作 PP-Structure、RagFlow、Miner-U、PPOCR v5.0 通用 VLM:G...

多模态RAG

2025年5月

多模态RAG调研 建立多模态RAG技术能力,需要解决以下几点问题 如何有效地解析和索引多模态文档 MRAG系统需要对多模态文档进行解析和索引。这包括提取文本内容(使用OCR或特定格式的解析技术从多模态文档中提取文本内容)、检测文档布局并将其分割成结构化元素(如标题、段落、图像、视频等)。 如何建立多模态index与进行多模态检索 方法分为三类: (a) 单模态单stream检...

LLM agent的视觉指南A Visual Guide to LLM Agents

2025年3月

最近在做agent的工作,一篇对agent技术深入浅出的博文https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents,写的很棒,特地翻译下。 正文 LLM agent正变得越来越普遍,似乎正在取代我们熟悉的“常规”对话式 LLM。这些令人难以置信的功能并不容易实现,需要许多组件协同工作。 通过...

图解20个重要的思维模型