franztao

Talk is cheap, show me the code.

多模态RAG调研,VRAG技术报告解读

2025年7月

为什么提出VRAG 思路:传统的的文本RAG,一些场景解决不了,具体哪些场景解决不了,然后提出VRAG 1)视觉信息处理能力不足:基于文本的 RAG 方法无法有效解析图像中的信息,缺乏对视觉数据的理解和推理能力。 2)固定流程限制动态推理:现有视觉 RAG 方法多采用固定的检索-生成流程,难以在复杂任务中动态调整推理路径,限制了模型挖掘视觉信息的能力。 3)检索效率与推理深度不足:传...

李宏毅2025年生成式AI学习作业3运行记录与笔记

2025年5月

Understanding LLM / Transformers (You cannot run the code without saving a copy) Check the status of your GPU !nvidia-smi Tue Apr 22 13:09:02 2025 +--------------------------------------...

李宏毅2025年生成式AI学习作业2运行记录与笔记

2025年5月

Machine Learning Course 2025 HW2 The code scripts are from aideml project on github with some modifications. AIDE: AI-Driven Exploration in the Space of Code https://arxiv.org/pdf/2502.13138 Mak...

李宏毅2025年生成式AI学习作业1运行记录与笔记

2025年5月

ML2025 Homework 1 - Retrieval Augmented Generation with Agents Environment Setup First, we will mount your own Google Drive and change the working directory. from google.colab import drive drive...

文档智能技术路线

2025年5月

文档智能技术路线`` 文档智能技术pipeline和end2end的区别 技术类型 Pipeline(OCR-nofree) End2End(OCR-free) 代表工作 PP-Structure、RagFlow、Miner-U、PPOCR v5.0 通用 VLM:G...

多模态RAG

2025年5月

多模态RAG调研 建立多模态RAG技术能力,需要解决以下几点问题 如何有效地解析和索引多模态文档 MRAG系统需要对多模态文档进行解析和索引。这包括提取文本内容(使用OCR或特定格式的解析技术从多模态文档中提取文本内容)、检测文档布局并将其分割成结构化元素(如标题、段落、图像、视频等)。 如何建立多模态index与进行多模态检索 方法分为三类: (a) 单模态单stream检...

LLM agent的视觉指南A Visual Guide to LLM Agents

2025年3月

最近在做agent的工作,一篇对agent技术深入浅出的博文https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents,写的很棒,特地翻译下。 正文 LLM agent正变得越来越普遍,似乎正在取代我们熟悉的“常规”对话式 LLM。这些令人难以置信的功能并不容易实现,需要许多组件协同工作。 通过...

图解20个重要的思维模型


读王慧文清华产品课笔记

2024年12月

战略 战略是不同时空里ROI最高的Strategy。 一、市场体量(TAM: Total Addressable Market) 二、规模效应 规模效应是商业世界里的万有引力,规模效应在商业世界里的重要性就像物理世界里的万 有引力。 规模效应是交易额/客户使用量足够大之后所产生的客户体验优势或成本优势, 具体是成本优势还是客户体验优势取决于具体的生意模式 互联网的价值和节点数的...

Multimodel_documentai_rag

任务描述 学习gradio,自己搭建一个NLP/多模态/RAG等方向的一个demo paper(https://arxiv.org/pdf/2407.01449) 参考资料 Multimodal Retrieval-Augmented Generation (RAG) with Document Retrieval (ColPali) and Vision Langua...