franztao的博客 | franztao Blog

多模态RAG调研，VRAG技术报告解读

2025年7月

为什么提出VRAG 思路：传统的的文本RAG,一些场景解决不了，具体哪些场景解决不了，然后提出VRAG 1)视觉信息处理能力不足：基于文本的 RAG 方法无法有效解析图像中的信息，缺乏对视觉数据的理解和推理能力。 2）固定流程限制动态推理：现有视觉 RAG 方法多采用固定的检索-生成流程，难以在复杂任务中动态调整推理路径，限制了模型挖掘视觉信息的能力。 3）检索效率与推理深度不足：传...

Posted by franztao on July 18, 2025

李宏毅2025年生成式AI学习作业3运行记录与笔记

2025年5月

Understanding LLM / Transformers (You cannot run the code without saving a copy) Check the status of your GPU !nvidia-smi Tue Apr 22 13:09:02 2025 +--------------------------------------...

Posted by franztao on May 26, 2025

李宏毅2025年生成式AI学习作业2运行记录与笔记

2025年5月

Machine Learning Course 2025 HW2 The code scripts are from aideml project on github with some modifications. AIDE: AI-Driven Exploration in the Space of Code https://arxiv.org/pdf/2502.13138 Mak...

Posted by franztao on May 26, 2025

李宏毅2025年生成式AI学习作业1运行记录与笔记

2025年5月

ML2025 Homework 1 - Retrieval Augmented Generation with Agents Environment Setup First, we will mount your own Google Drive and change the working directory. from google.colab import drive drive...

Posted by franztao on May 26, 2025

文档智能技术路线

2025年5月

文档智能技术路线`` 文档智能技术pipeline和end2end的区别技术类型 Pipeline（OCR-nofree） End2End（OCR-free）代表工作 PP-Structure、RagFlow、Miner-U、PPOCR v5.0 通用 VLM：G...

Posted by franztao on May 23, 2025

多模态RAG

2025年5月

多模态RAG调研建立多模态RAG技术能力，需要解决以下几点问题如何有效地解析和索引多模态文档 MRAG系统需要对多模态文档进行解析和索引。这包括提取文本内容(使用OCR或特定格式的解析技术从多模态文档中提取文本内容)、检测文档布局并将其分割成结构化元素（如标题、段落、图像、视频等）。如何建立多模态index与进行多模态检索方法分为三类： (a) 单模态单stream检...

Posted by franztao on May 23, 2025

LLM agent的视觉指南A Visual Guide to LLM Agents

2025年3月

最近在做agent的工作，一篇对agent技术深入浅出的博文https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents，写的很棒，特地翻译下。正文 LLM agent正变得越来越普遍，似乎正在取代我们熟悉的“常规”对话式 LLM。这些令人难以置信的功能并不容易实现，需要许多组件协同工作。通过...

Posted by franztao on March 19, 2025

图解20个重要的思维模型

Posted by franztao on January 9, 2025

读王慧文清华产品课笔记

2024年12月

战略战略是不同时空里ROI最高的Strategy。一、市场体量(TAM: Total Addressable Market) 二、规模效应规模效应是商业世界里的万有引力，规模效应在商业世界里的重要性就像物理世界里的万有引力。规模效应是交易额/客户使用量足够大之后所产生的客户体验优势或成本优势，具体是成本优势还是客户体验优势取决于具体的生意模式互联网的价值和节点数的...

Posted by franztao on December 25, 2024

Multimodel_documentai_rag

任务描述学习gradio，自己搭建一个NLP/多模态/RAG等方向的一个demo paper(https://arxiv.org/pdf/2407.01449) 参考资料 Multimodal Retrieval-Augmented Generation (RAG) with Document Retrieval (ColPali) and Vision Langua...

Posted by franztao on November 29, 2024

franztao

多模态RAG调研，VRAG技术报告解读

2025年7月

李宏毅2025年生成式AI学习作业3运行记录与笔记

2025年5月

李宏毅2025年生成式AI学习作业2运行记录与笔记

2025年5月

李宏毅2025年生成式AI学习作业1运行记录与笔记

2025年5月

文档智能技术路线

2025年5月

多模态RAG

2025年5月

LLM agent的视觉指南A Visual Guide to LLM Agents

2025年3月

图解20个重要的思维模型

读王慧文清华产品课笔记

2024年12月

Multimodel_documentai_rag

FEATURED TAGS

ABOUT ME

FRIENDS