哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

PaddleOCR MCP Server 實戰(zhàn):3步將OCR和文檔解析輕松集成到 AI智能體

jf_23871869 ? 來源:jf_23871869 ? 作者:jf_23871869 ? 2025-09-12 18:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一,為什么文檔 AI 智能體需要PaddleOCR MCP Server?

在構(gòu)建面向報告分析、合同信息提取或科研論文總結(jié)等場景的文檔 AI 智能體時,解析PDF格式文件及掃描版圖像文檔往往成為大語言模型(LLM)的痛點。這是因為LLM本質(zhì)是語言模型,能處理字符序列,卻無法直接解析圖像或PDF文件的內(nèi)容。

PaddleOCR MCP Server 將 PaddleOCR 的文字識別和文檔解析能力,以MCP工具的形式提供給 AI 智能體,從而讓 AI 智能體能夠直接處理文檔內(nèi)容,而無需手動提取文本。

二,什么是PaddleOCR MCP Server?

PaddleOCR MCP Server 是一個輕量級 Model Context Protocol (MCP) 服務,專為將 PaddleOCR 的文檔理解能力無縫集成到文檔AI智能體而設計,讓AI智能體能夠按需調(diào)用文字識別或文檔解析工具,如下圖所示,實現(xiàn)從圖像/PDF中提取結(jié)構(gòu)化信息:

  • OCR:文字識別工具,從圖像/PDF 提取高質(zhì)量文本。
  • PP-StructureV3:文檔解析工具,從圖像/PDF中提取表格、標題、段落和公式等文檔元素,并以Markdown/JSON格式輸出。

視頻鏈接:[PaddleOCR MCP Server 實戰(zhàn):3步將OCR和文檔解析輕松集成到 AI智能體 (qq.com)]
PaddleOCR MCP Server 提供三種部署模式,適配大多數(shù)智能體場景:

三,三步將 PaddleOCR MCP Server 集成到你的 AI 智能體

本節(jié)將以本地部署為例,介紹如何將 PaddleOCR 集成到你的智能體中。

步驟 1??:安裝 PaddleOCR MCP Server

# 創(chuàng)建并激活虛擬環(huán)境 (推薦)
conda create -n ocr-env python=3.11
conda activate ocr-env
# 安裝PaddlePaddle GPU版本 (根據(jù)您的CUDA版本選擇合適的版本)
pip install paddlepaddle-gpu==3.1.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -c "import paddle; paddle.utils.run_check()"  # 驗證PaddlePaddle安裝是否成功
# 安裝PaddleOCR
pip install paddleocr[doc-parser]
# 安裝PaddleOCR MCP Server
git clone https://github.com/PaddlePaddle/PaddleOCR.git
cd PaddleOCR
pip install -e mcp_server

安裝完畢后,運行以下命令,若出現(xiàn)下圖所示的運行信息,則說明安裝成功:

paddleocr_mcp --pipeline OCR --ppocr_source local --port 8234  --http

步驟 2??:配置PaddleOCR MCP Server

首先,打開兩個命令行窗口,分別運行以下命令,啟動PaddleOCR MCP ServerOCR和PP-StructureV3服務:

# 啟動PaddleOCR OCR MCP Server
paddleocr_mcp --pipeline OCR --ppocr_source local --port 8234  --http
# 啟動PaddleOCR PP-StructureV3 MCP Server
paddleocr_mcp --pipeline PP-StructureV3 --ppocr_source local --port 9234  --http

然后,在你的 AI 智能體 MCP 配置文件中(例如:mcp_settings.json)添加以下內(nèi)容:

{
  "mcpServers": {
    "pp-ocrv5": {
      "isActive": true,
      "name": "PP-OCRv5 (local)",
      "type": "streamableHttp",
      "description": "Local PP-OCRv5 pipeline for text recognition.",
      "tags": [],
      "baseUrl": "http://127.0.0.1:8234/mcp"
    },
    "pp-structurev3": {
      "isActive": true,
      "name": "PP-StructureV3 (local)",
      "type": "streamableHttp",
      "description": "Local PP-StructureV3 pipeline for document parser.",
      "tags": [],
      "baseUrl": "http://127.0.0.1:9234/mcp"
    }
  }
}

以Cherry Studio為例,在Settings中選擇 MCP,并把上述配置復制到JSON編輯框,然后點擊OK按鈕即可。

https://www.cherry-ai.com/

配置成功后,會有一個小綠點出現(xiàn),如下圖所示:

步驟 3??:在智能體中調(diào)用PaddleOCR MCP Server的能力

當PaddleOCR MCP Server配置成功后,僅需要在智能體中使用具有function-call能力的大語言模型,即可調(diào)用 PaddleOCR MCP Server的工具。以Cherry Studio為例,在智能體中調(diào)用OCR工具的示例如下:

Prompt: What's in the picture: /home/ppov/Pictures/ocr_test.jpeg

圖片

在智能體中調(diào)用PP-StructureV3工具的示例如下:

Prompt: Extract the table from:/home/ppov/Desktop/test_document.pdf, and output markdown format table

四,總結(jié)與展望

PaddleOCR MCP Server是 AI 智能體理解圖片和PDF文檔的橋梁。通過3 步將OCR和文檔解析輕松集成到 AI 智能體 —— 相當于讓AI智能體獲得了“閱讀”文檔的能力,拓展了AI智能體的能力邊界。

下一步與資源

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41107

    瀏覽量

    302587
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    176

    瀏覽量

    17278
  • MCP
    MCP
    +關(guān)注

    關(guān)注

    0

    文章

    294

    瀏覽量

    15079
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)

    數(shù)據(jù)、懂業(yè)務的“AI 架構(gòu)師”。當企業(yè)真正掌握了從開源基座專屬模型的轉(zhuǎn)化能力時,就擁有了抵御外部不確定性的最強護城河。筑牢自主可控的 AI 底座,企業(yè)才能在智能化轉(zhuǎn)型的狂飆突進中,
    發(fā)表于 04-16 18:48

    九天菜菜大模型agent智能開發(fā)實戰(zhàn)2026一月班

    自主 AI 新范式:大模型 Agent 開發(fā)實戰(zhàn)火爆開課 在科技浪潮洶涌澎湃的當下,人工智能領域正經(jīng)歷著一場深刻變革,大模型 Agent 開發(fā)實戰(zhàn)課程如璀璨新星般閃耀登場,迅速成為科
    發(fā)表于 04-15 16:04

    樂鑫信息科技正式發(fā)布文檔MCP服務器

    繼去年推出樂鑫智能文檔 AI 助手后,樂鑫信息科技 (688018.SH) 持續(xù)推進開發(fā)者工具體系的智能化演進。今日,樂鑫正式發(fā)布文檔
    的頭像 發(fā)表于 04-14 09:44 ?223次閱讀
    樂鑫信息科技正式發(fā)布<b class='flag-5'>文檔</b><b class='flag-5'>MCP</b>服務器

    百度文心衍生模型PaddleOCR登頂GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCR在GitHub上的Star數(shù)突破73.3K,超越谷歌Tesseract OCR,成為全球Star數(shù)最高的OCR項目。
    的頭像 發(fā)表于 03-31 11:40 ?440次閱讀

    百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數(shù)的輕量架構(gòu),在全球權(quán)威文檔解析
    的頭像 發(fā)表于 01-30 10:03 ?812次閱讀
    百度正式發(fā)布并開源新一代<b class='flag-5'>文檔</b><b class='flag-5'>解析</b>模型<b class='flag-5'>PaddleOCR</b>-VL-1.5

    使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級教程

    → 拉起 PaddleOCR-VL 服務 → 本機用 HTTP 調(diào)用 /layout-parsing 接口跑通文檔解析。 一,PaddleOCR-VL是什么、為什么用 Docker
    的頭像 發(fā)表于 12-18 18:26 ?6783次閱讀
    使用 Docker 一鍵部署 <b class='flag-5'>PaddleOCR</b>-VL: 新手保姆級教程

    PP-OCRv5 MCP服務器在海光主板的部署與實戰(zhàn)

    在當今數(shù)字化快速發(fā)展的時代,OCR(光學字符識別)技術(shù)已經(jīng)成為從圖像中提取文本信息的重要工具。無論是在自動化辦公、智能文檔處理還是在內(nèi)容創(chuàng)作領域,OCR 技術(shù)的應用都極大地提高了工作效
    的頭像 發(fā)表于 10-15 17:04 ?958次閱讀
    PP-OCRv5 <b class='flag-5'>MCP</b>服務器在海光主板的部署與<b class='flag-5'>實戰(zhàn)</b>

    智能硬件通過小聆AI自定義MCP應用開發(fā)操作講解

    智能硬件通過小聆AI自定義MCP應用開發(fā)操作講解 前言 MCP(Modular Communication Protocol,模塊化通信協(xié)議)為智能
    發(fā)表于 10-14 15:50

    【內(nèi)測活動同步開啟】這么小?這么強?新一代大模型MCP開發(fā)板來啦!

    噪,無懼嘈雜環(huán)境 云端接入小聆AI,輕松實現(xiàn)個性化定制 搭載領先大模型全鏈路技術(shù):小聆AI 智能語音交互方案 集成情緒感知與表達 :支持情感
    發(fā)表于 09-25 11:47

    精準定位性能瓶頸:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飛槳技術(shù)生態(tài)伙伴 算力魔方 | 摘要:在實際落地OCR和文檔解析項目時,大家常常會遇到一個棘手問題:模型跑得不夠快,但到底是檢測太慢、識別耗時,還是模塊之間的數(shù)據(jù)流轉(zhuǎn)不高效?PaddleOCR
    的頭像 發(fā)表于 09-05 16:02 ?1431次閱讀
    精準定位性能瓶頸:深入<b class='flag-5'>解析</b> <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    與一致性校驗,實現(xiàn)高精度、低成本的小語種OCR訓練數(shù)據(jù)生成。該方案數(shù)據(jù)準備周期 從數(shù)周縮短至數(shù)小時 ,為小語種模型的快速迭代與冷啟動提供了全新范式 一、引言:小語種OCR的“數(shù)據(jù)之困” 在跨境支付、多語言
    的頭像 發(fā)表于 08-29 11:26 ?3879次閱讀
    小語種<b class='flag-5'>OCR</b>標注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自動標注<b class='flag-5'>實戰(zhàn)</b><b class='flag-5'>解析</b>

    【HZ-T536開發(fā)板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務器,自然語言輕松控板

    體驗】2 - 交叉編譯倉頡編程語言程序開發(fā)板運行 - 北京合眾恒躍科技有限公司 - 電子技術(shù)論壇 - 廣受歡迎的專業(yè)電子論壇!); CangjieMagic SDK(基于倉頡編程語言的智能框架
    發(fā)表于 08-23 13:10

    【EASY EAI Orin Nano開發(fā)板試用體驗】PP-OCRV5文字識別實例搭建與移植

    復雜評估集上,PP-OCRv5較PP-OCRv4端端提升13個百分點。一般來說,使用瑞芯微這種帶有NPU的主控進行OCR文字識別,識別效率遠超直接使用MCU進行識別,并且功耗還低。 要使
    發(fā)表于 08-18 16:57

    在Cherry Studio中快速使用markitdown MCP Server?

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 Cherry Studio是一款跨平臺的集成AI大模型和知識庫、網(wǎng)絡搜索、MCP服務器等相關(guān)工具桌面客戶端應用程序,方便用戶配置出自己的AI
    的頭像 發(fā)表于 05-15 10:39 ?1689次閱讀
    在Cherry Studio中快速使用markitdown <b class='flag-5'>MCP</b> <b class='flag-5'>Server</b>?

    如何用FastMCP快速開發(fā)自己的MCP Server?

    的感受到了基于AI大模型和 MCP可以非常方便的構(gòu)建自己的AI智能工作流。在此基礎上,不少讀者咨詢,如何將自己已有的工具或函數(shù),制作成
    的頭像 發(fā)表于 05-07 16:07 ?3056次閱讀
    如何用FastMCP快速開發(fā)自己的<b class='flag-5'>MCP</b> <b class='flag-5'>Server</b>?
    泰和县| 固阳县| 石首市| 来宾市| 乐昌市| 鄱阳县| 上虞市| 奎屯市| 新宁县| 同江市| 韩城市| 德州市| 怀来县| 甘洛县| 砀山县| 兰州市| 莱西市| 镇宁| 饶平县| 商都县| 林周县| 绥中县| 秦安县| 肥西县| 稻城县| 澳门| 广饶县| 观塘区| 无为县| 墨脱县| 娱乐| 永丰县| 望谟县| 宽甸| 辽源市| 洪江市| 甘谷县| 沽源县| 正镶白旗| 渑池县| 赤水市|