哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

破解“豎排文本”魔咒:在 RTX 3060 上微調(diào) PaddleOCR-VL 以識別日本漫畫

jf_23871869 ? 來源:劉力 ? 作者:劉力 ? 2025-12-11 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:飛槳開發(fā)者技術(shù)專家 劉力

| 僅需一張消費級顯卡,教你利用多模態(tài)大模型打造專屬的日本漫畫翻譯神器。

一,引言:當AI遇上二次元

如果你曾嘗試使用傳統(tǒng)的 OCR 工具直接翻譯一本未漢化的日本漫畫(Manga),你可能會遇到令人抓狂的體驗:文字識別亂碼、氣泡順序錯亂,尤其是那些 豎排(Vertical) 且字體夸張的擬聲詞,AI 往往視而不見。

wKgZO2k6lO6ARgqFAAB71gCbpBY220.jpg

通用的 OCR 模型大多是針對文檔、路牌或水平文本訓練的。面對漫畫中復(fù)雜的背景、垂直的閱讀順序以及手寫體,標準模型往往顯得力不從心。今天,我們將解決這個問題。我們不再使用傳統(tǒng)的檢測+識別架構(gòu),而是使用更前沿的 Vision-Language (VL) 模型——PaddleOCR-VL。我們將展示如何在僅有 12GB 顯存的 NVIDIA RTX 3060 上,利用 BF16 精度和梯度累積技術(shù),對這個強大的多模態(tài)模型進行監(jiān)督微調(diào)(SFT)。

項目源碼參考:https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060

二,為什么選擇 PaddleOCR-VL?

1,多模態(tài)理解能力:傳統(tǒng)的 OCR 將圖片切分為小塊進行識別,容易丟失上下文。PaddleOCR-VL 是一種視覺-語言模型,它能“看”懂整張圖的語義,這對于理解漫畫中氣泡的閱讀順序(從右向左、從上向下)至關(guān)重要。

2,驚人的效果提升:根據(jù)我們的實測,在 RTX 3060 上微調(diào)后,精確匹配率 (Exact Match) 從基礎(chǔ)模型的 9.0% 飆升至 64.4%,字符錯誤率 (CER) 降低了 80%。

指標 原始模型 微調(diào)后 變化
完全匹配率 9.0% 64.4% +55.4%??
字符錯誤率(CER) 55.41% 10.88% -80%??

三,核心挑戰(zhàn):如何在 12GB 顯存上訓練大模型?

微調(diào) VL 模型通常需要昂貴的 A100 顯卡,但本教程的目標是讓每個擁有 RTX 3060 (12GB) 的開發(fā)者都能跑通。

我們采用了一下技術(shù)組合來降低顯存占用:

BF16 混合精度:使用 BF16Trainer 配合 torch.amp.autocast,在保持精度的同時大幅減少顯存占用。

梯度累積 (Gradient Accumulation):將 Batch Size 設(shè)為 1,但設(shè)置梯度累積步數(shù)為 16,從而模擬 Batch Size = 16 的訓練效果。

梯度檢查點 (Gradient Checkpointing):以計算換顯存,進一步壓縮內(nèi)存需求。

四,實戰(zhàn)指南:從零開始微調(diào)

第一步:環(huán)境搭建

1,克隆項目

git clone https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060.git

2,創(chuàng)建 conda 環(huán)境 (Python 3.11)

conda create -n manga-ocr python=3.11 -y
conda activate manga-ocr

3,安裝項目依賴

# 注意:我們需要安裝支持 CUDA 的 PyTorch 版本

pip install torch torchvision --index-url [https://download.pytorch.org/whl/cu118](https://download.pytorch.org/whl/cu118)
pip install -r requirements.txt

第二步:數(shù)據(jù)準備 (Manga109s)

我們需要高質(zhì)量的漫畫數(shù)據(jù)集。Manga109s 是學術(shù)界公認的日本漫畫數(shù)據(jù)集,包含精確的文本框標注。

1,下載數(shù)據(jù)集:訪問https://huggingface.co/datasets/hal-utokyo/Manga109-s 申請并下載 Manga109s_released_2023_12_07.zip。

2,解壓與配置:

# 解壓到項目根目錄
unzip Manga109s_released_2023_12_07.zip -d .
# 配置環(huán)境變量
cp .env.example .env
# 確保 .env 文件中的 MANGA109_ROOT 指向解壓后的文件夾

3,運行數(shù)據(jù)處理腳本: 該腳本會自動解析 XML 標注,裁剪出文本區(qū)域,生成適合 VL 模型訓練的格式。

python prepare_manga109_data.py

第三步:開啟訓練 (SFT)

一切準備就緒。我們提供了一個一鍵啟動腳本 train.sh,其中已經(jīng)預(yù)設(shè)了適合 RTX 3060 的參數(shù)。

bash train.sh
wKgZO2k6lO6AIgKNAABtZC7Ese012.webp

第四步:模型評估

訓練完成后,我們需要驗證模型是否真的學會了讀漫畫。

# 評估微調(diào)后的模型 (SFT Output)
python evaluate_model.py --model_path ./sft_output --num_samples 500
# (可選) 對比原始模型
python evaluate_model.py --model_path PaddlePaddle/PaddleOCR-VL --num_samples 500

你將看到類似這樣的巨大提升:

Base Model:經(jīng)常輸出亂碼,無法理解豎排。

Fine-tuned Model:準確識別 "あとは『メルニィ宇宙鉄道』とか..." 等復(fù)雜句式。

視頻鏈接:https://live.csdn.net/v/505182

五,結(jié)語

通過這個項目,我們證明了即使是在消費級顯卡 RTX 3060 上,通過合理的技術(shù)優(yōu)化(BF16、梯度累積),我們也完全有能力微調(diào)先進的 Vision-Language 模型。

PaddleOCR-VL 的微調(diào)版本不僅解決了豎排文本識別的難題,更為構(gòu)建自動化的漫畫翻譯/漢化工具鋪平了道路。

如果你對這個項目感興趣,或者想獲取詳細的代碼,請訪問我們的 GitHub 倉庫:

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41107

    瀏覽量

    302587
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    176

    瀏覽量

    17278
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    從零開始預(yù)訓練。事實,微調(diào)技術(shù)的成熟,徹底打破了這一門檻。 微調(diào)的本質(zhì),是“舉一反三”的遷移學習。就好比一個已經(jīng)大學畢業(yè)的通用人才(基礎(chǔ)大模型),只需企業(yè)內(nèi)部經(jīng)過幾個月的崗前培訓(
    發(fā)表于 04-16 18:48

    沐曦股份與百度飛槳黑客松硬核賽題來襲

    沐曦股份作為飛槳黑客松第十期文心合作伙伴賽道核心出題方之一,攜專屬賽題「優(yōu)化 PaddleOCR-VL-1.5+MetaX GPU」重磅來襲,邀全球開發(fā)者共探深度學習框架與國產(chǎn)GPU的軟硬協(xié)同優(yōu)化之道,用代碼解鎖智能文字識別的性能極限!
    的頭像 發(fā)表于 04-02 09:20 ?411次閱讀
    沐曦股份與百度飛槳黑客松硬核賽題來襲

    百度文心衍生模型PaddleOCR登頂GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCRGitHub的Star數(shù)突破73.3K,超越谷歌Tesseract OCR,成為全球Star數(shù)最高的OCR項目。
    的頭像 發(fā)表于 03-31 11:40 ?440次閱讀

    沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,沐曦曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5模型,助力PaddleOC
    的頭像 發(fā)表于 01-30 10:19 ?1307次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品適配<b class='flag-5'>PaddleOCR-VL</b>-1.5模型

    百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型僅 0.9B 參數(shù)的輕量架構(gòu),全球權(quán)威文檔解析評測榜單 OmniDocBench V1.5 中取得
    的頭像 發(fā)表于 01-30 10:03 ?812次閱讀
    百度正式發(fā)布并開源新一代文檔解析模型<b class='flag-5'>PaddleOCR-VL</b>-1.5

    使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級教程

    ? PaddleOCR-VL 是基于輕量級視覺語言模型(VLM)的文檔解析解決方案,核心模型為 PaddleOCR-VL-0.9B,支持多語言文本、表格、公式、圖表等元素級識別,并能以
    的頭像 發(fā)表于 12-18 18:26 ?6783次閱讀
    使用 Docker 一鍵部署 <b class='flag-5'>PaddleOCR-VL</b>: 新手保姆級教程

    解密 IXE 離子捕捉劑:日本東亞合成如何破解電子行業(yè)的 “離子魔咒”?

    電子技術(shù)向高密度、高可靠性升級的過程中,“離子魔咒” 始終如影隨形 —— 銀離子遷移導致 PCB 短路、氯離子腐蝕芯片布線、鈉離子影響材料穩(wěn)定性,這些隱形故障讓無數(shù)電子工程師頭疼不已。而日本東亞
    的頭像 發(fā)表于 11-12 16:12 ?712次閱讀
    解密 IXE 離子捕捉劑:<b class='flag-5'>日本</b>東亞合成如何<b class='flag-5'>破解</b>電子行業(yè)的 “離子<b class='flag-5'>魔咒</b>”?

    VL53L4CD小板開發(fā)(2)----修改測量頻率

    VL53L4CD是一款高度集成的飛行時間(ToF)傳感器,廣泛應(yīng)用于距離測量和接近檢測。為了滿足不同應(yīng)用場景的需求,合理調(diào)整傳感器的測量頻率至關(guān)重要。本文旨在介紹如何在VL53L4CD傳感器修改
    的頭像 發(fā)表于 11-05 10:19 ?5126次閱讀
    <b class='flag-5'>VL</b>53L4CD小板開發(fā)(2)----修改測量頻率

    PP-OCRv5 MCP服務(wù)器海光主板的部署與實戰(zhàn)

    在當今數(shù)字化快速發(fā)展的時代,OCR(光學字符識別)技術(shù)已經(jīng)成為從圖像中提取文本信息的重要工具。無論是自動化辦公、智能文檔處理還是在內(nèi)容創(chuàng)作領(lǐng)域,OCR 技術(shù)的應(yīng)用都極大地提高了工作效率和準確性
    的頭像 發(fā)表于 10-15 17:04 ?958次閱讀
    PP-OCRv5 MCP服務(wù)器<b class='flag-5'>在</b>海光主板的部署與實戰(zhàn)

    ?VL53L7系列ToF傳感器分線板技術(shù)解析與應(yīng)用指南

    STMicroelectronics SATEL-VL53L7分線板板載了VL53L7系列飛行時間傳感器模塊。該套裝包含兩塊分線板,每塊分線板均配備了帶有穿孔設(shè)計的
    的頭像 發(fā)表于 10-15 11:55 ?881次閱讀
    ?<b class='flag-5'>VL</b>53L7系列ToF傳感器分線板技術(shù)解析與應(yīng)用指南

    精準定位性能瓶頸:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飛槳技術(shù)生態(tài)伙伴 算力魔方 | 摘要:實際落地OCR和文檔解析項目時,大家常常會遇到一個棘手問題:模型跑得不夠快,但到底是檢測太慢、識別耗時,還是模塊之間的數(shù)據(jù)流轉(zhuǎn)不高效?PaddleOCR
    的頭像 發(fā)表于 09-05 16:02 ?1431次閱讀
    精準定位性能瓶頸:深入解析 <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    摘要 :小語種OCR研發(fā)的核心瓶頸在于高質(zhì)量標注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動化標注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調(diào)用 ERNIE 4.5 大模型進行雙重預(yù)測
    的頭像 發(fā)表于 08-29 11:26 ?3879次閱讀
    小語種OCR標注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自動標注實戰(zhàn)解析

    【EASY EAI Orin Nano開發(fā)板試用體驗】PP-OCRV5文字識別實例搭建與移植

    文字類型方面,PP-OCRv5支持簡體中文、中文拼音、繁體中文、英文、日文5大主流文字類型,在場景方面, PP-OCRv5升級了中英復(fù)雜手寫體、豎排文本、生僻字等多種挑戰(zhàn)性場景的識別能力。 在內(nèi)部多場景
    發(fā)表于 08-18 16:57

    無法使用OpenVINO? GPU 設(shè)備運行穩(wěn)定擴散文本到圖像的原因?

    OpenVINO? GPU 設(shè)備使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    阿里云PAI快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語言模型 (MLLM),它們經(jīng)過了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強化學習”兩個階段的訓練。其中
    的頭像 發(fā)表于 06-04 13:43 ?1174次閱讀
    古蔺县| 道孚县| 盖州市| 崇仁县| 牡丹江市| 绩溪县| 瑞金市| 三门县| 青冈县| 武邑县| 观塘区| 乐都县| 九寨沟县| 和政县| 甘肃省| 乐业县| 兴国县| 定襄县| 康马县| 凌云县| 永吉县| 蓝田县| 灵宝市| 黄骅市| 涪陵区| 仙居县| 黄陵县| 诸城市| 屏东市| 烟台市| 隆德县| 张家港市| 耿马| 进贤县| 富蕴县| 安福县| 商洛市| 延吉市| 浦北县| 山西省| 邵阳县|