哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何創(chuàng)建高質量、大規(guī)模、多語言的數據集

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-29 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

多模式視覺語言模型依賴大量數據集來對圖像和文本之間的關系進行建模。一般來說,這些數據集有兩種創(chuàng)建方法:手動為圖像添加文字說明,或抓取網頁并提取替代文本 (alt-text)作為文字說明。雖然前一種方法更利于產生更高質量的數據,但高強度的人工注釋過程限制了可創(chuàng)建的數據量。另一方面,雖然自動提取方法可以產生更大的數據集,但卻需要通過啟發(fā)式算法以及仔細過濾來確保數據質量,或者擴展模型來保證強大性能?,F(xiàn)有數據集的另一個缺點是極少涉及非英語語言。這不禁讓我們產生疑問:我們能否突破這些限制,創(chuàng)建包含各種內容的高質量、大規(guī)模、多語言數據集?

圖像和文本之間的關系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

確保數據質量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

對此,我們推出了基于維基百科的圖像文本 (WIT) 數據集。這是一個大型多模式數據集,通過從維基百科文章和 Wikimedia 圖像鏈接中提取與圖像相關的多種不同文本選擇集創(chuàng)建而成。在創(chuàng)建過程中會執(zhí)行嚴格的過濾環(huán)節(jié),以便僅保留高質量的圖像文本集。

基于維基百科的圖像文本 (WIT) 數據集

https://github.com/google-research-datasets/wit

如我們在 SIGIR 2021 上發(fā)布的“WIT:適用于多模式、多語言機器學習的基于維基百科的圖像文本數據集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中詳細說明的那樣,該過程產生一個包含 3750 萬個實體豐富的圖像文本示例精選集,其中涵蓋 1150 萬張獨特的圖像,跨越 108 種語言。大家可憑知識共享許可下載并使用 WIT 數據集。此外,我們也很高興地宣布,我們將與 Wikimedia Research 以及其他外部協(xié)作者攜手在 Kaggle 舉辦 WIT 數據集的競賽。

數據集 圖像
數量
文本 上下文
文本
語言數量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(僅限測試)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往數據集,WIT 的語言更多,規(guī)模更大

WIT 數據集的獨特優(yōu)勢包括:

1. 大規(guī)模:WIT 是公開提供的最大的圖像文本示例多模式數據集。

2.多語言:WIT 擁有 108 種語言,是其他數據集的十倍或以上。

3.上下文信息:與典型的多模式數據集(每個圖像只有一個文字說明)不同,WIT 包含許多頁面級和部分級上下文信息。

4.現(xiàn)實世界實體:維基百科是一個覆蓋廣泛的知識庫,其豐富的現(xiàn)實世界實體可以在 WIT 中得以體現(xiàn)。

5.具有挑戰(zhàn)性的測試集:在我們最近獲得 EMNLP 接受的研究中,所有最先進的模型在 WIT 上表現(xiàn)出的性能都明顯低于傳統(tǒng)評估集,例如平均召回率 (recall)下降約 30 點。

最近獲得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

數據集的創(chuàng)建過程

WIT 的主要目標是在不犧牲質量和概念覆蓋面的情況下創(chuàng)建大型數據集。因此,我們選擇利用當今最大的在線百科全書:維基百科。

就可用信息的深度而言,我們以維基百科上的“Half Dome”(加州約塞米蒂國家公園)頁面為例如下所示,文章為圖像提供了許多有趣的文本說明和相關的上下文信息,如頁面標題、主要頁面描述以及其他上下文信息和元數據。

我們首先選擇包含圖像的維基百科頁面,然后提取各種圖像文本關聯(lián)內容和周圍的上下文。為進一步優(yōu)化數據,我們執(zhí)行嚴格的過濾環(huán)節(jié)來確保數據質量。過濾過程包含:

基于文本的過濾,以確保文字說明的可用性、長度和質量(例如通過刪除通用默認填充文本);

基于圖像的過濾,以確保每個圖像都具有特定的大小且擁有允許的許可;

基于圖像和文本實體的過濾,以確保適合研究(例如排除仇恨類言論)。

接著我們進一步對圖像文字說明集隨機抽樣,由真人進行校對評估,他們中絕大多數人都認可一個結論:98% 樣本其圖像與文字說明一致。

高度語言多樣性

WIT 擁有 108 種語言的數據,是首個大規(guī)模、多語言、多模式數據集。

圖像文本集數量 獨特語言
數量
圖像數量 獨特語言
數量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨語言覆蓋統(tǒng)計信息

首個上下文圖像文字數據集

大多數多模式數據集僅為給定圖像提供單個文本說明(或類似文字說明的多個版本)。WIT 是首個提供上下文信息的數據集, 可以幫助研究人員就上下文對圖像文字說明以及圖像選擇的影響進行建模。

具體而言,可能有助于研究的 WIT 關鍵文本字段包括:

文本說明:WIT 提供三種不同的圖像文字說明,包括(可能受上下文影響的)“參考描述”、(可能不受上下文影響的)“屬性描述”,以及“替代文本描述”。

上下文信息:包括頁面標題、頁面描述、網址和有關維基百科部分的局部上下文(包括部分標題和文本)。

如下所示,WIT 在以下不同字段具有廣泛的覆蓋。

WIT 圖像
文字字段
訓練 Val 測試 合計/獨特
行/元組 37.1M 261.8K 210.7K 37.6M
獨特的圖像 11.4M 58K 57K 11.5M
參考描述 16.9M 150K 104K 17.2M/16.7M
屬性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的關鍵字段兼有文本說明和上下文信息

高質量訓練集與

具有挑戰(zhàn)性的評估基準

維基百科廣泛覆蓋各種概念,這意味著 WIT 評估集作為評估基準非常具有挑戰(zhàn)性,即使對于最先進的模型而言也是如此。在圖像文本檢索方面,我們發(fā)現(xiàn)傳統(tǒng)數據集的平均召回分數 (mean recall scores)為 80 秒,而對于 WIT 測試集而言,資源豐富的語言為 40 秒,資源不足的語言為 30 秒。我們希望這可以轉而幫助研究人員構建更強大、更穩(wěn)健的模型。

WIT 數據集與 Wikimedia 和

Kaggle 攜手開展競賽

此外,非常高興地宣布,我們將攜手 Wikimedia Research 以及一些外部協(xié)作者共同組織 WIT 測試集的競賽。競賽將在 Kaggle 舉辦,競賽任務為圖像文本檢索。我們將給定一組圖像和文本說明,而參賽者的任務是為每個圖像檢索適當的文字說明。

為促進該領域的研究,維基百科為大部分訓練和測試數據集提供了 300 像素分辨率的圖像和基于 Resnet-50 的圖像嵌入向量。除 WIT 數據集以外,Kaggle 還將托管所有圖像數據,并提供 Colab notebooks。此外,參賽者屆時可訪問 Kaggle 論壇,以便分享代碼和開展協(xié)作。任何對多模態(tài)感興趣的人都可以借此輕松開始并運行實驗。我們很高興并且期待各位參賽者可以在 Kaggle 平臺,通過 WIT 數據集和維基百科圖像為我們帶來精彩表現(xiàn)。

結論

我們相信 WIT 數據集將幫助研究人員構建更好的多模態(tài)多語言模型,并識別更好的學習和表征技術,最終借助視覺語言數據在現(xiàn)實世界任務中優(yōu)化機器學習模型。如有任何問題,請聯(lián)系 wit-dataset@google.com。我們非常愿意傾聽您如何使用 WIT 數據集。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7348

    瀏覽量

    95007
  • 模型
    +關注

    關注

    1

    文章

    3813

    瀏覽量

    52257
  • 機器學習
    +關注

    關注

    67

    文章

    8562

    瀏覽量

    137208

原文標題:基于維基百科的圖像文本數據集 (WIT)

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    萬里紅入選2025“鑄基計劃”高質量數字化轉型典型案例

    近日,由中國信通院評選的2025“鑄基計劃”《高質量數字化轉型典型案例》正式發(fā)布,北京萬里紅科技有限公司(以下簡稱:萬里紅)自主研發(fā)的核心產品——數智密腦憑借在數據安全治理、智能保密管控、數智化協(xié)同賦能領域的創(chuàng)新突破與卓越實踐
    的頭像 發(fā)表于 04-22 10:09 ?187次閱讀

    嵌入式C語言高質量編程:從“能用”到“卓越”的跨越

    只有掌握了嵌入式C硬核的技術,才能夠鑄就工業(yè)級高質量的代碼。
    的頭像 發(fā)表于 03-13 10:18 ?219次閱讀
    嵌入式C<b class='flag-5'>語言</b><b class='flag-5'>高質量</b>編程:從“能用”到“卓越”的跨越

    聲智科技亮相2026海淀區(qū)經濟社會高質量發(fā)展大會

    近日,海淀區(qū)高質量發(fā)展大會隆重召開。聲智科技作為深耕聲學AI模型技術創(chuàng)新及AI全棧產品商業(yè)化落地的AI應用標桿企業(yè)受邀出席大會。聲智科技不僅致力于突破物理AI技術的“天花板“,更通過硬核終端的規(guī)模化產出,將技術勢能轉化為高質量發(fā)
    的頭像 發(fā)表于 03-04 17:42 ?1654次閱讀

    京東多語言質量解決方案

    一、業(yè)界多語言面臨的通用挑戰(zhàn)是什么 做這個事之前,我們先看看業(yè)界做了什么。 ??阿里巴巴全球化測試技術介紹? ??螞蟻全球化無線端質量解決方案? ??談談多語言測試? 總結下來,需要面臨3個通用
    的頭像 發(fā)表于 01-13 16:18 ?1063次閱讀
    京東<b class='flag-5'>多語言</b><b class='flag-5'>質量</b>解決方案

    長城汽車以全新平臺助力中國汽車產業(yè)高質量發(fā)展

    在中國汽車產業(yè)邁入由“規(guī)模領先”向“質量躍遷”的關鍵階段,一場圍繞產業(yè)高質量發(fā)展的深度對話,在央視新聞鏡頭前展開。
    的頭像 發(fā)表于 12-18 14:06 ?533次閱讀

    廣電計量創(chuàng)新服務體系助力商業(yè)航天高質量發(fā)展

    近日,國家航天局正式印發(fā)《推進商業(yè)航天高質量安全發(fā)展行動計劃(2025—2027年)》(以下簡稱《行動計劃》),明確將商業(yè)航天納入國家航天發(fā)展總體布局,提出到2027年實現(xiàn)產業(yè)規(guī)模顯著壯大、創(chuàng)新活力
    的頭像 發(fā)表于 11-27 17:22 ?1435次閱讀

    SimData:基于aiSim的高保真虛擬數據生成方案

    01前言在自動駕駛感知系統(tǒng)的研發(fā)過程中,模型的性能高度依賴于大規(guī)模、高質量的感知數據。目前業(yè)界常用的數據
    的頭像 發(fā)表于 11-07 17:35 ?5498次閱讀
    SimData:基于aiSim的高保真虛擬<b class='flag-5'>數據</b><b class='flag-5'>集</b>生成方案

    阿里巴巴國際站關鍵字搜索 API 實戰(zhàn):3 步搞定多語言適配 + 限流破局,詢盤量提升 40%

    跨境電商API開發(fā)常陷合規(guī)、多語言、限流等坑。本文詳解從國際合規(guī)(GDPR/CCPA)到參數優(yōu)化、數據結構化及區(qū)域化搜索的全鏈路方案,附Python代碼模板與緩存重試架構,助力提升調用成功率至99%+,精準詢盤增長42%。
    的頭像 發(fā)表于 10-20 14:44 ?1963次閱讀

    速賣通全球運營利器:商品詳情接口多語言 + 合規(guī) + 物流適配技術全解析

    速賣通全球化適配是跨境成功關鍵!本文詳解2025最新接口方案,涵蓋多語言智能翻譯、合規(guī)自動校驗、物流精準推薦與性能優(yōu)化四大模塊,助力商家提升轉化率30%+,降低風險,提效80%。附實操代碼與新手三步走策略,適合所有想出海的賣家。
    的頭像 發(fā)表于 10-16 09:30 ?710次閱讀
    速賣通全球運營利器:商品詳情接口<b class='flag-5'>多語言</b> + 合規(guī) + 物流適配技術全解析

    標貝科技參編《人工智能高質量數據建設指南》

    在人工智能邁入“數據驅動”的關鍵發(fā)展階段,高質量數據已成為突破技術瓶頸、推動產業(yè)落地的核心引擎。日前,中國信息通信研究院人工智能研究所聯(lián)合清華大學計算社會科學與國家治理實驗室、中國人工智能產業(yè)發(fā)展
    的頭像 發(fā)表于 09-11 17:19 ?1016次閱讀

    易華錄入選國家首批高質量數據建設先行先試工作名單

    8月28日下午,在2025中國國際大數據產業(yè)博覽會上,國家數據局發(fā)布了首批高質量數據建設先行先試工作名單。經中國電科推薦、國家數據局評審,
    的頭像 發(fā)表于 09-04 09:04 ?1181次閱讀

    索尼重載設備的高質量遠程制作方案和應用(2)

    索尼的遠程制作可以被稱之為制作級的高質量遠程制作,或重載設備的高質量遠程制作,遠程設備結合常規(guī)系統(tǒng)設備,提供和本地制作類似的制作級高質量圖像,延續(xù)電視臺/制作公司的設備特點和優(yōu)勢。
    的頭像 發(fā)表于 08-21 15:56 ?1404次閱讀
    索尼重載設備的<b class='flag-5'>高質量</b>遠程制作方案和應用(2)

    大模型時代,如何推進高質量數據建設?

    高質量數據,即具備高價值、高密度、標準化特征的數據集合。 在AI領域,高質量數據地位舉足輕重,如同原油經煉化成為汽油驅動汽車,海量原始
    的頭像 發(fā)表于 08-21 13:58 ?991次閱讀

    新能源變革之路,要建在“高質量”的路基上

    高質量”是能源革命的前提與基座
    的頭像 發(fā)表于 06-24 11:42 ?2628次閱讀
    新能源變革之路,要建在“<b class='flag-5'>高質量</b>”的路基上

    淺析:數字經濟時代,高質量數據對AI產業(yè)帶來哪些新的變化

    大模型技術不斷取得突破,其中大規(guī)模高質量訓練數據的投入,起到了關鍵作用,也進一步將?“以數據為中心的人工智能”?推向一個新階段。從早期簡單的圖像識別、語音識別,到如今復雜的自然
    的頭像 發(fā)表于 05-09 15:10 ?1210次閱讀
    兴宁市| 桦南县| 江都市| 佳木斯市| 思茅市| 清远市| 封丘县| 临江市| 临西县| 丘北县| 湘潭市| 普兰店市| 商洛市| 韶山市| 敖汉旗| 犍为县| 鹰潭市| 桦甸市| 师宗县| 灵璧县| 和静县| 邹平县| 宜兰市| 三明市| 兴海县| 邵武市| 旬阳县| 连江县| 红原县| 庐江县| 康马县| 苏尼特左旗| 外汇| 平和县| 宁夏| 宜兴市| 达孜县| 晋城| 平阴县| 仪陇县| 庆阳市|