哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)框架超越 PyTorch 和 TensorFlow?

人工智能與大數(shù)據(jù)技術(shù) ? 來源:中國網(wǎng)科學(xué) ? 作者:HyperAI超神經(jīng) ? 2021-04-09 15:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)領(lǐng)域,PyTorch、TensorFlow 等主流框架,毫無疑問占據(jù)絕大部分市場份額,就連百度這樣級別的公司,也是花費了大量人力物力,堪堪將 PaddlePaddle 推入主流。

在這樣資源主導(dǎo)、肉食者謀的競爭環(huán)境下,一家國產(chǎn)深度學(xué)習(xí)框架的創(chuàng)業(yè)公司 OneFlow 出現(xiàn)了。

它以處理大規(guī)模模型見長,甚至今年將全部源碼和實驗對比數(shù)據(jù),在 GitHub 進(jìn)行了開源。

質(zhì)疑不可避免的出現(xiàn)了:OneFlow 這種擅長解決大模型訓(xùn)練的新架構(gòu)有必要嗎?深度學(xué)習(xí)框架的效率有那么重要嗎?創(chuàng)業(yè)公司有可能在競爭中脫穎而出么?

我們借著 CosCon 20' 開源年會的機會,采訪了一流科技 CEO 袁進(jìn)輝,了解到了他和一流科技的工程師們,1300 多個日日夜夜、數(shù)十萬行代碼背后的故事。

光環(huán)再多,創(chuàng)業(yè)也得一步一個腳印

2016 年 11 月,袁進(jìn)輝在清華附近的一棟寫字樓里,寫下了 OneFlow 的第一版設(shè)計理念。此時的袁進(jìn)輝剛剛從工作了近 4 年的微軟亞洲研究院(MSRA)離職。

「MSRA 前員工」并不是袁進(jìn)輝身上唯一的 tag,2003 年從西安電子科技大學(xué)本科畢業(yè)后,他被保送到清華大學(xué)計算機系繼續(xù)直博學(xué)習(xí),師從中國科學(xué)院院士、中國 AI 學(xué)科奠基人之一張鈸教授。

2008 年袁進(jìn)輝從清華大學(xué)畢業(yè)后,先后加入網(wǎng)易、360 搜索。他開發(fā)的鷹眼系統(tǒng),被中國國家隊作為日常訓(xùn)練輔助系統(tǒng)。除此之外,他在 MSRA 工作期間,專注于大規(guī)模機器學(xué)習(xí)平臺,還研發(fā)出了當(dāng)時世界上最快的主題模型訓(xùn)練算法和系統(tǒng) LightLDA,被應(yīng)用于微軟在線廣告系統(tǒng)。

LightLDA 于 2014 年面世,僅僅兩年之后,獨具慧眼的袁進(jìn)輝就又萌生了一個大膽地猜想:隨著業(yè)務(wù)需求和場景的豐富,能高效處理大模型訓(xùn)練的分布式深度學(xué)習(xí)框架,必然成為繼 Hadoop、Spark 之后,數(shù)據(jù)智能時代基礎(chǔ)設(shè)施的核心。

但是當(dāng)時主流的深度學(xué)習(xí)框架都是由 Google、Amazon、Facebook 等大廠牽頭開發(fā)的,即使是國內(nèi)情況也類似。這由于開發(fā)深度學(xué)習(xí)框架不光需要雄厚的研發(fā)成本,更重要的是能耐得住寂寞,做好打持久戰(zhàn)的準(zhǔn)備,因此尚沒有初創(chuàng)企業(yè)敢在該領(lǐng)域試水。

已有的深度學(xué)習(xí)框架都已經(jīng)打的如火如荼了,一家初創(chuàng)企業(yè),又搞出來一個新框架,會有用戶買單嗎?行動派袁進(jìn)輝不但敢想,他還敢干。

敲下 OneFlow 第一行代碼的時候,他還沒想清楚詳細(xì)地實現(xiàn)策略,更談不上完善的業(yè)務(wù)邏輯。他的想法很簡單,又很復(fù)雜,要做一款「開發(fā)者愛用」的產(chǎn)品。

一群天才+21 個月,OneFlow 初版上線

2017 年 1 月,袁進(jìn)輝成立一流科技,召集了 30 多位工程師,開啟了 OneFlow 的正式「團戰(zhàn)」。盡管大家對困難已經(jīng)做了充分預(yù)估,但是隨著開發(fā)的逐漸深入,涌現(xiàn)的重重困難還是出乎的團隊的意料。

深度學(xué)習(xí)框架的技術(shù)非常復(fù)雜,況且 OneFlow 采用了一個全新的技術(shù)架構(gòu),沒有先例可以參考,光是把技術(shù)設(shè)想跑通,就花了快兩年時間。

2018 年秋天,一流科技的發(fā)展進(jìn)入了最艱難的階段。產(chǎn)品研發(fā)遲遲不能定型,一些員工的耐心跟信心消耗殆盡,加上公司下輪融資一波三折,團隊的士氣和信心面臨極大挑戰(zhàn)。

在創(chuàng)業(yè)圈有個「18 個月魔咒」的說法,意思是一年半沒看到希望,沒有正反饋,創(chuàng)業(yè)團隊的心態(tài)就會發(fā)生變化,失去耐心。袁進(jìn)輝意識到,不能再等了,必須要盡早在真實場景去使用 OneFlow,讓大家看到 OneFlow 的創(chuàng)新的確是有價值的, 從而形成正反饋。

2018 年 9 月,在經(jīng)歷了長達(dá) 1 年 9 個月的研發(fā)后,袁進(jìn)輝和團隊推出了 OneFlow 閉源版。當(dāng)時 OneFlow 還沒有開源,也存在大大小小的問題,但產(chǎn)品正式發(fā)布了,總算是給團隊成員吃了個定心丸。

專注大規(guī)模訓(xùn)練,效率秒殺同類框架

2018 年 11 月,幸運之神降臨到一流科技。Google 推出了最強自然語言模型 BERT,開啟了 NLP 新時代。這驗證了袁進(jìn)輝的預(yù)測,擅長處理大規(guī)模訓(xùn)練的新架構(gòu),是必須且必要的。

很快,一流科技的工程師就基于 OneFlow 支持了 BERT-Large 的分布式訓(xùn)練,這也是當(dāng)時唯一一個支持分布式 BERT-Large 訓(xùn)練的框架,性能和處理速度遠(yuǎn)超已有的開源框架。

ce11a668-989f-11eb-8b86-12bb97331649.png

OneFlow 異構(gòu)分布式流式系統(tǒng)架構(gòu)圖

OneFlow 「一戰(zhàn)成名」,這也為一流科技積累第一批頭部互聯(lián)網(wǎng)企業(yè)用戶提供了契機。令人倍感意外的是,當(dāng)時的袁進(jìn)輝因為「仍對產(chǎn)品不滿意」,所以選擇了一條格外低調(diào)的路。

從 2018 年 9 月閉源版本發(fā)布,到 2020 年 7 月正式開源,袁進(jìn)輝又用了 22 個月來打磨 OneFlow。他和團隊一邊持續(xù)優(yōu)化經(jīng)典模型,一邊解決原來沒預(yù)計到的問題,在袁進(jìn)輝看來,哪怕是產(chǎn)品文檔沒做好,他都不會輕易把 OneFlow 推到臺面上。

2020 年 7 月 31 日,OneFlow 正式在 GitHub 開源。這個以訓(xùn)練大規(guī)模模型著稱的開源框架,第二次站到聚光燈下,完美詮釋了四個字--效率為王。

ce2f9e70-989f-11eb-8b86-12bb97331649.png

深度學(xué)習(xí)框架版圖幾乎由美國企業(yè)主導(dǎo)

ce69eb84-989f-11eb-8b86-12bb97331649.png

國內(nèi)開源的深度學(xué)習(xí)框架版圖中

只有 OneFlow 是由初創(chuàng)企業(yè)研發(fā)并開源

訓(xùn)練速度更快、GPU 利用率更高、多機加速比更高、運維成本更低、用戶上手難度更低,五個強大優(yōu)勢讓 OneFlow 能快速適應(yīng)各個場景,并進(jìn)行快速延展。袁進(jìn)輝和團隊對 OneFlow 的性能追求和優(yōu)化,達(dá)到了極致。

近期,OneFlow 發(fā)布了 v0.2.0 版本,更新的性能優(yōu)化多達(dá) 17 個,使得 CNN 和 BERT 的自動混合精度訓(xùn)練速度大幅提升。

開發(fā)團隊還建立了一個名為 DLPerf 的開源項目,將實驗環(huán)境、實驗數(shù)據(jù)、可復(fù)現(xiàn)算法完全開源,測評了在相同的物理環(huán)境上(4臺 V100 16G x8的機器),OneFlow 和其他幾個主流框架在 ResNet50-v1.5 和 BERT-base 模型上的吞吐率及加速比。

cf9ae314-989f-11eb-8b86-12bb97331649.png

7 個框架在 ResNet50-v1.5 模型上的吞吐率對比

結(jié)果證明 OneFlow 在單機單卡、多機多卡下的吞吐率都明顯領(lǐng)先其他框架,成為在主流旗艦顯卡(V100 16G)上訓(xùn)練 ResNet50-v1.5 和 BERT-base 模型最快的框架,OneFlow ResNet50-v1.5 AMP 單卡比 NVIDIA 深度優(yōu)化過的 PyTorch 快 80%, 比 TensorFlow 2.3 快 35%。

直面質(zhì)疑,做賽道的「少數(shù)派」

事實上,OneFlow 從誕生至今,受到的質(zhì)疑并不在少數(shù),「上車晚且生存空間狹小」是最主流的聲音,對此袁進(jìn)輝表現(xiàn)出了超乎尋常的坦然。

在他看來,深度學(xué)習(xí)框架本就是一個新生事物,技術(shù)和產(chǎn)業(yè)都在中早期,不存在上車早晚的問題。在技術(shù)收斂之前,性能高、易用性強、符合用戶使用價值的產(chǎn)品,就會受到用戶的青睞。

至于生存空間小一說,更是子虛烏有。開源讓小公司和大公司的產(chǎn)品有機會公平競技,優(yōu)秀的新生框架挑戰(zhàn)權(quán)威的框架,正是開源精神的內(nèi)核之一。

質(zhì)疑聲并沒有阻礙 OneFlow 的發(fā)展,相反,袁進(jìn)輝和團隊加快了 OneFlow 的升級和完善進(jìn)程,更新優(yōu)化性能、梳理開發(fā)者文檔、收集社區(qū)反饋……這些努力和堅持,為 OneFlow 吸引了更多用戶,其中不乏最初的「懷疑論者」。

在 COSCon'20中國開源年會上,袁進(jìn)輝做了題為《深度學(xué)習(xí)訓(xùn)練系統(tǒng)演進(jìn)》的分享,向所有開發(fā)者介紹了 OneFlow 下一步的開發(fā)規(guī)劃,除了堅持效率為王、繼續(xù)性能優(yōu)化外,開發(fā)團隊還在努力降低用戶的學(xué)習(xí)成本和遷移成本。目前 PyTorch 用戶遷移到 OneFlow 的成本已經(jīng)相當(dāng)?shù)土耍驗槎叩挠脩?a target="_blank">接口幾乎一樣,已訓(xùn)練好的模型轉(zhuǎn)換成 OneFlow 的成本也足夠低。

客觀講,OneFlow 在完備性和易用性上,與 TensorFlow 和 PyTorch 相比還有差距。但是,OneFlow 的特色是效率高、擴展性好以及分布式特別容易使用,非常適合大規(guī)模人臉識別、大規(guī)模廣告推薦系統(tǒng)、以及類似 GPT-3 這種模型參數(shù)巨大的模型訓(xùn)練場景。

采訪的最后袁進(jìn)輝老師也毫不掩飾對人才的渴望,他表示 OneFlow 正在招聘機器學(xué)習(xí)工程師以及深度學(xué)習(xí)工程師,非常歡迎有識之士加入這個朝氣勃勃、渴望勝利的團隊。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18497
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4346

    瀏覽量

    46445
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    813

    瀏覽量

    14923
  • OneFlow
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    9055

原文標(biāo)題:超越 PyTorch 和 TensorFlow,這個國產(chǎn)框架有點東西

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    在 NPU 上運行了 eIQ TensorFlow Lite 示例模型報錯

    我們已經(jīng)在 NPU 上運行了 eIQ TensorFlow Lite 示例模型,但它們失敗并出現(xiàn)以下錯誤: 信息:加載的模型 mobilenet_v1_1.0_224_quant.tflite
    發(fā)表于 03-18 06:52

    PyTorch 中RuntimeError分析

    使用的具體框架(如 Stable Diffusion、ComfyUI)和 PyTorch 版本,我可以給你更精確的修復(fù)代碼。需要我?guī)湍愣ㄖ茊幔?
    發(fā)表于 03-06 06:02

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發(fā)表于 02-06 08:28

    LuatOS框架的使用(上)

    在資源受限的物聯(lián)網(wǎng)終端設(shè)備中,如何實現(xiàn)快速開發(fā)與穩(wěn)定運行是關(guān)鍵挑戰(zhàn)。LuatOS框架通過將Lua語言與底層硬件抽象層深度融合,提供了一套簡潔高效的開發(fā)范式。本文將圍繞LuatOS框架的使用展開,從
    的頭像 發(fā)表于 01-27 19:38 ?371次閱讀
    LuatOS<b class='flag-5'>框架</b>的使用(上)

    如何在TensorFlow Lite Micro中添加自定義操作符(1)

    相信大家在部署嵌入式端的AI應(yīng)用時,一定使用過TensorFlow Lite Micro,以下簡稱TFLm。TFLm 是專為微控制器和嵌入式設(shè)備設(shè)計的輕量級機器學(xué)習(xí)推理框架,它通過模塊化的操作符系統(tǒng)
    的頭像 發(fā)表于 12-26 10:34 ?5775次閱讀

    CYD7606S —— 國產(chǎn)高性能高性價比同步采樣ADC

    上海宸嶼電子推出的CYD7606S,不僅在引腳和功能上完全兼容AD7606,更在多項關(guān)鍵性能上實現(xiàn)了超越,成為國產(chǎn)強化替代方案。
    的頭像 發(fā)表于 11-24 17:30 ?1093次閱讀
    CYD7606S —— <b class='flag-5'>國產(chǎn)</b>高性能高性價比同步采樣ADC

    【上海晶珩睿莓1開發(fā)板試用體驗】TensorFlow-Lite物體歸類(classify)

    目前尚未得知睿莓1開發(fā)板上面有NPU或者DPU之類的額外處理器,因此使用樹莓派系列使用最廣泛的TensorFlow-Lite庫進(jìn)行物體歸類,使用CPU運行代碼,因此占用的是CPU的算力。在
    發(fā)表于 09-12 22:43

    Arm方案 基于Arm架構(gòu)的邊緣側(cè)設(shè)備(樹莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹莓派或 NVIDIA Jetson Nano 等基于 Arm 架構(gòu)的邊緣側(cè)設(shè)備上部署 PyTorch 模型。
    的頭像 發(fā)表于 07-28 11:50 ?3059次閱讀

    Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    生成比傳統(tǒng)框架(如 TensorFlowPyTorch 等)小 10 倍的模型,模型體積可低至個位數(shù) KB,并且推理速度更快、功耗更低。此次收購將 Neuton 的自動化 TinyML 平臺
    發(fā)表于 06-28 14:18

    無法將Tensorflow Lite模型轉(zhuǎn)換為OpenVINO?格式怎么處理?

    Tensorflow Lite 模型轉(zhuǎn)換為 OpenVINO? 格式。 遇到的錯誤: FrontEnd API failed with OpConversionFailure:No translator found for TFLite_Detection_PostProcess node.
    發(fā)表于 06-25 08:27

    迅為iTOP-3576開發(fā)板適用于ARM PC、邊緣計算、個人移動互聯(lián)網(wǎng)設(shè)備及其他多媒體產(chǎn)品。

    、PyTorch、Caffe等一系列框架的網(wǎng)絡(luò)模型。滿足多種應(yīng)用場景。 iTOP-3576擁有強大的視頻編解碼能力,支持4K@120fps的H.265、VP9、AVS2和AV1解碼器,支持4k@60fps
    發(fā)表于 06-19 10:48

    迅為iTOP-3576開發(fā)板采用瑞芯微RK3576高性能、低功耗的應(yīng)用處理芯片

    、PyTorch、Caffe等一系列框架的網(wǎng)絡(luò)模型。滿足多種應(yīng)用場景。 iTOP-3576擁有強大的視頻編解碼能力,支持4K@120fps的H.265、VP9、AVS2和AV1解碼器,支持4k@60fps
    發(fā)表于 05-20 11:15

    迅為iTOP-RK3576開發(fā)板/核心板6TOPS超強算力NPU適用于ARM PC、邊緣計算、個人移動互聯(lián)網(wǎng)設(shè)備及其他多媒體產(chǎn)品

    PyTorch、Caffe等一系列框架的網(wǎng)絡(luò)模型。滿足多種應(yīng)用場景。 iTOP-3576擁有強大的視頻編解碼能力,支持4K@120fps的H.265、VP9、AVS2和AV1解碼器,支持4k@60fps
    發(fā)表于 05-16 14:46

    摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學(xué)習(xí)框架的MUSA擴展庫的重要升級。新版本基于MUSA Compute Capability 3.1計算架構(gòu)
    的頭像 發(fā)表于 05-11 16:41 ?1876次閱讀

    如何選擇 邊緣計算服務(wù)器

    延遲≤50ms; 視頻分析、AI推理類需求側(cè)重?算力密度?,建議選擇支持16TOPS以上算力且兼容TensorFlow/PyTorch框架的服務(wù)器(如RK3588芯片平臺); 教育、醫(yī)療等敏感數(shù)據(jù)處理場景,需內(nèi)置國密加密芯片并支
    的頭像 發(fā)表于 05-06 07:58 ?933次閱讀
    如何選擇 邊緣計算服務(wù)器
    宾阳县| 含山县| 正安县| 迁西县| 余姚市| 扬中市| 蚌埠市| 泗阳县| 南汇区| 嫩江县| 将乐县| 滨海县| 任丘市| 特克斯县| 龙海市| 临安市| 芮城县| 江城| 陕西省| 红原县| 汝南县| 涟水县| 桃园县| 新津县| 南昌县| 昌黎县| 武功县| 连州市| 鄂尔多斯市| 慈利县| 柳河县| 永德县| 东台市| 错那县| 德安县| 临泽县| 钟祥市| 莫力| 浮梁县| 镇巴县| 东海县|