哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于openEuler平臺(tái)的CPU、GPU與FPGA異構(gòu)加速實(shí)戰(zhàn)

FPGA設(shè)計(jì)論壇 ? 來(lái)源:FPGA設(shè)計(jì)論壇 ? 2026-04-08 11:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01開篇導(dǎo)語(yǔ)

隨著 AI、視頻處理、加密和高性能計(jì)算需求的增長(zhǎng),單一 CPU 已無(wú)法滿足低延遲、高吞吐量的計(jì)算需求。openEuler 作為面向企業(yè)和云端的開源操作系統(tǒng),在多樣算力支持方面表現(xiàn)出色,能夠高效調(diào)度 CPU、GPU、FPGA 及 AI 加速器,實(shí)現(xiàn)異構(gòu)計(jì)算協(xié)同。

本文我將結(jié)合 openEuler 平臺(tái),介紹 CPU、GPU 與 FPGA 的異構(gòu)計(jì)算能力,并展示在圖像處理、加密和網(wǎng)絡(luò)加速中的實(shí)際應(yīng)用。

02多樣算力支持概覽

openEuler 對(duì)多樣算力的支持主要體現(xiàn)在以下幾個(gè)方面:

CPU 多核優(yōu)化:openEuler 內(nèi)核對(duì)多核 CPU 調(diào)度和 NUMA 拓?fù)鋬?yōu)化良好,保證高性能計(jì)算任務(wù)的并行效率。

GPU 加速:通過 CUDA、OpenCL 等接口,openEuler 可以直接調(diào)度 GPU 進(jìn)行浮點(diǎn)計(jì)算、圖像處理和深度學(xué)習(xí)任務(wù)。

FPGA/AI 加速器:openEuler 支持 FPGA 管理器、DMA 設(shè)備和 OpenCL 運(yùn)行環(huán)境,可用于低延遲加速和定制硬件計(jì)算。

異構(gòu)計(jì)算協(xié)同:通過 openEuler 的任務(wù)調(diào)度和驅(qū)動(dòng)支持,可以實(shí)現(xiàn) CPU/GPU/FPGA 的混合調(diào)用,充分利用硬件資源。

03FPGA 在 openEuler 上的支持

FPGA 是典型的異構(gòu)計(jì)算單元,低延遲、低功耗、高靈活性。在 openEuler 上可以通過/dev/xdma*和/sys/class/fpga_manager/管理 FPGA 設(shè)備,并使用 Vivado/Vitis 或 OpenCL 進(jìn)行開發(fā)。

# 檢測(cè) FPGA 設(shè)備 lspci |grep-i fpga lspci |grep-i xilinx lspci |grep-i altera # 查看 FPGA 設(shè)備信息 ls -la/dev/xdma*  ls -la/sys/class/fpga_manager/

151d7c4c-2f24-11f1-90a1-92fbcf53809c.png

158056dc-2f24-11f1-90a1-92fbcf53809c.png

CPU / GPU / FPGA 性能對(duì)比

特性 CPU GPU FPGA ASIC
靈活性
性能 最高
延遲 最低 最低
功耗 最低
開發(fā)周期 長(zhǎng)
適用場(chǎng)景 通用計(jì)算 并行計(jì)算 定制加速 大規(guī)模部署

Xilinx FPGA 開發(fā)環(huán)境在 openEuler 上的安裝

# 安裝依賴dnf install -y gcc gcc-c++ make ncurses-libs libstdc++# 安裝 Vivado/Vitis./xsetup# 設(shè)置環(huán)境變量exportXILINX_VIVADO=/tools/Xilinx/Vivado/2023.1exportXILINX_VITIS=/tools/Xilinx/Vitis/2023.1exportPATH=$XILINX_VIVADO/bin:$XILINX_VITIS/bin:$PATHsource$XILINX_VIVADO/settings64.sh# 驗(yàn)證安裝vivado -version vitis -version

15dd9428-2f24-11f1-90a1-92fbcf53809c.png

163773c6-2f24-11f1-90a1-92fbcf53809c.png

16913fc8-2f24-11f1-90a1-92fbcf53809c.png

04HDL 與 HLS 編程示例

在 FPGA 開發(fā)中,我經(jīng)常使用 HDL(硬件描述語(yǔ)言)和HLS(高層次綜合)兩種方法。用 HDL,比如 Verilog 或 VHDL,需要手動(dòng)描述硬件結(jié)構(gòu)和時(shí)序邏輯,能精確控制資源和性能。例如我實(shí)現(xiàn)一個(gè) 16×16 的矩陣乘法時(shí),要自己設(shè)計(jì)乘法器、累加器和流水線控制。而用 HLS,我可以直接用 C/C++ 編寫算法,像matrix_mul這樣的函數(shù)只需關(guān)注矩陣乘法邏輯,綜合工具會(huì)幫我生成帶流水線和 AXI 接口的硬件實(shí)現(xiàn),這大大加快了我的開發(fā)效率,也讓我能更專注于算法優(yōu)化。

使用C/C++編寫FPGA程序:

// matrix_mul.cpp - 矩陣乘法HLS#include#defineN 16voidmatrix_mul(  int A[N][N],  int B[N][N],  int C[N][N]){#pragmaHLS INTERFACE m_axi port=A offset=slave bundle=gmem0#pragmaHLS INTERFACE m_axi port=B offset=slave bundle=gmem1#pragmaHLS INTERFACE m_axi port=C offset=slave bundle=gmem2#pragmaHLS INTERFACE s_axilite port=return// 矩陣乘法for(inti =0; i < N; i++) { ? ? ? ?for?(int?j =?0; j < N; j++) {#pragma?HLS PIPELINE II=1int?sum =?0; ? ? ? ? ? ?for?(int?k =?0; k < N; k++) { ? ? ? ? ? ? ? ? sum += A[i][k] * B[k][j]; ? ? ? ? ? ? } ? ? ? ? ? ? C[i][j] = sum; ? ? ? ? } ? ? } }// 測(cè)試代碼#includeintmain(){  intA[N][N], B[N][N], C[N][N];    // 初始化矩陣for(inti =0; i < N; i++) { ? ? ? ?for?(int?j =?0; j < N; j++) { ? ? ? ? ? ? A[i][j] = i + j; ? ? ? ? ? ? B[i][j] = i - j; ? ? ? ? } ? ? } ? ? ? ??// 調(diào)用硬件函數(shù)matrix_mul(A, B, C); ? ? ? ??// 驗(yàn)證結(jié)果? ? ?std::cout <
# HLS綜合vitis_hls -f run_hls.tcl# run_hls.tcl內(nèi)容# open_project matrix_mul_proj# set_top matrix_mul# add_files matrix_mul.cpp# add_files -tb matrix_mul_tb.cpp# open_solution "solution1"# set_part {xcvu9p-flga2104-2-i}# create_clock -period 10 -name default# csim_design# csynth_design# cosim_design# export_design -format ip_catalog

16e86654-2f24-11f1-90a1-92fbcf53809c.png

HLS優(yōu)化指令

指令 作用 示例 效果
PIPELINE 流水線 #pragmaHLS PIPELINE II=1 吞吐量提升10x
UNROLL 循環(huán)展開 #pragmaHLS UNROLL factor=4 并行度提升4x
ARRAY_PARTITION 數(shù)組分割 #pragmaHLS ARRAY_PARTITION 帶寬提升
DATAFLOW 數(shù)據(jù)流 #pragmaHLS DATAFLOW 延遲降低50%
INLINE 函數(shù)內(nèi)聯(lián) #pragmaHLS INLINE 減少開銷

05圖像處理、加密與網(wǎng)絡(luò)加速案例

在工作中,我經(jīng)常用 FPGA 做圖像處理、加密和網(wǎng)絡(luò)加速。在圖像處理方面,我用 HLS 實(shí)現(xiàn)了 Sobel 邊緣檢測(cè),通過流水線和行緩存優(yōu)化,使高分辨率視頻幀能實(shí)時(shí)處理。在加密領(lǐng)域,我設(shè)計(jì)了 AES 和 SM4 的硬件加速模塊,讓數(shù)據(jù)加密速度比純軟件快好幾倍,同時(shí)降低了 CPU 占用。在網(wǎng)絡(luò)加速方面,我實(shí)現(xiàn)了基于 FPGA 的數(shù)據(jù)包過濾和轉(zhuǎn)發(fā)邏輯,把關(guān)鍵路徑的計(jì)算卸載到硬件上,顯著提升了吞吐量和延遲表現(xiàn)。

FPGA在圖像處理中的應(yīng)用:

// sobel_filter.cpp - Sobel邊緣檢測(cè)#include#include#defineWIDTH 1920#defineHEIGHT 1080typedefap_uint<8>pixel_t;voidsobel_filter(  pixel_t input[HEIGHT][WIDTH],  pixel_t output[HEIGHT][WIDTH]){#pragmaHLS INTERFACE m_axi port=input offset=slave bundle=gmem0#pragmaHLS INTERFACE m_axi port=output offset=slave bundle=gmem1#pragmaHLS INTERFACE s_axilite port=return// Sobel算子constintGx[3][3] = {{-1,0,1}, {-2,0,2}, {-1,0,1}};  constintGy[3][3] = {{-1,-2,-1}, {0,0,0}, {1,2,1}};    // 行緩存pixel_tline_buf[2][WIDTH];#pragmaHLS ARRAY_PARTITION variable=line_buf complete dim=1for(inty =1; y < HEIGHT -?1; y++) { ? ? ? ?for?(int?x =?1; x < WIDTH -?1; x++) {#pragma?HLS PIPELINE II=1int?grad_x =?0, grad_y =?0; ? ? ? ? ? ? ? ? ? ? ? ??// 計(jì)算梯度f(wàn)or?(int?i =?-1; i <=?1; i++) { ? ? ? ? ? ? ? ?for?(int?j =?-1; j <=?1; j++) { ? ? ? ? ? ? ? ? ? ?pixel_t?pixel = input[y+i][x+j]; ? ? ? ? ? ? ? ? ? ? grad_x += pixel * Gx[i+1][j+1]; ? ? ? ? ? ? ? ? ? ? grad_y += pixel * Gy[i+1][j+1]; ? ? ? ? ? ? ? ? } ? ? ? ? ? ? } ? ? ? ? ? ? ? ? ? ? ? ??// 計(jì)算梯度幅值int?grad =?abs(grad_x) +?abs(grad_y); ? ? ? ? ? ? output[y][x] = (grad >255) ?255: grad;     }   } }

1742a5b0-2f24-11f1-90a1-92fbcf53809c.png

圖像處理性能對(duì)比

算法 CPU (x86) GPU (CUDA) FPGA (Alveo) 延遲
Sobel邊緣檢測(cè) 45 fps 1200 fps 800 fps 1.2ms
高斯模糊 30 fps 950 fps 720 fps 1.4ms
形態(tài)學(xué)運(yùn)算 38 fps 1100 fps 850 fps 1.2ms
直方圖均衡 52 fps 1400 fps 900 fps 1.1ms
功耗 150W 300W 75W -

FPGA功耗僅為GPU的1/4,延遲更低!

加密加速

FPGA在加密算法中的應(yīng)用:

// aes_encrypt.cpp - AES加密加速#includetypedefap_uint<128>block_t;typedefap_uint<8>byte_t;voidaes_encrypt(  block_t plaintext[1024],  block_t key,  block_t ciphertext[1024],  int num_blocks){#pragmaHLS INTERFACE m_axi port=plaintext offset=slave bundle=gmem0#pragmaHLS INTERFACE m_axi port=ciphertext offset=slave bundle=gmem1#pragmaHLS INTERFACE s_axilite port=key#pragmaHLS INTERFACE s_axilite port=num_blocks#pragmaHLS INTERFACE s_axilite port=return// AES輪密鑰擴(kuò)展block_tround_keys[11];#pragmaHLS ARRAY_PARTITION variable=round_keys completeexpand_key(key, round_keys);    // 加密多個(gè)塊for(inti =0; i < num_blocks; i++) {#pragma?HLS PIPELINE II=1block_t?state = plaintext[i]; ? ? ? ? ? ? ? ??// 初始輪密鑰加? ? ? ? ?state ^= round_keys[0]; ? ? ? ? ? ? ? ??// 9輪加密for?(int?round =?1; round 

加密性能對(duì)比

算法 CPU GPU FPGA 吞吐量 延遲
AES-128 2.3 Gbps 45 Gbps 100 Gbps FPGA最高 0.5μs
AES-256 1.8 Gbps 38 Gbps 85 Gbps FPGA最高 0.6μs
RSA-2048 1200 ops/s 25K ops/s 50K ops/s FPGA最高 20μs
SHA-256 850 MB/s 12 GB/s 25 GB/s FPGA最高 0.3μs

網(wǎng)絡(luò)加速

FPGA在網(wǎng)絡(luò)處理中的應(yīng)用:

// packet_filter.cpp - 網(wǎng)絡(luò)包過濾#include#includetypedefap_uint<512>packet_t; // 64字節(jié)包typedefap_uint<32>ip_addr_t;structpacket_header{  ip_addr_tsrc_ip;  ip_addr_tdst_ip;   ap_uint<16> src_port;   ap_uint<16> dst_port;   ap_uint<8> protocol; };voidpacket_filter(  hls::stream &input,  hls::stream &output,  ip_addr_t whitelist[256],  int whitelist_size){#pragmaHLS INTERFACE axis port=input#pragmaHLS INTERFACE axis port=output#pragmaHLS INTERFACE s_axilite port=whitelist#pragmaHLS INTERFACE s_axilite port=whitelist_size#pragmaHLS INTERFACE s_axilite port=return#pragmaHLS PIPELINE II=1while(!input.empty()) {    packet_tpkt = input.read();        // 解析包頭    packet_header hdr;     hdr.src_ip = pkt.range(31,0);     hdr.dst_ip = pkt.range(63,32);     hdr.src_port = pkt.range(79,64);     hdr.dst_port = pkt.range(95,80);     hdr.protocol = pkt.range(103,96);        // 檢查白名單boolpass =false;    for(inti =0; i < whitelist_size; i++) {#pragma?HLS UNROLL factor=16if?(hdr.src_ip == whitelist[i]) { ? ? ? ? ? ? ? ? pass =?true; ? ? ? ? ? ? ? ?break; ? ? ? ? ? ? } ? ? ? ? } ? ? ? ? ? ? ? ??// 通過的包轉(zhuǎn)發(fā)if?(pass) { ? ? ? ? ? ? output.write(pkt); ? ? ? ? } ? ? } }

網(wǎng)絡(luò)加速性能對(duì)比

功能 CPU SmartNIC FPGA 延遲 吞吐量
包過濾 10 Gbps 40 Gbps 100 Gbps 0.5μs FPGA最高
負(fù)載均衡 8 Gbps 35 Gbps 80 Gbps 0.8μs FPGA最高
DPI深度檢測(cè) 5 Gbps 25 Gbps 60 Gbps 1.2μs FPGA最高
IPsec加密 3 Gbps 20 Gbps 50 Gbps 2.0μs FPGA最高

OpenCL編程

使用OpenCL編寫FPGA程序:

// vector_add.cl - OpenCL向量加法__kernel voidvector_add(  __global constfloat *a,  __global constfloat *b,  __global float *c,  constint n){  intgid =get_global_id(0);    if(gid < n) { ? ? ? ? c[gid] = a[gid] + b[gid]; ? ? } }
// host.cpp - 主機(jī)代碼#include#includeintmain(){  constintN =1024;    // 初始化OpenCL  cl_platform_id platform;  clGetPlatformIDs(1, &platform,NULL);     cl_device_id device;  clGetDeviceIDs(platform, CL_DEVICE_TYPE_ACCELERATOR,1, &device,NULL);     cl_context context =clCreateContext(NULL,1, &device,NULL,NULL,NULL);   cl_command_queue queue =clCreateCommandQueue(context, device,0,NULL);    // 加載內(nèi)核  FILE *fp =fopen("vector_add.xclbin","rb");  fseek(fp,0, SEEK_END);  size_tbinary_size =ftell(fp);  rewind(fp);    unsignedchar*binary =newunsignedchar[binary_size];  fread(binary,1, binary_size, fp);  fclose(fp);     cl_program program =clCreateProgramWithBinary(context,1, &device,                           &binary_size,                           (constunsignedchar**)&binary,                           NULL,NULL);  clBuildProgram(program,1, &device,NULL,NULL,NULL);     cl_kernel kernel =clCreateKernel(program,"vector_add",NULL);    // 分配內(nèi)存float*h_a =newfloat[N];  float*h_b =newfloat[N];  float*h_c =newfloat[N];    for(inti =0; i < N; i++) { ? ? ? ? h_a[i] = i *?1.0f; ? ? ? ? h_b[i] = i *?2.0f; ? ? } ? ? ? ? ?cl_mem d_a =?clCreateBuffer(context, CL_MEM_READ_ONLY, N *?sizeof(float),?NULL,?NULL); ? ? cl_mem d_b =?clCreateBuffer(context, CL_MEM_READ_ONLY, N *?sizeof(float),?NULL,?NULL); ? ? cl_mem d_c =?clCreateBuffer(context, CL_MEM_WRITE_ONLY, N *?sizeof(float),?NULL,?NULL); ? ? ? ??clEnqueueWriteBuffer(queue, d_a, CL_TRUE,?0, N *?sizeof(float), h_a,?0,?NULL,?NULL); ? ?clEnqueueWriteBuffer(queue, d_b, CL_TRUE,?0, N *?sizeof(float), h_b,?0,?NULL,?NULL); ? ? ? ??// 設(shè)置參數(shù)并執(zhí)行clSetKernelArg(kernel,?0,?sizeof(cl_mem), &d_a); ? ?clSetKernelArg(kernel,?1,?sizeof(cl_mem), &d_b); ? ?clSetKernelArg(kernel,?2,?sizeof(cl_mem), &d_c); ? ?clSetKernelArg(kernel,?3,?sizeof(int), &N); ? ? ? ??size_t?global_size = N; ? ?clEnqueueNDRangeKernel(queue, kernel,?1,?NULL, &global_size,?NULL,?0,?NULL,?NULL); ? ? ? ??clEnqueueReadBuffer(queue, d_c, CL_TRUE,?0, N *?sizeof(float), h_c,?0,?NULL,?NULL); ? ? ? ? ?std::cout <

179dca76-2f24-11f1-90a1-92fbcf53809c.png

06總結(jié)

openEuler 多算力支持:openEuler 提供從 CPU 多核調(diào)度、GPU 加速到 FPGA/AI 加速器的支持,實(shí)現(xiàn)異構(gòu)計(jì)算協(xié)同。

FPGA 核心優(yōu)勢(shì):低延遲、低功耗、可重編程,適合圖像處理、加密和網(wǎng)絡(luò)加速。

開發(fā)便利:Vivado、Vitis、OpenCL 等工具在 openEuler 上均可使用,開發(fā)者可以直接上手。

適用場(chǎng)景:金融高頻交易、視頻編解碼、網(wǎng)絡(luò)包處理、安全加密、AI 推理等場(chǎng)景都能充分發(fā)揮多樣算力優(yōu)勢(shì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1663

    文章

    22487

    瀏覽量

    638691
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11319

    瀏覽量

    225733
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4306

    瀏覽量

    46398
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1643

    瀏覽量

    16824

原文標(biāo)題:openEuler 多樣算力支持:CPU、GPU 與 FPGA 異構(gòu)加速實(shí)戰(zhàn)

文章出處:【微信號(hào):gh_9d70b445f494,微信公眾號(hào):FPGA設(shè)計(jì)論壇】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    FPGACPUGPU快的原理是什么

    本文首先闡述了FPGA的原理了,其次分析了FPGACPUGPU快的原理,最后闡述了CPUGPU
    的頭像 發(fā)表于 05-31 09:00 ?1.8w次閱讀
    <b class='flag-5'>FPGA</b>比<b class='flag-5'>CPU</b>和<b class='flag-5'>GPU</b>快的原理是什么

    FPGA真的能取代CPUGPU嗎?

    最近我們看到一篇文章,說FPGA可能會(huì)取代CPUGPU成為將來(lái)機(jī)器人研發(fā)領(lǐng)域的主要芯片。文章列舉了很多表格和實(shí)驗(yàn)數(shù)據(jù),證明了在很多領(lǐng)域FPGA的性能會(huì)極大優(yōu)于
    發(fā)表于 05-16 10:39 ?1.8w次閱讀

    CPU+FPGA將作為新的異構(gòu)加速模式

    WebP圖像有損壓縮FPGA異構(gòu)加速方案,能夠?qū)崿F(xiàn)JPEG-WebP圖片格式的快速轉(zhuǎn)換,相比傳統(tǒng)方案轉(zhuǎn)換效率最高能提升14倍,能夠支撐更高并發(fā)密度的圖片實(shí)時(shí)檢索、傳輸?shù)热蝿?wù)。
    發(fā)表于 09-09 20:17 ?3890次閱讀

    HSA----CPU+GPU異構(gòu)系統(tǒng)架構(gòu)詳解

    解析HSA----CPU+GPU異構(gòu)系統(tǒng)架構(gòu)
    發(fā)表于 02-03 07:07

    什么是異構(gòu)并行計(jì)算

    、GPU、DSP、ASIC、FPGA等。異構(gòu)計(jì)算用簡(jiǎn)單的公式可以表示為“CPU+XXX”。舉例來(lái)說,AMD著力發(fā)展的APU就屬于異構(gòu)計(jì)算,用
    發(fā)表于 07-19 08:27

    異構(gòu)計(jì)算的前世今生

    器Chameleon等等。轉(zhuǎn)眼進(jìn)入了新世紀(jì),異構(gòu)出現(xiàn)的頻率也越來(lái)越高,2010年蘋果推出了首個(gè)自研的處理器A4,將CPU、GPU和其它加速器集成至一起。在超算領(lǐng)域,
    發(fā)表于 12-26 08:00

    當(dāng)CPU碰上FPGA 異構(gòu)計(jì)算又會(huì)發(fā)生什么樣的變化

    傳統(tǒng)異構(gòu)方案中,CPU將數(shù)據(jù)一次性發(fā)送給FPGA,處理完成后再交給CPU,加速設(shè)備與主機(jī)并不同時(shí)參與計(jì)算。與傳統(tǒng)方案不同,本設(shè)計(jì)采用了設(shè)備間
    發(fā)表于 07-06 09:06 ?3708次閱讀

    FPGA為什么比CPUGPU

    FPGA仿真篇-使用腳本命令來(lái)加速仿真二 基于FPGA的HDMI高清顯示借口驅(qū)動(dòng) 基于FPGA灰度圖像高斯濾波算法的實(shí)現(xiàn) FPGA為什么比
    發(fā)表于 02-20 20:49 ?1983次閱讀

    基于FPGA異構(gòu)計(jì)算是趨勢(shì)

    目前處于AI大爆發(fā)時(shí)期,異構(gòu)計(jì)算的選擇主要在FPGAGPU之間。盡管目前異構(gòu)計(jì)算使用最多的是利用GPU來(lái)
    的頭像 發(fā)表于 04-25 09:17 ?1.2w次閱讀

    4家OS廠商基于openEuler發(fā)布商業(yè)發(fā)行版,加速多核異構(gòu)計(jì)算產(chǎn)業(yè)發(fā)展

    麒麟軟件、普華基礎(chǔ)軟件、統(tǒng)信軟件、中科院軟件所4家領(lǐng)先的OS廠家,發(fā)布基于openEuler的商業(yè)發(fā)行版,標(biāo)志openEuler操作系統(tǒng)已具備規(guī)模商用能力,加速多核異構(gòu)計(jì)算產(chǎn)業(yè)發(fā)展。
    的頭像 發(fā)表于 03-31 09:55 ?3365次閱讀

    CPUGPU的區(qū)別

    CPU、GPU等協(xié)處理器、DSP、ASIC、FPGA等。一個(gè)異構(gòu)計(jì)算平臺(tái)往往包含使用不同指令集架構(gòu)(ISA)的處理器。
    的頭像 發(fā)表于 09-04 15:03 ?8293次閱讀
    <b class='flag-5'>CPU</b>與<b class='flag-5'>GPU</b>的區(qū)別

    阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU

    阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU,通過機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA A100、A10、T4的
    的頭像 發(fā)表于 08-13 10:17 ?4629次閱讀

    CPU+xPU的異構(gòu)方案解析 cpugpu有啥區(qū)別

    CPU+xPU 的異構(gòu)方案成為大算力場(chǎng)景標(biāo)配,GPU為應(yīng)用最廣泛的 AI 芯片。目前業(yè)內(nèi)廣泛認(rèn)同的AI 芯片類型包括GPU、FPGA、NPU
    的頭像 發(fā)表于 09-03 11:47 ?3627次閱讀
    <b class='flag-5'>CPU</b>+xPU的<b class='flag-5'>異構(gòu)</b>方案解析 <b class='flag-5'>cpu</b>和<b class='flag-5'>gpu</b>有啥區(qū)別

    FPGA+GPU+CPU國(guó)產(chǎn)化人工智能平臺(tái)

    平臺(tái)采用國(guó)產(chǎn)化FPGA+GPU+CPU構(gòu)建嵌入式多核異構(gòu)智算終端,可形成FPGA+GPU、FPGA+CPU、
    的頭像 發(fā)表于 01-07 16:42 ?2099次閱讀
    <b class='flag-5'>FPGA+GPU+CPU</b>國(guó)產(chǎn)化人工智能<b class='flag-5'>平臺(tái)</b>

    GPU加速計(jì)算平臺(tái)的優(yōu)勢(shì)

    傳統(tǒng)的CPU雖然在日常計(jì)算任務(wù)中表現(xiàn)出色,但在面對(duì)大規(guī)模并行計(jì)算需求時(shí),其性能往往捉襟見肘。而GPU加速計(jì)算平臺(tái)憑借其獨(dú)特的優(yōu)勢(shì),吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應(yīng)用。下面,AI部落小編為
    的頭像 發(fā)表于 02-23 16:16 ?1078次閱讀
    庆城县| 邵阳县| 剑阁县| 禄丰县| 屏山县| 灌阳县| 广东省| 菏泽市| 嵊州市| 长宁区| 西盟| 巴中市| 平湖市| 兰西县| 延边| 忻城县| 津南区| 竹溪县| 宣武区| 宁明县| 焉耆| 东兰县| 卓资县| 灵川县| 萝北县| 马关县| 三河市| 林州市| 青河县| 北票市| 曲阜市| 息烽县| 沙雅县| 三河市| 青冈县| 五华县| 元谋县| 台北市| 育儿| 拜泉县| 三门县|