哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

論Linux的頁遷移(Page Migration)

Linux閱碼場 ? 來源:Linuxer ? 2020-08-03 15:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對于用戶空間的應用程序,我們通常根本不關心page的物理存放位置,因為我們用的是虛擬地址。所以,只要虛擬地址不變,哪怕這個頁在物理上從DDR的這里飛到DDR的那里,用戶都基本不感知。那么,為什么要寫一篇論述頁遷移的文章呢?

我認為有2種場景下,你會關注這個Page遷移的問題:一個是在Linux里面寫實時程序,尤其是Linux的RT補丁打上后的情況,你希望你的應用有一個確定的時延,不希望跑著跑著你的Page正在換位置而導致的延遲;再一個場景就是在用戶空間做DMA的場景,尤其是SVA(SharedVirtual Addressing),設備和CPU共享頁表,設備共享進程的虛擬地址空間的場景,如果你DMA的page跑來跑去,勢必導致設備DMA的暫停,設備的傳輸性能出現(xiàn)嚴重抖動。這種場景下,設備的IOMMU和CPU的MMU會共享Page table:

1.CoW導致的頁面遷移

1.1 fork

典型的CoW(寫時拷貝)與fork()相關,當父子兄弟進程共享一部分page,而這些page本身又應該是具備獨占屬性的時候,這樣的page會被標注為只讀的,并在某進程進行寫動作的時候,產(chǎn)生page fault,其后內(nèi)核為其申請新的page。比如下面的代碼中,把10寫成20的進程,在寫的過程中,會得到一頁新的內(nèi)存,data原本的虛擬地址會指向新的物理地址,從而發(fā)生page的migration。

1.2 KSM

其他的CoW的場景有KSM(Kernel same-page merging)。KSM會掃描多個進程的內(nèi)存,如果發(fā)現(xiàn)有page的內(nèi)容是一模一樣的,則會將其merge為一個page,并將其標注為寫保護的。之后對這個page執(zhí)行CoW,誰寫誰得到新的拷貝。比如,你在用qemu啟動一個虛擬機的時候,使用mem-merge=on,就可以促使多個VM共享許多page,從而有利于實現(xiàn)“超賣”。

sudo /x86_64-softmmu/qemu-system-x86_64 -enable-kvm -m 1G -machinemem-merge=on

不過這本身也引起了虛擬機的一些安全漏洞,可被side-channel攻擊。

比如,把下面的代碼編譯為a.out,并且啟動兩份a.out進程

./a.out&./a.out

代碼:

我們看到這2個a.out的內(nèi)存消耗情況如下:

但是,如果我們把中間的if0改為if 1,也就是暗示mmap()的這1MB內(nèi)存可能要merge,則耗費內(nèi)存的情況發(fā)生顯著變化:

耗費的內(nèi)存大大減小了。

我們可以看看pageshare的情況:

Merge發(fā)生在進程內(nèi)部,也發(fā)生在進程之間。

當然,如果在page已經(jīng)被merge的情況下,誰再寫merge過的page,則會引起寫時拷貝,比如如下代碼中的p[0]=100這句話。

2.內(nèi)存規(guī)整導致的頁面遷移

2.1 CMA引起的內(nèi)存遷移

CMA (TheContiguousMemory Allocator)可運行作為dma_alloc_coherent()的后端,它的好處在于,CMA區(qū)域的空閑部分,可以被應用程序拿來申請MOVABLE的page。如下圖中的一個CMA區(qū)域的紅色部分已經(jīng)被設備驅(qū)動通過dma_alloc_coherent()拿走,但是藍色部分目前被用戶進程通過malloc()等形式拿走。

一旦設備驅(qū)動繼續(xù)通過dma_alloc_coherent()申請更多的內(nèi)存,則內(nèi)核必須從別的非CMA區(qū)域里面申請一些page,然后把藍色的區(qū)域往新申請的page移走。用戶進程占有的藍色page發(fā)現(xiàn)了遷移。

CMA在內(nèi)核的配置選項中依賴于MMU,且會自動使能MIGRATION(Pagemigration)和MEMORY_ISOLATION:

2.2 alloc_pages

當內(nèi)核使能了COMPACTION,則Linux的底層buddy分配器會在alloc_pages()中嘗試進行內(nèi)存遷移以得到連續(xù)的大內(nèi)存。COMPACTION這個選項也會使能CMA一節(jié)提及的MIGRATION選項。

從代碼的順序上來看,alloc_pages()分配order比較高的連續(xù)內(nèi)存的時候,是優(yōu)先考慮COMPACTION,再次考慮RECLAIM的。

2.3 /proc/sys/vm/compact_memory

當然,上面alloc_pages所提及的compaction也可以被用戶手動的觸發(fā),觸發(fā)方式:

echo 1 >/proc/sys/vm/compact_memory

將1寫入compact_memory文件,則內(nèi)核會對各個zone進行規(guī)整,以便能夠盡可能地提供連續(xù)內(nèi)存塊。

我的Ubuntu已經(jīng)運行了一段時間,內(nèi)存稍微有些碎片化了,我們來對比下手動執(zhí)行

compact_memory前后,buddy的情況:

可以清晰地看出來,執(zhí)行compact_memory后,DMA32 ZONE和NORMAL ZONE里面,order比較大的連續(xù)page數(shù)量都明顯增大了。

2.4 huge page

再次展開內(nèi)核的COMPACTION選型,你會發(fā)現(xiàn)COMPACTION會被透明巨頁自動選中:

這說明透明巨頁是依賴于COMPACTION選項的。

所謂透明巨頁,無非就是應用程序在運行的時候,神不知鬼不覺地偷偷地就使用到了Hugepage的功能,這個過程對用戶是透明的。與透明對應的無非就是不透明的巨頁,這種方式下,應用程序需要顯示地告訴內(nèi)核我需要使用巨頁。

我們先來看看不透明的巨頁是怎么玩的?一般用戶程序可以這樣寫,在mmap里面會加上MAP_HUGETLB的Flag,當然這個巨頁也必須是提前預設好的,否則mmap就會失敗。

ptr_ = mmap(NULL, memory_size_, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB, -1, 0);

比如下面的代碼我們想申請2MB的巨頁:

程序執(zhí)行的時候會返回錯誤,打印如下:

$ ./a.out Hugetlb:Cannotallocatememory

原因很簡單,因為現(xiàn)在系統(tǒng)里面2MB的巨頁數(shù)量和free的數(shù)量都是0:

我們?nèi)绾巫屗暾埑晒δ兀课覀兪紫刃枰WC系統(tǒng)里面有一定數(shù)量的巨頁。這個時候我們可以寫nr_hugepages得到巨頁:

我們現(xiàn)在讓系統(tǒng)得到了10個大小為2048K的巨頁。

現(xiàn)在來重新運行a.out,就不在出錯了,而且系統(tǒng)里面巨頁的數(shù)量發(fā)生了變化:

Free的數(shù)量從10頁變成了9頁。

聰明的童鞋應該想到了,當我們嘗試預留巨頁的時候,它最終還是要走到buddy,假設系統(tǒng)里面沒有連續(xù)的大內(nèi)存,系統(tǒng)是否會進行內(nèi)存遷移以幫忙規(guī)整出來巨頁呢?這顯然符合前面說的alloc_pages()的邏輯。從alloc_buddy_huge_page()函數(shù)的實現(xiàn)也可以看出這一點:

另外,這種巨頁的特點是“預留式”的,不會free給系統(tǒng),也不會被swap。因此可有效防止用戶態(tài)DMA的性能抖動。對于DPDK這樣的場景,人們喜歡這種巨頁分配,減少了頁面的數(shù)量和TLB的miss,縮短了虛擬地址到物理地址的重定位的轉(zhuǎn)換時間,因此提高了性能。

當然,我們在運行時通過寫nr_hugepages的方法設置巨頁,這種方法未必一定能夠成功。所以,工程中也可以考慮通過內(nèi)核啟動的bootargs來設置巨頁,這樣Linux開機的過程中,就可以直接從bootmem里面分配巨頁,而不必在運行時通過order較高的alloc_pages()來獲取。這個在內(nèi)核文檔的kernel-parameters.txt說的比較清楚,你可以在bootargs里面設置各種不同hugepagesize有多少個頁數(shù):

透明巨頁聽起來是比較牛逼的,因為它不需要你在應用程序里面通過MAP_HUGETLB來顯式地指定,但是實際的使用場景則未必這么牛逼。

使用透明巨頁的最激進的方法莫過于把enabled和defrag都設置為always:

echo always >/sys/kernel/mm/transparent_hugepage/enabledechoalways>/sys/kernel/mm/transparent_hugepage/defrag

enabled寫入always暗示對所有的區(qū)域都盡可能使用透明巨頁,defrag寫入always暗示內(nèi)核會激進地在用戶申請內(nèi)存的時候進行內(nèi)存回收(RECLAIM)和規(guī)整(COMPACTION)來獲得THP(透明巨頁)。

我們來前面的例子代碼稍微進行更改,mmap16MB內(nèi)存,并且去掉MAP_HUGETLB:

運行這個程序,并且得到它的pmap情況:

我們發(fā)現(xiàn)從00007f46b0744000開始,有16MB的anon內(nèi)存區(qū)域,顯然對應著我們代碼里面的mmap(16*1024*1024)的區(qū)域。

我們進一步最終/proc/15371/smaps,可以得到該區(qū)域的內(nèi)存分布情況:

顯然該區(qū)域是THPeligible的,并且獲得了透明巨頁。內(nèi)核文檔filesystems/proc.rst對THPeligible的描述如下:

"THPeligible" indicates whether the mapping is eligible for allocating THP pages - 1 if true, 0 otherwise. It just shows the current status.

透明巨頁的生成,顯然會涉及到前面的內(nèi)存COMPACTION過程。透明巨頁在實際的用戶場景里面,可能反而因為內(nèi)存的RECLAIM和COMPACTION而降低了性能,比如有些VMA區(qū)域的壽命很短申請完使用后很快釋放,或者某些使用大內(nèi)存的進程是短命鬼,進行規(guī)整花了很久,而跑起來就釋放了這部分內(nèi)存,顯然是不值得的。類似《權力的游戲》中的夜王,花了那么多季進行內(nèi)存規(guī)整準備干夜王這個透明巨頁,結(jié)果夜王上來就被秒殺了,你說我花了多時間追劇冤不冤?

所以,透明巨頁在實際的工程中,又引入了一個半透明的因子,就是內(nèi)核可以只針對用戶通過madvise()暗示了需要巨頁的區(qū)間進行透明巨頁分配,暗示的時候使用的參數(shù)是MADV_HUGEPAGE:

所以,默認情況下,許多系統(tǒng)會把enabled和defrag都設置為madvise:

echo madvise >/sys/kernel/mm/transparent_hugepage/enabledechomadvise>/sys/kernel/mm/transparent_hugepage/defrag

或者干脆把透明巨頁的功能關閉掉:

echo never >/sys/kernel/mm/transparent_hugepage/enabledechonever>/sys/kernel/mm/transparent_hugepage/defrag

如果我們只對madvise的區(qū)域采用透明巨頁,則用戶的代碼可以這么寫:

既然我都已經(jīng)這么寫代碼了,我還透明個什么鬼?所以,我寧可為了某種確定性,而去追求預留式的,非swap的巨頁了。

3.NUMABalancing引起的頁面遷移

在一個典型的NUMA系統(tǒng)中,存在多個NODE,很可能每個NODE都有CPU和Memory,NODE和NODE之間通過某種總線再互聯(lián)。下面中的NUMA系統(tǒng)有4個NODE,每個NODE有24個CPU和1個內(nèi)存,NODE之間通過紅線互聯(lián):

在這樣的系統(tǒng)中,通常CPU訪問本地NODE節(jié)點的memory會比較快,而跨NODE訪問memory則會慢很多(紅色總線慢)。所以Linux的NUMA自動均衡機制,會嘗試將內(nèi)存遷移到正在訪問它的CPU節(jié)點所在的NODE,如下圖中綠色的memory經(jīng)常被CPU24訪問,但是它位于NODE0的memory:

則Linux內(nèi)核可能會將綠色內(nèi)存遷移到CPU24所在的本地memory:

這樣CPU24訪問它的時候就會快很多。

顯然NUMA_BALANCING也是依賴MIGRATION機制的:

下面我們來寫個多線程的程序,這個程序里面有28個線程(一個主線程,26個dummy線程執(zhí)行死循環(huán),以及一個寫內(nèi)存的線程):

我們開那么多線程的目的,無非是為了讓write_thread_start對應的線程,盡可能地不被分配到主線程所在的NUMA節(jié)點。

這個程序的主線程最開始寫了64MB申請的內(nèi)存,30秒后,通過write_done=1來暗示write_thread_start()線程你可以開始寫了,write_thread_start()則會把這64MB也寫一遍,如果主線程和write_thread_start()線程不在一個NODE節(jié)點的話,內(nèi)存遷移就有可能發(fā)生。

這是我們剛開始2秒的時候獲得的該進程的numastat,可以看出,這64MB內(nèi)存幾乎都在NODE3上面:

但是30秒后,我們再次看它的NUMA狀態(tài),則發(fā)生了巨大的變化:

64MB內(nèi)存跑到NODE1上面去了。由此我們可以推斷,write_thread_start()線程應該是在NODE1上面跑,從而引起了這個遷移的發(fā)生。

當然,我們也可以通過numactl--cpunodebind=2類似的命令來規(guī)避這個問題,比如:

# numactl --cpunodebind=2 ./a.out

NUMA Balancing的原理是通過把進程的內(nèi)存一部分一部分地周期性地進行unmap(比如每次256MB),在頁表里面把掃描的部分的PTE設置為 “no access permission” ,以在其后訪問它的時候,強制產(chǎn)生pagefault,進而探測page fault發(fā)生在本地NODE還是遠端NODE,來獲知CPU和memory是否較遠的。這說明,哪怕沒有真實的遷移發(fā)生,NUMA balancing也會導致進程的內(nèi)存訪問出現(xiàn)Page fault。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11327

    瀏覽量

    225893
  • Linux
    +關注

    關注

    88

    文章

    11817

    瀏覽量

    219550
  • 代碼
    +關注

    關注

    30

    文章

    4976

    瀏覽量

    74380

原文標題:宋寶華:論Linux的頁遷移(Page Migration)上集

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Freescale半導體QFN封裝遷移及MC9S08GB60A芯片解析

    Freescale半導體QFN封裝遷移及MC9S08GB60A芯片解析 一、QFN封裝遷移 1.1 遷移背景 Freescale Semiconductor發(fā)布了新QFN封裝遷移附錄
    的頭像 發(fā)表于 04-09 14:20 ?142次閱讀

    【「Linux 設備驅(qū)動開發(fā)(第 2 版)」閱讀體驗】+讀深入理解Linux內(nèi)核內(nèi)存分配

    ,目前4KB是廣泛使用的大小。在Linux操作系統(tǒng)中,每個進程甚至內(nèi)核本身都被分配了地址空間,這是處理器的虛擬地址空間的一部分,內(nèi)核和進程都不處理物理地址,物理地址由MMU處理。 虛擬地址空間被拆分
    發(fā)表于 01-16 20:05

    京東關鍵詞搜索商品列表的Python實戰(zhàn)

    ": "keep-alive" } return headers def _get_page_url(self, page): """構造指定頁碼的搜索URL""" # 京東的page參數(shù):第1
    的頭像 發(fā)表于 01-09 10:34 ?1102次閱讀

    分享一個Linux音頻開發(fā)實用站:ALSA項目官網(wǎng)使用指南

    經(jīng)常和Linux音頻打交道的朋友,大概率聽過ALSA(Advanced Linux Sound Architecture),它是Linux系統(tǒng)里負責音頻和MIDI功能的基礎架構,日常用的很多音頻相關
    的頭像 發(fā)表于 12-10 07:03 ?774次閱讀
    分享一個<b class='flag-5'>Linux</b>音頻開發(fā)實用站:ALSA項目官網(wǎng)使用指南

    別再裝系統(tǒng)了!Linux 鏡像到底是什么?一篇講到你懷疑人生

    多小、環(huán)境多復雜,如何快速安裝、部署和維護 Linux 系統(tǒng),都是開發(fā)者和運維人員必須掌握的核心技能。 這時,“Linux 鏡像文件”就顯得尤為重要。它就像一份完整的系統(tǒng)快照,讓你可以在不同設備之間快速遷移、復制,甚至批量部署。
    的頭像 發(fā)表于 12-03 16:12 ?1037次閱讀
    別再裝系統(tǒng)了!<b class='flag-5'>Linux</b> 鏡像到底是什么?一篇講到你懷疑人生

    破解銅/銀遷移難題:納米級離子捕捉劑在先進封裝中的工程化應用

    在追求更高I/O密度和更快信號傳輸?shù)尿?qū)動下,銅互連與銀漿印刷已成為先進封裝的標準配置。然而,Cu2?和Ag?在電場下的遷移速度是Al3?的5-8倍,極易引發(fā)枝晶生長導致短路失效。本文聚焦這一行業(yè)痛點,系統(tǒng)闡述納米級離子捕捉劑IXEPLAS的工程解決方案,包含作用機理、量化數(shù)據(jù)與產(chǎn)線導入方法
    的頭像 發(fā)表于 12-01 16:53 ?1015次閱讀
    破解銅/銀<b class='flag-5'>遷移</b>難題:納米級離子捕捉劑在先進封裝中的工程化應用

    無質(zhì)量損失的數(shù)據(jù)遷移:Nikon SLM Solutions信賴3Dfindit企業(yè)版

    Nikon SLM Solutions使用CADENAS解決方案遷移了8600多個零部件并優(yōu)化了設計工程流程 Nikon SLM Solutions公司依靠3Dfindit企業(yè)版實現(xiàn)了高效、高質(zhì)量
    發(fā)表于 11-25 10:06

    新型超快速單脈沖技術解決傳統(tǒng)遷移率測量挑戰(zhàn)

    溝道有效遷移率 (μeff) 通過載流子速度和驅(qū)動電流影響MOSFET性能。它是互補金屬氧化物半導體的關鍵參數(shù)之一 (CMOS) 技術。 隨著新型介電材料的出現(xiàn),傳統(tǒng)的遷移率評估測量技術遇到了下一節(jié)中描述的許多問題,導致測量誤差較大,因此需要一種新的
    的頭像 發(fā)表于 11-17 13:58 ?3237次閱讀
    新型超快速單脈沖技術解決傳統(tǒng)<b class='flag-5'>遷移</b>率測量挑戰(zhàn)

    M058多次寫入數(shù)據(jù)閃存會崩潰怎么解決?

    (); FMC_Open();//啟用FMC ISP功能 fmc_enableldupdate(); FMC_Erase(FMC_DATAFLASH_BASE * PAGE
    發(fā)表于 08-27 08:21

    中軟國際上云遷移服務充分釋放云計算價值

    在數(shù)字經(jīng)濟時代,企業(yè)上云已成為提升業(yè)務敏捷性、降低成本、增強安全性的關鍵路徑。然而,上云遷移涉及復雜的業(yè)務系統(tǒng)、海量數(shù)據(jù)和高可用性要求,如何確保遷移過程高效、穩(wěn)定、安全,成為企業(yè)面臨的核心挑戰(zhàn)。作為
    的頭像 發(fā)表于 07-25 14:32 ?1086次閱讀
    中軟國際上云<b class='flag-5'>遷移</b>服務充分釋放云計算價值

    新思科技攜手是德科技推出AI驅(qū)動的射頻設計遷移流程

    新思科技與是德科技宣布聯(lián)合推出人工智能(AI)驅(qū)動的射頻設計遷移流程,旨在加速從臺積公司N6RF+向N4P工藝的遷移,以滿足當今要求嚴苛的無線集成電路應用對性能的需求。全新的射頻設計遷移工作流程以臺
    的頭像 發(fā)表于 06-27 17:36 ?1720次閱讀

    Windows 與 Linux 系統(tǒng)切換:聚徽工控一體機的系統(tǒng)遷移避坑經(jīng)驗

    開源、穩(wěn)定、安全等特性,在實時控制、嵌入式系統(tǒng)等領域備受青睞。然而,在實際應用中,企業(yè)可能因業(yè)務需求變化、系統(tǒng)升級等原因,需要在 Windows 與 Linux 系統(tǒng)之間進行切換。聚徽工控一體機在系統(tǒng)遷移過程中,積累了豐富的避坑經(jīng)驗,本文將詳細分
    的頭像 發(fā)表于 06-24 16:09 ?979次閱讀

    載流子遷移率提高技術詳解

    在高k金屬柵之外,另一種等效擴充的方法是增加通過器件溝道的電子或空穴的遷移率。表2.5列舉了一些提高器件載流子遷移率的手段及其對 PMOS或者 NMOS的作用。
    的頭像 發(fā)表于 05-30 15:19 ?1655次閱讀
    載流子<b class='flag-5'>遷移</b>率提高技術詳解

    如何精準提取MOSFET溝道遷移

    溝道有效遷移率(μeff)是CMOS器件性能的關鍵參數(shù)。傳統(tǒng)測量方法在高k介質(zhì)、漏電介質(zhì)與高速應用中易出現(xiàn)誤差。本文介紹了UFSP(Ultra-Fast Single Pulse)技術如何準確提取遷移率,克服這些挑戰(zhàn)。
    的頭像 發(fā)表于 05-19 14:28 ?2148次閱讀
    如何精準提取MOSFET溝道<b class='flag-5'>遷移</b>率

    從Keil MDK到IAR EWARM:通過工程遷移實現(xiàn)項目資產(chǎn)的更好管理

    對于需要統(tǒng)一開發(fā)環(huán)境或涉及多核架構(如Cortex-A/R)的項目,越來越多的用戶選擇從Keil MDK遷移到IAR EWARM。這就會面臨著需要將之前的Keil MDK工程遷移到IAR EWARM的問題。本文將介紹如何高效完成這一遷移
    的頭像 發(fā)表于 05-08 09:03 ?1478次閱讀
    從Keil MDK到IAR EWARM:通過工程<b class='flag-5'>遷移</b>實現(xiàn)項目資產(chǎn)的更好管理
    桐城市| 文安县| 朝阳区| 张家港市| 岗巴县| 务川| 阿坝县| 安陆市| 浦东新区| 叶城县| 增城市| 龙门县| 涟源市| 横峰县| 青冈县| 永和县| 柯坪县| 柳江县| 岳阳市| 瑞安市| 吴忠市| 文登市| 太原市| 神农架林区| 雷山县| 辉县市| 平遥县| 田阳县| 富裕县| 吉木萨尔县| 泽库县| 华容县| 体育| 万载县| 左云县| 临湘市| 庆阳市| 韶山市| 花莲县| 温州市| 湘乡市|