哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ClickHouse內(nèi)幕(3)基于索引的查詢優(yōu)化

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2024-06-11 10:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ClickHouse索引采用唯一聚簇索引的方式,即Part內(nèi)數(shù)據(jù)按照order by keys有序,在整個查詢計劃中,如果算子能夠有效利用輸入數(shù)據(jù)的有序性,對算子的執(zhí)行性能將有巨大的提升。本文討論ClickHouse基于索引的查詢算子優(yōu)化方式。

在整個查詢計劃中Sort、Distinct、聚合這3個算子相比其他算子比如:過濾、projection等有如下幾個特點:1.算子需要再內(nèi)存中保存狀態(tài),內(nèi)存代價高;2.算子計算代價高;3.算子會阻斷執(zhí)行pipeline,待所有數(shù)據(jù)計算完整后才會向下游輸出數(shù)據(jù)。所以上算子往往是整個查詢的瓶頸算子。

本文詳細(xì)討論,3個算子基于索引的查詢優(yōu)化前后,在計算、內(nèi)存和pipeline阻斷上的影響。

實驗前準(zhǔn)備:

后續(xù)的討論主要基于實驗進(jìn)行。

CREATE TABLE test_in_order
(
    `a` UInt64,
    `b` UInt64,
    `c` UInt64,
    `d` UInt64
)
ENGINE = MergeTree
ORDER BY (a, b);

表中總共有3個part,每個part數(shù)據(jù)量4條。

PS: 用戶可以在插入數(shù)據(jù)前提前關(guān)閉后臺merge,以避免part合并成一個,如果part合并成一個將影響查詢并行度,可能對實驗有影響,以下查詢可以關(guān)閉后臺merge:system stop merges test_in_order

一、Sort算子

如果order by查詢的order by字段與表的order by keys的前綴列匹配,那么可以根據(jù)數(shù)據(jù)的有序特性對Sort算子進(jìn)行優(yōu)化。

1.Sort算子實現(xiàn)方式

首先看下不能利用主鍵有序性的場景,即對于order by查詢的order by字段與表的order by keys的前綴列不匹配。比如下面的查詢:

query_1: EXPLAIN PIPELINE SELECT b FROM read_in_order ORDER BY b ASC

它的執(zhí)行計劃如下:

┌─explain───────────────────────────────┐
│ (Expression)                          │
│ ExpressionTransform                   │
│   (Sorting)                           │
│   MergingSortedTransform 3 → 1        │
│     MergeSortingTransform × 3         │
│       LimitsCheckingTransform × 3     │
│         PartialSortingTransform × 3   │
│           (Expression)                │
│           ExpressionTransform × 3     │
│             (ReadFromMergeTree)       │
│             MergeTreeThread × 3 0 → 1 │
└───────────────────────────────────────┘

排序算法由3個Transform組成,其中

1)PartialSortingTransform對單個Chunk進(jìn)行排序;

2)MergeSortingTransform對單個stream進(jìn)行排序;

3)MergingSortedTransform合并多個有序的stream進(jìn)行全局sort-merge排序

wKgaomZnupqAPI15AAB2MeV7qvk592.png


如果查詢的order by字段與表的order by keys的前綴列匹配,那么可以根據(jù)數(shù)據(jù)的有序特性對查詢進(jìn)行優(yōu)化,優(yōu)化開關(guān):optimize_read_in_order。

2.匹配索引列的查詢

以下查詢的order by字段與表的order by keys的前綴列匹配

query_3: EXPLAIN PIPELINE SELECT b FROM test_in_order ORDER BY a ASC, b ASCSETTINGS optimize_read_in_order = 0 -- 關(guān)閉read_in_order優(yōu)化

查看order by語句的pipeline執(zhí)行計劃

┌─explain───────────────────────────┐
│ (Expression)                      │
│ ExpressionTransform               │
│   (Sorting)                       │
│   MergingSortedTransform 3 → 1    │
│     MergeSortingTransform × 3     │
│       (Expression)                │
│       ExpressionTransform × 3     │
│         (ReadFromMergeTree)       │
│         MergeTreeThread × 3 0 → 1 │
└───────────────────────────────────┘

此時order by算子的算法

1)首先MergeSortingTransform對輸入的stream進(jìn)行排序

2)然后MergingSortedTransform將多個排好序的stream進(jìn)行合并,并輸出一個整體有序的stream,也是最終的排序結(jié)果。

這里有個疑問在關(guān)閉read_in_order優(yōu)化的查詢計劃中,系統(tǒng)直接默認(rèn)了MergeSortingTransform的輸入在Chunk內(nèi)是有序的,這里其實是一個默認(rèn)優(yōu)化,因為order by查詢的order by字段與表的order by keys的前綴列匹配,所以數(shù)據(jù)在Chunk內(nèi)部一定是有序的。

3. 開啟優(yōu)化optimize_read_in_order

┌─explain──────────────────────────┐
│ (Expression)                     │
│ ExpressionTransform              │
│   (Sorting)                      │
│   MergingSortedTransform 3 → 1   │
│     (Expression)                 │
│     ExpressionTransform × 3      │
│       (ReadFromMergeTree)        │
│       MergeTreeInOrder × 3 0 → 1 │
└──────────────────────────────────┘

4. 優(yōu)化分析

打開optimize_read_in_order后:

1.對于計算方面:算法中只有一個MergingSortedTransform,省略了單個stream內(nèi)排序的步驟

2.由于內(nèi)存方面:由于MergeSortingTransform是消耗內(nèi)存最大的步驟,所以優(yōu)化后可以節(jié)約大量的內(nèi)存

3.對于poipeline阻塞:MergeSortingTransform會阻塞整個pipeline,所以優(yōu)化后也消除了對pipeline的阻塞

二、Distinct算子

如果distinct查詢的distinct字段與表的order by keys的前綴列匹配,那么可以根據(jù)數(shù)據(jù)的有序特性對Distinct算子進(jìn)行優(yōu)化,優(yōu)化開關(guān):optimize_distinct_in_order。通過以下實驗進(jìn)行說明:

1. Distinct算子實現(xiàn)方式

查看distinct語句的pipeline執(zhí)行計劃

query_2: EXPLAIN PIPELINE SELECT DISTINCT * FROM woo.test_in_order SETTINGS optimize_distinct_in_order = 0 -- 關(guān)閉distinct in order優(yōu)化
┌─explain─────────────────────────────┐
│ (Expression)                        │
│ ExpressionTransform                 │
│   (Distinct)                        │
│   DistinctTransform                 │
│     Resize 3 → 1                    │
│       (Distinct)                    │
│       DistinctTransform × 3         │
│         (Expression)                │
│         ExpressionTransform × 3     │
│           (ReadFromMergeTree)       │
│           MergeTreeThread × 3 0 → 1 │
└─────────────────────────────────────┘

Distinct算子采用兩階段的方式,首先第一個DistinctTransform在內(nèi)部進(jìn)行初步distinct,其并行度為3,可以簡單的認(rèn)為有3個線程在同時執(zhí)行。然后第二個DistinctTransform進(jìn)行final distinct。

每個DistinctTransform的計算方式為:首先構(gòu)建一個HashSet數(shù)據(jù)結(jié)構(gòu),然后根據(jù)HashSet,構(gòu)建一個Filter Mask(如果當(dāng)前key存在于HashSet中,則過濾掉),最后過濾掉不需要的數(shù)據(jù)。

2.開啟優(yōu)化optimize_distinct_in_order

┌─explain────────────────────────────────┐
│ (Expression)                           │
│ ExpressionTransform                    │
│   (Distinct)                           │
│   DistinctTransform                    │
│     Resize 3 → 1                       │
│       (Distinct)                       │
│       DistinctSortedChunkTransform × 3 │
│         (Expression)                   │
│         ExpressionTransform × 3        │
│           (ReadFromMergeTree)          │
│           MergeTreeThread × 3 0 → 1    │
└────────────────────────────────────────┘

可以看到初步distinct和final distinct采用了不同的transform,DistinctSortedChunkTransform和DistinctTransform。

DistinctSortedChunkTransform:對單個stream內(nèi)的數(shù)據(jù)進(jìn)行distinct操作,因為distinct列跟表的order by keys的前綴列匹配,scan算子讀取數(shù)據(jù)的時候一個stream只從一個part內(nèi)讀取數(shù)據(jù),那么每個distinct transform輸入的數(shù)據(jù)就是有序的。所以distinct算法有:

DistinctSortedChunkTransform算法一:

Transform中保留最后一個輸入的數(shù)據(jù)作為狀態(tài),對于每個輸入的新數(shù)據(jù)如果跟保留的狀態(tài)相同,那么忽略,如果不同則將上一個狀態(tài)輸出給上一個算子,然后保留當(dāng)前的數(shù)據(jù)最為狀態(tài)。這種算法對于在整個stream內(nèi)部全局去重時間和空間復(fù)雜度都有極大的降低。

wKgaomZnup2AV9P5AAAkb6cOov0046.png


DistinctSortedStreamTransform算法二:(ClickHouse采用的)

Transform對與每個Chunk(ClickHouse中Transform數(shù)據(jù)處理的基本單位,默認(rèn)大約6.5w行),首先將相同的數(shù)據(jù)劃分成多個Range,并設(shè)置一個mask數(shù)組,然后將相同的數(shù)據(jù)刪除掉,最后返回刪除重復(fù)數(shù)據(jù)的Chunk。

wKgZomZnup2AVsteAAA1RbKTsnk642.png


3. 優(yōu)化分析

打開optimize_distinct_in_order后:主要對于第一階段的distinct步驟進(jìn)行了優(yōu)化,從基于HashSet過濾的算法到基于連續(xù)相同值的算法。

1.對于計算方面:優(yōu)化后的算法,省去了Hash計算,但多了判斷相等的步驟,在不同數(shù)據(jù)基數(shù)集大小下,各有優(yōu)劣。

2.由于內(nèi)存方面:優(yōu)化后的算法,不需要存儲HashSet

3.對于poipeline阻塞:優(yōu)化前后都不會阻塞pipeline

三、聚合算子

如果group by查詢的order by字段與表的order by keys的前綴列匹配,那么可以根據(jù)數(shù)據(jù)的有序特性對聚合算子進(jìn)行優(yōu)化,優(yōu)化開關(guān):optimize_aggregation_in_order。

1.聚合算子實現(xiàn)方式

查看group by語句的pipeline執(zhí)行計劃:

query_4: EXPLAIN PIPELINE SELECT a FROM test_in_order GROUP BY a SETTINGS optimize_aggregation_in_order = 0 -- 關(guān)閉read_in_order優(yōu)化
┌─explain─────────────────────────────┐
│ (Expression)                        │
│ ExpressionTransform × 8             │
│   (Aggregating)                     │
│   Resize 3 → 8                      │
│     AggregatingTransform × 3        │
│       StrictResize 3 → 3            │
│         (Expression)                │
│         ExpressionTransform × 3     │
│           (ReadFromMergeTree)       │
│           MergeTreeThread × 3 0 → 1 │
└─────────────────────────────────────┘

對于聚合算子的整體算法沒有在執(zhí)行計劃中完整顯示出來,其宏觀上采用兩階段的聚合算法,其完整算法如下:1.AggregatingTransform進(jìn)行初步聚合,這一步可以并行計算;2.ConvertingAggregatedToChunksTransform進(jìn)行第二階段聚合。(PS:為簡化起見,忽略two level HashMap,和spill to disk的介紹)。

2.開啟優(yōu)化optimize_aggregation_in_order

執(zhí)行計劃如下:

┌─explain───────────────────────────────────────┐
│ (Expression)                                  │
│ ExpressionTransform × 8                       │
│   (Aggregating)                               │
│   MergingAggregatedBucketTransform × 8        │
│     Resize 1 → 8                              │
│       FinishAggregatingInOrderTransform 3 → 1 │
│         AggregatingInOrderTransform × 3       │
│           (Expression)                        │
│           ExpressionTransform × 3             │
│             (ReadFromMergeTree)               │
│             MergeTreeInOrder × 3 0 → 1        │
└───────────────────────────────────────────────┘

可以看到打開optimize_aggregation_in_order后aggregating算法由三個步驟組成:

1)首先AggregatingInOrderTransform會將stream內(nèi)連續(xù)的相同的key進(jìn)行預(yù)聚合,預(yù)聚合后在當(dāng)前stream內(nèi)相同keys的數(shù)據(jù)只會有一條;

2)FinishAggregatingInOrderTransform將接收到的多個stream內(nèi)的數(shù)據(jù)進(jìn)行重新分組使得輸出的chunk間數(shù)據(jù)是有序的,假設(shè)前一個chunk中g(shù)roup by keys最大的一條數(shù)據(jù)是5,當(dāng)前即將輸出的chunk中沒有大于5的數(shù)據(jù);

3)MergingAggregatedBucketTransform的作用是進(jìn)行最終的merge aggregating。

wKgaomZnup2ARICmAABfrfxtQaI394.png


FinishAggregatingInOrderTransform的分組算法如下:

假設(shè)有3個stream當(dāng)前算子會維護(hù)3個Chunk,每一次選取在當(dāng)前的3個Chunk內(nèi)找到最后一條數(shù)據(jù)的最小值,比如初始狀態(tài)最小值是5,然后將3個Chunk內(nèi)所有小于5的數(shù)據(jù)一次性取走,如此反復(fù)如果一個Chunk被取光,需要從改stream內(nèi)拉取新的Chunk。

wKgZomZnup6AEeZ2AABVTVDACO0969.png


這種算法保證了每次FinishAggregatingInOrderTransform向下游輸出的Chunk的最大值小于下一次Chunk的最小值,便于后續(xù)步驟的優(yōu)化。

3.優(yōu)化分析

打開optimize_aggregation_in_order后:主要對于第一階段的聚合步驟進(jìn)行了優(yōu)化,從基于HashMap的算法到基于連續(xù)相同值的算法。

1.對于計算方面:優(yōu)化后的算法,減少了Hash計算,但多了判斷相等的步驟,在不同數(shù)據(jù)基數(shù)集大小下,各有優(yōu)劣。

2.由于內(nèi)存方面:優(yōu)化前后無差別

3.對于poipeline阻塞:優(yōu)化前后無差別

四、優(yōu)化小結(jié)

在整個查詢計劃中Sort、Distinct、聚合這3個算子算子往往是整個查詢的瓶頸算子,所以值得對其進(jìn)行深度優(yōu)化。ClickHouse通過利用算子輸入數(shù)據(jù)的有序性,優(yōu)化算子的算法或者選擇不同的算法,在計算、內(nèi)存和pipeline阻塞三個方面均有不同程度的優(yōu)化。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Pipeline
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    10015
  • 算子
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    7414
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    MySQL數(shù)據(jù)庫慢查詢的排查思路和最佳實踐

    數(shù)據(jù)庫慢查詢是導(dǎo)致應(yīng)用響應(yīng)緩慢最常見的原因之一。當(dāng)業(yè)務(wù)人員反饋“頁面加載慢”、“查詢超時”、“系統(tǒng)卡頓”時,很多運維人員的第一反應(yīng)是讓開發(fā)人員“加個索引”。但加索引只是
    的頭像 發(fā)表于 04-24 14:40 ?105次閱讀

    MySQL慢查詢調(diào)優(yōu)指南

    戰(zhàn)角度出發(fā),系統(tǒng)講解慢查詢的發(fā)現(xiàn)、分析、定位和優(yōu)化方法,幫助DBA和運維工程師建立完整的慢查詢優(yōu)化知識體系。
    的頭像 發(fā)表于 04-09 10:01 ?180次閱讀

    MySQL數(shù)據(jù)庫慢查詢分析與優(yōu)化實戰(zhàn)

    在討論MySQL慢查詢之前,需要先明確一個關(guān)鍵前提:什么是慢查詢? 不同業(yè)務(wù)場景下,慢查詢的定義差異巨大。一個數(shù)據(jù)報表后臺的SQL執(zhí)行30秒可能屬于正常范圍,但一個訂單創(chuàng)建的數(shù)據(jù)庫操作超過100毫秒就可能造成用戶體驗問題。因此,
    的頭像 發(fā)表于 04-02 09:38 ?171次閱讀

    MySQL慢查詢分析與索引調(diào)優(yōu)全流程

    MySQL 性能問題在生產(chǎn)環(huán)境中的表現(xiàn)通常是漸進(jìn)式的:業(yè)務(wù)量增長、數(shù)據(jù)量膨脹,某天突然發(fā)現(xiàn) P99 響應(yīng)時間從 50ms 漲到 2s。慢查詢是最常見的根因,而索引設(shè)計不合理又是慢查詢的主要來源。
    的頭像 發(fā)表于 03-06 15:56 ?247次閱讀

    從0到1搭建實時日志監(jiān)控系統(tǒng):基于WebSocket + Elasticsearch的實戰(zhàn)方案

    + Express(輕量級,適合快速開發(fā)) 前端展示 :Vue.js + ECharts(可視化日志趨勢) 3. 核心實現(xiàn)步驟(附代碼片段與關(guān)鍵配置) 3.1 Elasticsearch索引設(shè)計 json
    發(fā)表于 01-09 16:43

    5分鐘了解SEO優(yōu)化服務(wù)器對網(wǎng)站加載速度的影響

    一個為SEO優(yōu)化過的服務(wù)器,能顯著提升網(wǎng)站性能,從而在搜索引擎排名中占據(jù)有利位置。
    的頭像 發(fā)表于 12-02 10:27 ?446次閱讀

    訂單實時狀態(tài)查詢接口技術(shù)實現(xiàn)

    、可靠的訂單實時狀態(tài)查詢接口,涵蓋接口設(shè)計、技術(shù)選型、代碼實現(xiàn)和性能優(yōu)化。我們將使用Python和Flask框架作為示例,確保內(nèi)容真實可靠,適合開發(fā)人員參考。 1. 接口設(shè)計原則 訂單實時狀態(tài)查詢接口需要滿足以下要求: 實時性
    的頭像 發(fā)表于 10-21 17:58 ?876次閱讀
    訂單實時狀態(tài)<b class='flag-5'>查詢</b>接口技術(shù)實現(xiàn)

    Hudi系列:Hudi核心概念之索引(Indexs)

    上的Instant action操作類型 ?1.4 時間線上State狀態(tài)類型 ?1.5 時間線官網(wǎng)實例 ?二. 文件布局 ?三. 索引 3.1 簡介 3.2 對比其它(Hive)沒有索引的區(qū)別 3.2
    的頭像 發(fā)表于 10-21 09:47 ?526次閱讀
    Hudi系列:Hudi核心概念之<b class='flag-5'>索引</b>(Indexs)

    華納云香港服務(wù)器數(shù)據(jù)庫索引優(yōu)化策略

    在香港服務(wù)器環(huán)境中,數(shù)據(jù)庫索引優(yōu)化是提升整體性能的關(guān)鍵因素。隨著企業(yè)數(shù)據(jù)量的不斷增長,高效的索引管理能顯著提高查詢速度并降低服務(wù)器負(fù)載。本文將深入探討如何針對香港服務(wù)器(特別是其獨特的
    的頭像 發(fā)表于 10-16 17:06 ?627次閱讀

    MySQL性能優(yōu)化實戰(zhàn)

    你是否遇到過這些場景:凌晨3點被告警電話吵醒,數(shù)據(jù)庫CPU飆到100%?一條簡單的查詢語句要跑30秒?明明加了索引,查詢還是慢如蝸牛?
    的頭像 發(fā)表于 09-17 16:19 ?604次閱讀

    數(shù)據(jù)庫慢查詢分析與SQL優(yōu)化實戰(zhàn)技巧

    今天,我將分享我在處理數(shù)千次數(shù)據(jù)庫性能問題中積累的實戰(zhàn)經(jīng)驗,幫助你系統(tǒng)掌握慢查詢分析與SQL優(yōu)化的核心技巧。無論你是剛?cè)腴T的運維新手,還是有一定經(jīng)驗的工程師,這篇文章都將為你提供實用的解決方案。
    的頭像 發(fā)表于 09-08 09:34 ?1231次閱讀

    MySQL慢查詢優(yōu)化案例

    凌晨3點,手機(jī)瘋狂震動。監(jiān)控告警顯示:核心業(yè)務(wù)接口響應(yīng)時間超過20秒,用戶投訴如潮水般涌來。這是每個運維工程師的噩夢時刻。
    的頭像 發(fā)表于 08-27 14:49 ?817次閱讀

    MySQL慢查詢終極優(yōu)化指南

    作為一名在生產(chǎn)環(huán)境摸爬滾打多年的運維工程師,我見過太多因為慢查詢導(dǎo)致的線上故障。今天分享一套經(jīng)過實戰(zhàn)檢驗的MySQL慢查詢分析與索引優(yōu)化方法論,幫你徹底解決數(shù)據(jù)庫性能瓶頸。
    的頭像 發(fā)表于 08-13 15:55 ?954次閱讀

    鴻蒙5開發(fā)寶藏案例分享---優(yōu)化應(yīng)用時延問題

    ;gt; this.data = result) } 效果 : 4000條數(shù)據(jù)從 780ms → 172ms ! 注意 :小于1000條數(shù)據(jù)時差異不大,大數(shù)據(jù)量必用 ?** 案例3:數(shù)據(jù)庫查詢優(yōu)化
    發(fā)表于 06-13 10:08

    鴻蒙5開發(fā)寶藏案例分享---Grid性能優(yōu)化案例

    鴻蒙提供了****GridLayoutOptions布局選項,通過預(yù)定義規(guī)則直接計算位置,避免遍歷! ?核心優(yōu)化原理 提前聲明不規(guī)則項 :將需要跨列的Item索引(如每4個中的第1個)存入數(shù)組
    發(fā)表于 06-12 17:47
    东乌珠穆沁旗| 武定县| 嘉兴市| 济阳县| 萝北县| 霸州市| 康乐县| 武宣县| 曲阜市| 翼城县| 华宁县| 获嘉县| 法库县| 安宁市| 闽清县| 格尔木市| 通渭县| 即墨市| 桦川县| 霍城县| 广州市| 凤城市| 德昌县| 辽源市| 石渠县| 内丘县| 方城县| 庆城县| 肇州县| 远安县| 澎湖县| 灌云县| 马尔康县| 靖宇县| 肇庆市| 宽甸| 虞城县| 石景山区| 西吉县| 怀宁县| 台山市|