亚洲精品二,日本精品久久久

三、機(jī)器學(xué)習(xí)核心算法（入門到實(shí)戰(zhàn)）?

1. 監(jiān)督學(xué)習(xí)算法（已知標(biāo)簽的模型訓(xùn)練）?

線性模型?

線性回歸（回歸任務(wù)）：?
核心原理：假設(shè) y = w? + w?x? + w?x? + ... + w?x? + ε（ε 為誤差項(xiàng)），通過(guò)最小化均方誤差（MSE=Σ(y_i - ?_i)2/n）求解參數(shù) w?
求解方法：?
最小二乘法（閉式解）：w = (X^T X)?1 X^T y（適用于特征數(shù)少、樣本數(shù)適中的情況）?
梯度下降法（迭代解）：適用于高維數(shù)據(jù)（特征數(shù)多），避免矩陣求逆的高復(fù)雜度?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：模型簡(jiǎn)單、可解釋性強(qiáng)（權(quán)重 w 表示特征重要性）、訓(xùn)練速度快?
缺點(diǎn)：只能捕捉線性關(guān)系，對(duì)非線性數(shù)據(jù)擬合效果差?
實(shí)戰(zhàn)技巧：特征標(biāo)準(zhǔn)化后訓(xùn)練（避免不同量綱影響參數(shù)），用正則化（Ridge/Lasso）防止過(guò)擬合?
邏輯回歸（分類任務(wù)）：?
核心原理：將線性回歸的輸出通過(guò) Sigmoid 函數(shù)映射到 [0,1] 區(qū)間，作為分類概率，Sigmoid 函數(shù)：σ(z)=1/(1+e^(-z))，z=w^T X + b?
損失函數(shù)：交叉熵?fù)p失（Binary Cross-Entropy），L = -Σ(y_i logσ(z_i) + (1-y_i) log (1-σ(z_i)))?
求解方法：梯度下降法（批量梯度下降 BGD、隨機(jī)梯度下降 SGD、小批量梯度下降 MBGD）?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：可解釋性強(qiáng)（概率輸出）、訓(xùn)練快、適合二分類任務(wù)?
缺點(diǎn)：對(duì)非線性數(shù)據(jù)需手動(dòng)構(gòu)造特征，多分類需用 One-vs-Rest/One-vs-One 策略?
實(shí)戰(zhàn)技巧：處理類別不平衡（用 class_weight 參數(shù)或 SMOTE 過(guò)采樣），調(diào)整正則化強(qiáng)度（C 參數(shù)，C 越小正則化越強(qiáng)）?

樹(shù)模型?

決策樹(shù)：?
核心原理：基于特征的閾值劃分?jǐn)?shù)據(jù)集，構(gòu)建樹(shù)形結(jié)構(gòu)（根節(jié)點(diǎn)→內(nèi)部節(jié)點(diǎn)→葉節(jié)點(diǎn)），葉節(jié)點(diǎn)為預(yù)測(cè)結(jié)果?
劃分準(zhǔn)則：?
ID3：信息增益（最大化劃分后信息熵的減少量）?
C4.5：信息增益比（解決信息增益偏向多值特征的問(wèn)題）?
CART：Gini 系數(shù)（衡量節(jié)點(diǎn)純度，Gini=1-Σp_i2，p_i 為節(jié)點(diǎn)中第 i 類樣本的比例）?
剪枝策略（防止過(guò)擬合）：?
預(yù)剪枝：限制樹(shù)的深度、最小樣本分裂數(shù)、最小樣本葉節(jié)點(diǎn)數(shù)?
后剪枝：先構(gòu)建完整樹(shù)，再刪除對(duì)模型性能無(wú)提升的分支?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：可解釋性強(qiáng)（可視化樹(shù)結(jié)構(gòu)）、無(wú)需特征標(biāo)準(zhǔn)化、能捕捉非線性關(guān)系?
缺點(diǎn)：容易過(guò)擬合（單棵樹(shù)泛化能力差）、對(duì)噪聲數(shù)據(jù)敏感?
隨機(jī)森林（集成樹(shù)模型）：?
核心原理：基于 Bagging（bootstrap aggregation）策略，構(gòu)建多棵決策樹(shù)，最終預(yù)測(cè)結(jié)果為多棵樹(shù)的投票（分類）或平均（回歸）?
隨機(jī)性體現(xiàn)：?
樣本隨機(jī)：每棵樹(shù)用 bootstrap 采樣（有放回抽樣）得到的樣本訓(xùn)練?
特征隨機(jī)：每棵樹(shù)分裂時(shí)，從所有特征中隨機(jī)選擇部分特征（如 sqrt (n_features)）作為候選劃分特征?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：泛化能力強(qiáng)（降低過(guò)擬合風(fēng)險(xiǎn)）、魯棒性好（對(duì)噪聲不敏感）、能處理高維數(shù)據(jù)?
缺點(diǎn)：可解釋性差（黑盒模型）、訓(xùn)練速度比單棵決策樹(shù)慢?
實(shí)戰(zhàn)參數(shù)調(diào)優(yōu)：?
n_estimators：樹(shù)的數(shù)量（越多越好，但需平衡訓(xùn)練時(shí)間）?
max_depth：樹(shù)的深度（避免過(guò)深）?
min_samples_split：節(jié)點(diǎn)分裂的最小樣本數(shù)（默認(rèn) 2）?
max_features：每棵樹(shù)使用的最大特征數(shù)（分類任務(wù)默認(rèn) sqrt (n_features)）?
XGBoost/LightGBM（梯度提升樹(shù)）：?
核心原理：基于 Boosting 策略，串行構(gòu)建多棵樹(shù)，每棵樹(shù)擬合前序模型的殘差（梯度下降方向），最終模型為多棵樹(shù)的加權(quán)和?
核心優(yōu)化：?
XGBoost：正則化（L1/L2 正則）、缺失值自動(dòng)處理、并行計(jì)算（特征并行）、樹(shù)結(jié)構(gòu)剪枝?
LightGBM：基于直方圖的分裂策略（提高訓(xùn)練速度）、梯度單邊采樣（GOSS）、互斥特征捆綁（EFB）（降低內(nèi)存占用）?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：預(yù)測(cè)精度高（競(jìng)賽常用模型）、處理非線性數(shù)據(jù)能力強(qiáng)、支持分類 / 回歸 / 排序任務(wù)?
缺點(diǎn)：對(duì)超參數(shù)敏感（需仔細(xì)調(diào)優(yōu)）、易過(guò)擬合（需控制樹(shù)的復(fù)雜度）?
實(shí)戰(zhàn)參數(shù)調(diào)優(yōu)：?
learning_rate（學(xué)習(xí)率）：0.01~0.1（越小需越多樹(shù)）?
max_depth：3~10（避免過(guò)深）?
subsample/colsample_bytree：樣本 / 特征采樣比例（0.5~1.0，防止過(guò)擬合）?
reg_alpha/reg_lambda：L1/L2 正則系數(shù)（增大可防止過(guò)擬合）?

核方法：支持向量機(jī)（SVM）?

核心原理：找到一個(gè)超平面，使兩類樣本的間隔最大化（硬間隔 SVM），對(duì)于非線性數(shù)據(jù)，通過(guò)核函數(shù)映射到高維特征空間，再找線性超平面?
核函數(shù)選擇：?
線性核（Linear Kernel）：k (x1,x2)=x1^T x2，適用于線性可分?jǐn)?shù)據(jù)?
高斯核（RBF Kernel）：k (x1,x2)=e^(-γ||x1-x2||2)，適用于非線性數(shù)據(jù)（γ 越大，模型越復(fù)雜）?
多項(xiàng)式核：k (x1,x2)=(x1^T x2 + c)^d，d 為多項(xiàng)式次數(shù)?
軟間隔 SVM：引入松弛變量 ξ，允許部分樣本越界，平衡間隔與分類錯(cuò)誤，目標(biāo)函數(shù)：min (1/2)||w||2 + CΣξ_i（C 為懲罰系數(shù)，C 越大對(duì)錯(cuò)誤樣本懲罰越重）?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：泛化能力強(qiáng)（基于間隔最大化）、適合高維數(shù)據(jù)（特征數(shù)多）、對(duì)小樣本數(shù)據(jù)效果好?
缺點(diǎn)：訓(xùn)練速度慢（不適用于大規(guī)模數(shù)據(jù)）、可解釋性差、對(duì)核函數(shù)和參數(shù)敏感?
實(shí)戰(zhàn)技巧：數(shù)據(jù)標(biāo)準(zhǔn)化（SVM 對(duì)量綱敏感）、用交叉驗(yàn)證選擇核函數(shù)和 C/γ 參數(shù)、處理類別不平衡（調(diào)整 class_weight）?

集成學(xué)習(xí)策略?

Bagging：?
核心思想：并行訓(xùn)練多棵獨(dú)立模型，通過(guò)投票 / 平均降低方差（防止過(guò)擬合），代表模型：隨機(jī)森林?
關(guān)鍵步驟：bootstrap 采樣（有放回抽樣）、模型獨(dú)立訓(xùn)練、結(jié)果融合?
Boosting：?
核心思想：串行訓(xùn)練多棵弱模型，每棵模型聚焦前序模型的錯(cuò)誤樣本（調(diào)整樣本權(quán)重），通過(guò)加權(quán)和提升模型性能，代表模型：AdaBoost、XGBoost、LightGBM?
關(guān)鍵步驟：初始化樣本權(quán)重、訓(xùn)練弱模型、計(jì)算模型權(quán)重（錯(cuò)誤率越低權(quán)重越高）、更新樣本權(quán)重（錯(cuò)誤樣本權(quán)重增大）?
Stacking：?
核心思想：用多個(gè)基礎(chǔ)模型的預(yù)測(cè)結(jié)果作為新特征，訓(xùn)練一個(gè)元模型（如邏輯回歸、線性回歸），輸出最終預(yù)測(cè)結(jié)果?
關(guān)鍵步驟：?

將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集?
訓(xùn)練多個(gè)基礎(chǔ)模型（如隨機(jī)森林、XGBoost、SVM），用驗(yàn)證集得到預(yù)測(cè)結(jié)果?
將訓(xùn)練集的基礎(chǔ)模型預(yù)測(cè)結(jié)果拼接成新特征，訓(xùn)練元模型?
用元模型對(duì)測(cè)試集的基礎(chǔ)模型預(yù)測(cè)結(jié)果進(jìn)行預(yù)測(cè)?

2. 無(wú)監(jiān)督學(xué)習(xí)算法（未知標(biāo)簽的模型訓(xùn)練）?

聚類算法?

K-Means：?
核心原理：將 n 個(gè)樣本劃分為 k 個(gè)簇，使簇內(nèi)樣本相似度高、簇間樣本相似度低（基于歐氏距離）?
算法步驟：?

隨機(jī)選擇 k 個(gè)樣本作為初始聚類中心?
計(jì)算每個(gè)樣本到各聚類中心的距離，將樣本分配到最近的簇?
重新計(jì)算每個(gè)簇的均值（新聚類中心）?
重復(fù)步驟 2-3，直到聚類中心不再變化或達(dá)到最大迭代次數(shù)?

聚類效果評(píng)估：?
內(nèi)部指標(biāo)：輪廓系數(shù)（Silhouette Coefficient），取值范圍 [-1,1]，越接近 1 聚類效果越好?
外部指標(biāo)：調(diào)整蘭德指數(shù)（ARI）、互信息（NMI），適用于有真實(shí)標(biāo)簽的情況?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：算法簡(jiǎn)單、訓(xùn)練速度快、適用于大規(guī)模數(shù)據(jù)?
缺點(diǎn)：需提前指定 k 值、對(duì)初始聚類中心敏感、對(duì)非球形簇聚類效果差?
實(shí)戰(zhàn)技巧：用肘部法則（Elbow Method）選擇 k 值（繪制簇內(nèi)平方和隨 k 的變化曲線，拐點(diǎn)處為最優(yōu) k）、對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化（避免量綱影響距離計(jì)算）?
DBSCAN（密度聚類）：?
核心原理：基于樣本的密度（ε 鄰域內(nèi)的樣本數(shù)）劃分簇，無(wú)需提前指定 k 值?
核心參數(shù)：?
ε（epsilon）：鄰域半徑?
MinPts：ε 鄰域內(nèi)的最小樣本數(shù)（核心點(diǎn)的閾值）?
樣本分類：?
核心點(diǎn)：ε 鄰域內(nèi)樣本數(shù)≥MinPts?
邊界點(diǎn)：ε 鄰域內(nèi)樣本數(shù)，但在核心點(diǎn)的鄰域內(nèi)?
噪聲點(diǎn)：既不是核心點(diǎn)也不是邊界點(diǎn)?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：無(wú)需指定 k 值、能發(fā)現(xiàn)任意形狀的簇、能識(shí)別噪聲點(diǎn)?
缺點(diǎn)：對(duì) ε 和 MinPts 參數(shù)敏感、高維數(shù)據(jù)中距離計(jì)算不準(zhǔn)確（聚類效果差）?
實(shí)戰(zhàn)技巧：用 K 距離圖選擇 ε（繪制樣本到第 k 個(gè)最近鄰的距離曲線，拐點(diǎn)處為最優(yōu) ε）、對(duì)高維數(shù)據(jù)先降維再聚類?
層次聚類：?
核心原理：構(gòu)建聚類樹(shù)（樹(shù)狀圖），通過(guò)合并或分裂簇逐步形成最終聚類結(jié)果?
聚類策略：?
凝聚式（自底向上）：初始每個(gè)樣本為一個(gè)簇，逐步合并相似度最高的簇?
分裂式（自頂向下）：初始所有樣本為一個(gè)簇，逐步分裂差異最大的簇?
相似度計(jì)算：?
單鏈接（最小距離）：兩個(gè)簇中最近樣本的距離?
全鏈接（最大距離）：兩個(gè)簇中最遠(yuǎn)樣本的距離?
平均鏈接（平均距離）：兩個(gè)簇中所有樣本對(duì)的平均距離?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：無(wú)需指定 k 值、能可視化聚類過(guò)程（樹(shù)狀圖）?
缺點(diǎn)：訓(xùn)練速度慢（時(shí)間復(fù)雜度 O (n3)）、不適用于大規(guī)模數(shù)據(jù)?
實(shí)戰(zhàn)技巧：用樹(shù)狀圖確定 k 值（橫向切割樹(shù)狀圖，得到 k 個(gè)簇）、對(duì)小樣本數(shù)據(jù)效果更佳?

降維算法?

PCA（主成分分析）：?
核心原理：通過(guò)線性變換將高維數(shù)據(jù)映射到低維空間，保留數(shù)據(jù)的主要信息（方差最大的方向）?
算法步驟：?

對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化（均值為 0，方差為 1）?
計(jì)算數(shù)據(jù)的協(xié)方差矩陣?
對(duì)協(xié)方差矩陣進(jìn)行特征值分解，得到特征值和特征向量?
選擇特征值最大的前 k 個(gè)特征向量，組成投影矩陣?
將原始數(shù)據(jù)乘以投影矩陣，得到低維數(shù)據(jù)?

降維效果評(píng)估：解釋方差比例（每個(gè)主成分的特征值占總特征值的比例，累計(jì)比例≥80% 為宜）?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：降維速度快、無(wú)參數(shù)需要調(diào)整、能去除數(shù)據(jù)冗余?
缺點(diǎn)：線性降維（無(wú)法捕捉非線性關(guān)系）、對(duì)異常值敏感?
實(shí)戰(zhàn)技巧：降維前必須標(biāo)準(zhǔn)化數(shù)據(jù)、用累計(jì)解釋方差比例確定 k 值?
t-SNE（t 分布隨機(jī)鄰域嵌入）：?
核心原理：基于概率分布的非線性降維算法，在高維空間中用高斯分布描述樣本間的相似度，在低維空間中用 t 分布描述，通過(guò)最小化 KL 散度使兩個(gè)分布盡可能接近?
核心參數(shù)：?
n_components：降維后的維度（通常為 2 或 3，用于可視化）?
perplexity：困惑度（反映近鄰樣本的數(shù)量，通常取 5~50）?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：能有效捕捉高維數(shù)據(jù)的非線性結(jié)構(gòu)、可視化效果好（適合高維數(shù)據(jù)聚類結(jié)果展示）?
缺點(diǎn)：訓(xùn)練速度慢（不適用于大規(guī)模數(shù)據(jù)）、對(duì)參數(shù) perplexity 敏感、不適合用于后續(xù)建模（僅用于可視化）?
實(shí)戰(zhàn)技巧：先用水 PCA 降維到 50 維，再用 t-SNE 降維到 2/3 維（提高速度）、調(diào)整 perplexity 觀察可視化效果?
LDA（線性判別分析）：?
核心原理：監(jiān)督式降維算法，通過(guò)線性變換使降維后的數(shù)據(jù)滿足 “類內(nèi)方差最小、類間方差最大”，保留有利于分類的信息?
算法步驟：?

計(jì)算各類樣本的均值向量?
計(jì)算類內(nèi)散度矩陣 S_w 和類間散度矩陣 S_b?
求解 S_w?1 S_b 的特征值和特征向量，選擇特征值最大的前 k 個(gè)特征向量組成投影矩陣?
將原始數(shù)據(jù)乘以投影矩陣，得到低維數(shù)據(jù)?

與 PCA 的區(qū)別：PCA 是無(wú)監(jiān)督（不考慮標(biāo)簽），LDA 是有監(jiān)督（利用標(biāo)簽信息）?
優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：降維后的數(shù)據(jù)更適合分類任務(wù)、能提高模型訓(xùn)練速度?
缺點(diǎn)：線性降維、對(duì)多分類任務(wù)計(jì)算復(fù)雜?
實(shí)戰(zhàn)技巧：適用于分類任務(wù)的預(yù)處理步驟、降維后的維度 k≤類別數(shù) - 1?

關(guān)聯(lián)規(guī)則：Apriori 算法與 FP-Growth 算法?

核心概念：?
頻繁項(xiàng)集：支持度≥最小支持度（min_support）的項(xiàng)集（項(xiàng)集是多個(gè)物品的集合）?
支持度：項(xiàng)集在所有交易中出現(xiàn)的比例（如 {牛奶，面包} 的支持度 = 包含兩者的交易數(shù) / 總交易數(shù)）?
置信度：關(guān)聯(lián)規(guī)則 A→B 的置信度 = 支持度 (A∪B)/ 支持度 (A)（反映 A 發(fā)生時(shí) B 發(fā)生的概率）?
提升度：關(guān)聯(lián)規(guī)則 A→B 的提升度 = 置信度 (A→B)/ 支持度 (B)（提升度 > 1 表示 A 促進(jìn) B 發(fā)生，=1 表示無(wú)關(guān)）?
Apriori 算法：?
核心原理：基于 “頻繁項(xiàng)集的子集也是頻繁項(xiàng)集” 的先驗(yàn)性質(zhì)，通過(guò)逐層掃描交易數(shù)據(jù)，生成候選頻繁項(xiàng)集并篩選?
算法步驟：?

掃描數(shù)據(jù)，生成 1 - 項(xiàng)集（單個(gè)物品的集合），篩選支持度≥min_support 的 1 - 頻繁項(xiàng)集?
由 k - 頻繁項(xiàng)集生成 (k+1)- 候選項(xiàng)集（連接操作）?
剪枝操作（刪除包含非頻繁子集的候選項(xiàng)集）?
掃描數(shù)據(jù)，篩選 (k+1)- 候選項(xiàng)集中支持度≥min_support 的 (k+1)- 頻繁項(xiàng)集?
重復(fù)步驟 2-4，直到無(wú)法生成新的頻繁項(xiàng)集?

優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：思路簡(jiǎn)單、易于實(shí)現(xiàn)?
缺點(diǎn)：多次掃描數(shù)據(jù)（效率低）、生成大量候選項(xiàng)集（內(nèi)存占用大）?
FP-Growth 算法：?
核心原理：通過(guò)構(gòu)建 FP 樹(shù)（頻繁模式樹(shù)），將交易數(shù)據(jù)壓縮存儲(chǔ)，無(wú)需生成候選項(xiàng)集，直接從 FP 樹(shù)中挖掘頻繁項(xiàng)集?
算法步驟：?

掃描數(shù)據(jù)，統(tǒng)計(jì)各項(xiàng)的支持度，篩選頻繁項(xiàng)并按支持度降序排序?
構(gòu)建 FP 樹(shù)：逐筆處理交易，將交易中的頻繁項(xiàng)按排序后的順序插入 FP 樹(shù)，記錄項(xiàng)的計(jì)數(shù)?
從 FP 樹(shù)中挖掘頻繁項(xiàng)集：對(duì)每個(gè)頻繁項(xiàng)，構(gòu)建條件 FP 樹(shù)，遞歸挖掘條件頻繁項(xiàng)集?

優(yōu)缺點(diǎn)：?
優(yōu)點(diǎn)：僅掃描數(shù)據(jù)兩次（效率高）、無(wú)需生成候選項(xiàng)集（內(nèi)存占用?。?
缺點(diǎn)：構(gòu)建 FP 樹(shù)的復(fù)雜度較高、對(duì)高維數(shù)據(jù)適應(yīng)性一般?
實(shí)戰(zhàn)場(chǎng)景：購(gòu)物籃分析（如超市商品關(guān)聯(lián)推薦）、用戶行為分析（如視頻觀看序列關(guān)聯(lián)）?

3. 半監(jiān)督與強(qiáng)化學(xué)習(xí)?

半監(jiān)督學(xué)習(xí)?

核心概念：利用少量有標(biāo)簽樣本和大量無(wú)標(biāo)簽樣本訓(xùn)練模型，解決 “標(biāo)簽獲取成本高” 的問(wèn)題，適用于標(biāo)簽稀缺場(chǎng)景（如醫(yī)療影像診斷、自然語(yǔ)言處理）?
常用算法：?
自訓(xùn)練法（Self-Training）：?

用少量有標(biāo)簽樣本訓(xùn)練初始模型?
用初始模型預(yù)測(cè)無(wú)標(biāo)簽樣本，選擇置信度最高的部分樣本（如置信度≥0.9），將其預(yù)測(cè)結(jié)果作為偽標(biāo)簽，加入有標(biāo)簽樣本集?
用新的有標(biāo)簽樣本集重新訓(xùn)練模型，重復(fù)步驟 2-3，直到無(wú)標(biāo)簽樣本耗盡或模型性能收斂?

協(xié)同訓(xùn)練法（Co-Training）：?

將特征集劃分為兩個(gè)獨(dú)立的視圖（如文本數(shù)據(jù)的 “詞袋特征” 和 “詞性特征”）?
基于兩個(gè)視圖分別訓(xùn)練兩個(gè)模型?
每個(gè)模型預(yù)測(cè)無(wú)標(biāo)簽樣本，選擇置信度高的樣本作為偽標(biāo)簽，交叉添加到對(duì)方的有標(biāo)簽樣本集?
重復(fù)訓(xùn)練和偽標(biāo)簽添加，直到模型性能收斂?

生成式半監(jiān)督模型（如高斯混合模型 GMM）：?

假設(shè)數(shù)據(jù)服從混合高斯分布，有標(biāo)簽樣本和無(wú)標(biāo)簽樣本來(lái)自同一分布?
用 EM 算法（期望最大化算法）估計(jì)分布參數(shù)（均值、方差、混合系數(shù)）?
基于估計(jì)的分布，預(yù)測(cè)無(wú)標(biāo)簽樣本的標(biāo)簽?

實(shí)戰(zhàn)注意事項(xiàng)：?
偽標(biāo)簽的質(zhì)量至關(guān)重要（避免將錯(cuò)誤標(biāo)簽加入訓(xùn)練集），需設(shè)置較高的置信度閾值?
特征視圖的獨(dú)立性（協(xié)同訓(xùn)練法）是算法有效的關(guān)鍵?
適用于 “聚類假設(shè)” 或 “流形假設(shè)” 成立的數(shù)據(jù)（聚類假設(shè)：同一簇的樣本標(biāo)簽相同；流形假設(shè)：高維數(shù)據(jù)位于低維流形上，鄰近樣本標(biāo)簽相同）?

強(qiáng)化學(xué)習(xí)?

核心概念：智能體（Agent）通過(guò)與環(huán)境（Environment）交互，學(xué)習(xí)最優(yōu)行為策略（Policy），使累積獎(jiǎng)勵(lì)（Reward）最大化，適用于序列決策場(chǎng)景（如游戲、機(jī)器人控制、推薦系統(tǒng)）?
核心要素：?
狀態(tài)（State, S）：環(huán)境的當(dāng)前狀態(tài)（如游戲畫(huà)面、機(jī)器人位置）?
動(dòng)作（Action, A）：智能體可執(zhí)行的動(dòng)作（如游戲中的上下左右、機(jī)器人的移動(dòng)）?
獎(jiǎng)勵(lì)（Reward, R）：環(huán)境對(duì)智能體動(dòng)作的反饋（如游戲得分、碰撞懲罰）?
策略（Policy, π）：狀態(tài)到動(dòng)作的映射（如 π(a|s) 表示狀態(tài) s 下選擇動(dòng)作 a 的概率）?
價(jià)值函數(shù)（Value Function, V (s)）：狀態(tài) s 的長(zhǎng)期價(jià)值（從 s 出發(fā)的累積獎(jiǎng)勵(lì)期望）?
Q 函數(shù)（Action-Value Function, Q (s,a)）：狀態(tài) s 下執(zhí)行動(dòng)作 a 的長(zhǎng)期價(jià)值?
常用算法：?
基于價(jià)值的算法：?
Q-Learning：離線策略（Off-Policy）算法，更新公式：Q (s,a) = Q (s,a) + α[r + γ max_a’ Q (s’,a’) - Q (s,a)]（α 為學(xué)習(xí)率，γ 為折扣因子）?
SARSA：在線策略（On-Policy）算法，更新公式：Q (s,a) = Q (s,a) + α[r + γ Q (s’,a’) - Q (s,a)]（a’為實(shí)際執(zhí)行的下一個(gè)動(dòng)作）?
基于策略的算法：?
策略梯度（Policy Gradient）：直接優(yōu)化策略 π，目標(biāo)函數(shù)為累積獎(jiǎng)勵(lì)期望，通過(guò)梯度上升最大化目標(biāo)函數(shù)?
演員 - 評(píng)論家（Actor-Critic）：結(jié)合價(jià)值函數(shù)（評(píng)論家）和策略函數(shù)（演員），演員負(fù)責(zé)選擇動(dòng)作，評(píng)論家負(fù)責(zé)評(píng)估動(dòng)作價(jià)值，指導(dǎo)演員更新策略?
深度強(qiáng)化學(xué)習(xí)：?
DQN（深度 Q 網(wǎng)絡(luò)）：用神經(jīng)網(wǎng)絡(luò)替代 Q 表，解決高維狀態(tài)空間問(wèn)題，核心技術(shù)：經(jīng)驗(yàn)回放（Experience Replay）、目標(biāo)網(wǎng)絡(luò)（Target Network）?
DDPG（深度確定性策略梯度）：適用于連續(xù)動(dòng)作空間（如機(jī)器人關(guān)節(jié)控制）?
實(shí)戰(zhàn)流程：?

定義狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)（根據(jù)具體任務(wù)設(shè)計(jì)）?
構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境（如用 OpenAI Gym 提供的標(biāo)準(zhǔn)環(huán)境，或自定義環(huán)境）?
選擇合適的算法（離散動(dòng)作選 DQN，連續(xù)動(dòng)作選 DDPG）?
訓(xùn)練模型：調(diào)整超參數(shù)（學(xué)習(xí)率 α、折扣因子 γ、經(jīng)驗(yàn)回放緩沖區(qū)大?。?
評(píng)估模型：測(cè)試集上計(jì)算平均累積獎(jiǎng)勵(lì)，驗(yàn)證策略有效性

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41101

瀏覽量
302576
人工智能

人工智能

+關(guān)注

關(guān)注
1820

文章
50324

瀏覽量
266902
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
67

文章
8564

瀏覽量
137213
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5607

瀏覽量
124620
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
407

瀏覽量
1038

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

AI 算法核心知識(shí)清單（深度實(shí)戰(zhàn)版2）

三、機(jī)器學(xué)習(xí)核心算法（入門到實(shí)戰(zhàn)）?

評(píng)論

搜索歷史

AI 算法核心知識(shí)清單（深度實(shí)戰(zhàn)版2）

三、機(jī)器學(xué)習(xí)核心算法（入門到實(shí)戰(zhàn)）?

評(píng)論

三、機(jī)器學(xué)習(xí)核心算法（入門到實(shí)戰(zhàn)）?