久久久精品一区ed2k-女人被男人叉到高潮的视频-中文字幕乱码一区久久麻豆樱花-俄罗斯熟妇真实视频

知否,知否,線性回歸基礎(chǔ)教程值得擁有

1. 介紹

創(chuàng)新互聯(lián)建站專注于中大型企業(yè)的網(wǎng)站設(shè)計制作、做網(wǎng)站和網(wǎng)站改版、網(wǎng)站營銷服務(wù),追求商業(yè)策劃與數(shù)據(jù)分析、創(chuàng)意藝術(shù)與技術(shù)開發(fā)的融合,累計客戶成百上千家,服務(wù)滿意度達(dá)97%。幫助廣大客戶順利對接上互聯(lián)網(wǎng)浪潮,準(zhǔn)確優(yōu)選出符合自己需要的互聯(lián)網(wǎng)運(yùn)用,我們將一直專注高端網(wǎng)站設(shè)計和互聯(lián)網(wǎng)程序開發(fā),在前進(jìn)的路上,與客戶一起成長!

回歸分析是監(jiān)督學(xué)習(xí)的一個子領(lǐng)域。它的目的是模擬一定數(shù)量的特征與連續(xù)的多個目標(biāo)變量之間的關(guān)系。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

在回歸問題中,我們試圖給出一個定量的答案,用來預(yù)測房價或某人看視頻的時長。

2. 簡單線性回歸:通過數(shù)據(jù)擬合直線

回歸算法將通過一組"點(diǎn)",來模擬單個特征(解釋變量x)和其對應(yīng)值(目標(biāo)變量y)之間的關(guān)系。

它將通過設(shè)置任意一條直線并計算這條直線到數(shù)據(jù)點(diǎn)的距離來實(shí)現(xiàn)。這個距離,就是垂直線,也是數(shù)據(jù)的殘差或預(yù)測誤差。

回歸算法在每次迭代過程中都會不斷"挑選"直線,以尋找最優(yōu)擬合直線,即誤差最小的直線。

我們可以通過以下幾種技術(shù)來完成這項任務(wù)。

2.1移動線條

知否,知否,線性回歸基礎(chǔ)教程值得擁有

2.1.1技巧一

當(dāng)有一個點(diǎn)和一條線時,我們的目標(biāo)是讓這條線更接近這一點(diǎn)。在這里我們將使用一個名為"學(xué)習(xí)率"的參數(shù)。使用學(xué)習(xí)率的目的是讓直線更好的逼近該點(diǎn)。

換句話說,學(xué)習(xí)率將決定每次迭代中直線與該點(diǎn)的距離的長度。它通常用α表示。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

2.1.2技巧二

使用技巧二要基于這樣的前提:如果有一個點(diǎn)(與現(xiàn)在的點(diǎn)相比)離直線更近,且距離更小,直線就會向那個點(diǎn)移動。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

3.梯度下降

假設(shè)我們有一組點(diǎn),我們想開發(fā)一個算法來找到最適合這組點(diǎn)的直線。如前所述,誤差是直線到點(diǎn)的距離。

我們要設(shè)計不同的直線并計算誤差。這個過程重復(fù)了一遍又一遍,不斷減少錯誤,直到得到完美的直線。這條完美的直線誤差最小。

為了讓誤差最小化,我們將使用梯度下降法。通過梯度下降法,我們可以在每一步中,觀察直線移動的不同方向以減少誤差。

注:梯度(f)為矢量場。當(dāng)它在f域的一個泛型點(diǎn)上求值時,它表示f域更快變化的方向。

所以梯度下降會向負(fù)梯度的方向移動一步。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

當(dāng)該算法經(jīng)過足夠多的步驟后,它最終將達(dá)到局部或全局的最小值。需要強(qiáng)調(diào)的是,如果學(xué)習(xí)率的值太大,算法就會丟失最小值,因?yàn)樗牟介L太大。當(dāng)然,如果學(xué)習(xí)率太低,就需要無限長的時間才能到找到這最小值。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

4. 小批量梯度下降

4.1批量梯度下降

我們對所有數(shù)據(jù)點(diǎn)進(jìn)行平方,會得到一些要添加到模型權(quán)重中的值,將它們相加,然后用這些值的和更新權(quán)重。

4.2隨機(jī)梯度下降

我們可以一個點(diǎn)一個點(diǎn)的進(jìn)行梯度下降。

4.3實(shí)際應(yīng)用中的梯度下降

在實(shí)踐中,這兩種方法都沒有被使用,因?yàn)樗鼈冊谟嬎闵隙己苈?。進(jìn)行線性回歸的最佳方法是將數(shù)據(jù)分成許多小批。每個批次,大約有相同的點(diǎn)數(shù)。然后使用每個批來更新權(quán)重。這種方法稱為小批量梯度下降法。

5.   高維度

當(dāng)我們有一個輸入列和一個輸出列時,我們面對的是一個二維問題,回歸是一條直線。預(yù)測將是一個由自變量和常數(shù)組成的值。

如果我們有更多的輸入列,這意味著有更多的維度,而輸出將不再是直線,而是超越二維的一個"值"(這取決于維度的數(shù)量)。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

6.   多元線性回歸

自變量是我們用來預(yù)測其他變量的變量。我們試圖預(yù)測的變量稱為因變量。

當(dāng)我們發(fā)現(xiàn),我們試圖預(yù)測的結(jié)果不僅僅依賴于變量時,我們可以建立一個更復(fù)雜的模型來考慮這個問題。前提是它們與所面臨的問題相關(guān)??偠灾褂酶嗟念A(yù)測變量可以幫助我們獲得更好的結(jié)果。

如下圖所示,這是一個簡單的線性回歸:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

下圖是一個具有兩個特征的多元線性回歸圖。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

隨著我們添加更多的自變量,我們的問題也不再僅僅局限于一個二維的平面。但問題也暴露了出來,即可視化更加困難。但是這里面的核心思想并未發(fā)生根本性的改變。

7. 關(guān)于線性回歸的幾點(diǎn)建議

不是任何情況都適合用線性回歸。

a)線性回歸在數(shù)據(jù)為線性時效果最好:

它從訓(xùn)練數(shù)據(jù)中產(chǎn)生一條直線。如果訓(xùn)練數(shù)據(jù)中的關(guān)系不是真正的線性關(guān)系,你將需要進(jìn)行調(diào)整(轉(zhuǎn)換訓(xùn)練數(shù)據(jù))、添加特性或使用其他模型。

b)線性回歸對異常值很敏感:

線性回歸試圖在訓(xùn)練數(shù)據(jù)中找到一條最佳直線。如果數(shù)據(jù)集有一些不符合一般模式的值,線性回歸模型就會受到離群值的嚴(yán)重影響。我們必須小心對待這些異常值,通過合理的方法剔除它們。

處理異常值,我建議大家使用隨機(jī)抽樣一致算法(RNASAC),它將模型擬合到數(shù)據(jù)的離群值子集中。算法執(zhí)行以下步驟:

  1. 選擇隨機(jī)數(shù)目的樣本作為離群值,并對模型進(jìn)行擬合。
  2. 根據(jù)擬合模型測試所有其他數(shù)據(jù)點(diǎn),并添加屬于用戶所選值的數(shù)據(jù)點(diǎn)。
  3. 用新的點(diǎn)重復(fù)模型的擬合。
  4. 計算擬合模型對異常值的誤差。
  5. 如果性能滿足用戶的要求或達(dá)到一定的迭代次數(shù)后,則結(jié)束算法。否則,就回到第一步。重復(fù)上述步驟。

8. 多項式回歸

多項式回歸是多元線性回歸分析的一種特殊情況,其中獨(dú)立變量x與因變量y之間的關(guān)系被模擬為x的第n次多項式。換句話說,當(dāng)我們的線性數(shù)據(jù)分布比較復(fù)雜時,我們使用線性模型生成一個曲線來擬合非線性數(shù)據(jù)。

由預(yù)測變量多項式展開而得到的獨(dú)立(或解釋性)變量已被用來描述非線性現(xiàn)象,如組織成員的增長率和疾病流行的進(jìn)展。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

9. 正則化

正則化是處理過度擬合的一種常用方法。主要通過以下技術(shù)實(shí)現(xiàn):

減少模型的大小:減少模型中可學(xué)習(xí)參數(shù)的數(shù)量,以及它們的學(xué)習(xí)能力。我們的目標(biāo)是在學(xué)習(xí)能力過多和不足之間找到一個平衡點(diǎn)。不幸的是,沒有任何神奇的公式來確定這種平衡,必須通過設(shè)置不同數(shù)量的參數(shù)并觀察其性能來測試和評估。

添加權(quán)重正則化:一般情況下,模型越簡單越好。因?yàn)橐粋€簡單的模型過度擬合可能性很低。我們通常使用的方法是,通過強(qiáng)制其權(quán)值只取較小的值來約束網(wǎng)絡(luò)的復(fù)雜性,并對權(quán)值的分布進(jìn)行正則化。這是通過在網(wǎng)絡(luò)的損失函數(shù)中加入與具有較大權(quán)重相關(guān)的成本來實(shí)現(xiàn)的。成本有兩種方式:

L1正則化:成本與權(quán)重系數(shù)值的平方成正比。

L2正則化:成本正比于權(quán)重系數(shù)值的平方。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

為決定其中哪項適用于我們的模型,我們建議你留意以下幾點(diǎn),并考慮問題的具體性質(zhì):

知否,知否,線性回歸基礎(chǔ)教程值得擁有

λ參數(shù):它是通過正則化計算的誤差。如果我們有一個很大的λ,那么我們就是在"懲罰"復(fù)雜性,最終會得到一個更簡單的模型。如果我們有一個小的λ,我們最終會得到一個復(fù)雜的模型。

10. 評價指標(biāo)

為了跟蹤模型的執(zhí)行情況,我們需要設(shè)置一些評估指標(biāo)。對評估指標(biāo)的度量是從生成的線到實(shí)點(diǎn)的誤差,它是通過梯度下降來使函數(shù)最小化。

處理線性回歸時,你可能會面臨以下幾點(diǎn)問題:

10.1平均絕對誤差:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

平均絕對誤差,即真實(shí)數(shù)據(jù)點(diǎn)與預(yù)測結(jié)果的絕對差的平均值。如果我們這樣做,梯度下降的每一步都會減少平均絕對誤差值。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

10.2均方誤差:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

均方誤差(MSE)是實(shí)際數(shù)據(jù)點(diǎn)與預(yù)測結(jié)果之間平方差的平均值。這種方法的懲罰越大,距離越大。

如果我們將此作為策略遵循,梯度下降的每一步將減少M(fèi)SE。這將是計算最佳擬合線的首選方法,也稱為普通最小二乘法。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

10.3確定系數(shù)或R平方

確定系數(shù)可以理解為MSE的標(biāo)準(zhǔn)化版本,它提供了對模型性能的更好解釋。

從技術(shù)上講,R平方是模型捕捉到的方差的一部分,換句話說,它就是方差。它的定義是:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

11.其他的算法

盡管本文主要關(guān)注線性和多元回歸模型,但在流行的機(jī)器學(xué)習(xí)庫Sci-kit learn中,幾乎每種算法都適用。其中一些甚至產(chǎn)生了非常好的結(jié)果。

一些例子:

  • 決策樹回歸
  • 隨機(jī)森林回歸
  • 支持向量回歸
  • 套索算法
  • 彈性網(wǎng)絡(luò)
  • 梯度提升回歸
  • Ada Boost回歸

12. 結(jié)論

在本文中,我們已經(jīng)介紹了回歸模型的基礎(chǔ)知識,了解了它們的工作原理、常見問題以及如何處理它們。我們還了解了什么是最常見的評估指標(biāo)。

作者——Victor Roman

來源:https://towardsdatascience.com/supervised-learning-basics-of-linear-regression-1cbab48d0eba

當(dāng)前標(biāo)題:知否,知否,線性回歸基礎(chǔ)教程值得擁有
網(wǎng)頁路徑:http://sd-ha.com/article12/iedpgc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)、面包屑導(dǎo)航Google、網(wǎng)站設(shè)計公司、微信公眾號、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司