欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    全文共5353字,預(yù)計學(xué)習(xí)時長20分鐘或更長

    本文旨在揭開神經(jīng)網(wǎng)絡(luò)的神秘面紗,介紹神經(jīng)網(wǎng)絡(luò)運行的動機和基礎(chǔ)。

    庫傳送門:

    神經(jīng)網(wǎng)絡(luò)的動機

    未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型很像新生兒: 他們被創(chuàng)造出來的時候?qū)κ澜缫粺o所知(如果考慮到認(rèn)識論理論的話),而且只有通過接觸這個世界,也就是后天的知識,才會慢慢提高它們的認(rèn)知程度。算法通過數(shù)據(jù)體驗世界——我們試圖通過在相關(guān)數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò),來提高其認(rèn)知程度。衡量進度的方法是通過監(jiān)測網(wǎng)絡(luò)產(chǎn)生的誤差。

    在深入研究神經(jīng)網(wǎng)絡(luò)世界之前,了解這些網(wǎng)絡(luò)背后的動機以及它們工作的原因是很重要的。為了做到這一點,我們必須討論一下邏輯回歸分析。

    圍繞定量反應(yīng)變量的建模與預(yù)測(例如出租車接送的次數(shù),自行車租賃的次數(shù))的方法被稱為回歸(Ridge回歸,LASSO回歸等)。當(dāng)因變量是明確的,那么這個問題不再被稱為回歸問題,而是被標(biāo)記為一個分類問題。

    考慮一個二分類問題,目標(biāo)是根據(jù)一組預(yù)測變量 x,嘗試將每個觀察結(jié)果分為由 y 定義的類別(例如類別或集群)。

    假設(shè)我們想根據(jù)患者的特征來預(yù)測患者是否患有心臟病。這里的因變量是絕對的,存在有限的結(jié)果,或者更明確地說是二元的,因為只有兩種類型(yes / no)。

    這里有很多特性——在此,我們只使用 MaxHR 變量。

    為了做出這個預(yù)測,我們將使用一種被稱為邏輯回歸分析的方法。邏輯回歸分析解決了預(yù)測一個人患有心臟病概率的問題,P(y=1),給定輸入值X。

    邏輯回歸模型使用一個邏輯來對P(y=1)建模 :

    因此,該模型將用S形曲線預(yù)測 P(y=1) ,S形曲線是邏輯函數(shù)的一般形狀。

    β?使曲線右移或左移 c=-β?/ β?,而β?控制 s 形曲線的陡度。

    注意,如果β?是正值,那么預(yù)測的P(y=1)范圍為 從0(當(dāng)x很小時)到1(當(dāng)x很大時),如果β?是負(fù)值,則與之相反。

    下面以圖表形式對此進行總結(jié)。

    現(xiàn)在我們知道了如何操縱邏輯回歸曲線,可以利用一些變量來得到想要的曲線。

    可以改變β?值來移動偏移量。

    可以改變β?的值來扭曲梯度。

    動手完成這個過程是相當(dāng)乏味的,而且不太可能得到最優(yōu)值。為了解決這個問題,我們使用損失函數(shù)來量化歸屬于當(dāng)前參數(shù)的誤差水平。然后找出使這個損失函數(shù)最小的系數(shù)。對于這種二進制分類,可以使用一個二進制損失函數(shù)來優(yōu)化我們的邏輯回歸模型。

    因此,神經(jīng)網(wǎng)絡(luò)的參數(shù)與網(wǎng)絡(luò)產(chǎn)生的誤差有關(guān),當(dāng)參數(shù)變化時,網(wǎng)絡(luò)產(chǎn)生的誤差也隨之變化。使用一種叫做梯度下降法的優(yōu)化算法來改變參數(shù),這種算法對于尋找函數(shù)的最小值很有用。我們正在尋求最小化的誤差,這也被稱為損失函數(shù)或目標(biāo)函數(shù)。

    那么剛剛做的這些有什么意義呢?這和神經(jīng)網(wǎng)絡(luò)有什么關(guān)系?實際上,剛剛做的實質(zhì)上和神經(jīng)網(wǎng)絡(luò)算法執(zhí)行的程序是一樣的。

    我們只為之前的模型使用了一個特性。相反,我們可以采用多種特性,并用網(wǎng)絡(luò)的形式來說明這些特性。我們有每個特征的權(quán)重,還有一個偏差項,它們共同組成了回歸參數(shù)。根據(jù)問題是分類問題還是回歸問題,公式將略有不同。

    當(dāng)我們討論神經(jīng)網(wǎng)絡(luò)中的權(quán)重時,實際上討論的是各種傳入函數(shù)的回歸參數(shù)。然后這些信息被傳遞給激活函數(shù),由它來決定結(jié)果是否重要到足以“觸發(fā)”該節(jié)點。

    所以現(xiàn)在我們開發(fā)了一個非常簡單的網(wǎng)絡(luò),它由多個具有4個功能的邏輯回歸模型組成。

    需要從一些任意的數(shù)值公式開始,以便更新和優(yōu)化參數(shù)神經(jīng)網(wǎng)絡(luò)設(shè)計方法與實例分析,我們將在每次更新后評估損失函數(shù)并使用梯度下降法。

    要做的第一件事是隨機設(shè)置權(quán)重。在心臟數(shù)據(jù)中,該模型很可能會給出錯誤的答案。

    然后通過不良行為處罰的方式來訓(xùn)練這個模型。

    然而,僅僅告訴計算機它的性能是好是壞并不是特別有幫助。你需要告訴它如何更改這些權(quán)重,以提高模型的性能。

    我們已經(jīng)知道如何告訴計算機它運行良好,只需要咨詢損失函數(shù)。現(xiàn)在,這個過程更復(fù)雜了,因為有5個權(quán)重要處理。我們將只考慮一個權(quán)重,但所有權(quán)重的程序是類似的。

    理想情況下,我們希望知道給出使?(w)取最小值的w的值。

    為了找到函數(shù)?(w)的最優(yōu)點,可以對權(quán)值求導(dǎo),然后將其設(shè)為零。

    然后需要找到滿足這個方程的w。有時候沒有明確的解決方案。

    一個更靈活的方法是從任何一點開始,然后確定哪個方向去減少損失(在這種情況下是左邊還是右邊)。具體來說,可以計算函數(shù)在這一點上的斜率。如果斜率是負(fù)的,就向右移動,如果斜率是正的,就向左移動。然后重復(fù)這個過程直到收斂。

    如果步長與斜率成正比,那么你就要避免超過最小值。

    如何執(zhí)行此更新?這是通過一種被稱為梯度下降法的方法來完成的,這個方法在前面已經(jīng)簡要提到過。

    梯度下降法

    梯度下降法是求函數(shù)最小值的迭代法。這篇博文()展示了更新權(quán)重的不同方法。現(xiàn)在,堅持使用普通的梯度下降法算法,有時也被稱為delta規(guī)則()。

    我們知道想要走與導(dǎo)數(shù)相反的方向(因為我們試圖避開誤差) ,并且希望步長與導(dǎo)數(shù)成比例。這個步長由一個稱為學(xué)習(xí)率的參數(shù)控制。新權(quán)重是舊權(quán)重和新步長的和,步長由損失函數(shù)以及相關(guān)參數(shù)對學(xué)習(xí)率的影響程度決定。

    較快的學(xué)習(xí)速度意味著對導(dǎo)數(shù)賦予較大的權(quán)重,這樣算法的每次迭代都可以進行較大的步長。較小的學(xué)習(xí)速度意味著對導(dǎo)數(shù)的權(quán)重較小,因此每次迭代可以采用較小的步長。

    如果步長過小,則算法需要較長時間收斂,如果步長過大,則算法將不斷錯過最優(yōu)參數(shù)的選擇。顯然,建立一個神經(jīng)網(wǎng)絡(luò)時選擇學(xué)習(xí)率很重要。

    使用梯度下降法時有很多考慮因素:

    · 仍然需要推導(dǎo)出導(dǎo)數(shù)。

    · 需要知道學(xué)習(xí)率是多少或者如何設(shè)置它。

    · 需要避免局部極小值。

    · 最后,全部損失函數(shù)包括所有單個"誤差"的總和。這可以是成千上萬的例子。

    現(xiàn)在衍生物都是用自動微分來衍生的,所以不太關(guān)心這個問題。然而,確定學(xué)習(xí)速度是一個重要而復(fù)雜的問題。

    局部極小值對于神經(jīng)網(wǎng)絡(luò)來說是個很大的問題,因為神經(jīng)網(wǎng)絡(luò)的形式并不能保證我們將達到全局最小值。

    陷入局部極小值意味著有一個局部良好的參數(shù)優(yōu)化,但有一個更好的優(yōu)化在損失表面的某個地方。神經(jīng)網(wǎng)絡(luò)的損耗曲面可以有許多這樣的局部優(yōu)化,這是網(wǎng)絡(luò)優(yōu)化的問題。例如下圖所示的損失表面。

    網(wǎng)絡(luò)陷入局部極小值。

    網(wǎng)絡(luò)收斂到全局最小值

    怎樣解決這個問題呢?一方面可以使用批量梯度下降和隨機梯度下降的方法。雖然這聽起來復(fù)雜,但事實上很簡單,不要用整個數(shù)據(jù)集,而是用其中一批(組)數(shù)據(jù),在每次迭代過程中,損失平面都會有部分變動。

    每一次迭代k都能使用下面的(似然)損失函數(shù)來求導(dǎo)數(shù):

    這是全部損失函數(shù)的近似值,舉例說明一下。首先從全部的(似然)損失平面開始,隨機分配的網(wǎng)絡(luò)權(quán)值會提供一個初值。

    之后選一批數(shù)據(jù),比方說全部數(shù)據(jù)的10%,然后構(gòu)建一個新的損失平面。

    此時位置變了。再次從全部數(shù)據(jù)中隨機選擇一組數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)設(shè)計方法與實例分析,然后構(gòu)建損失平面。

    將梯度下降法應(yīng)用于這組數(shù)據(jù),然后進行更新。

    選取一組新數(shù)據(jù)繼續(xù)重復(fù)以上程序。

    然后進行更新。

    將上述程序進行多次迭代。

    直到網(wǎng)絡(luò)開始收斂到全局最小值。

    現(xiàn)在有足夠的知識儲備來構(gòu)建第一個神經(jīng)網(wǎng)絡(luò)。

    人工神經(jīng)網(wǎng)絡(luò)(ANN)

    既然已經(jīng)了解了邏輯回歸的原理、評估一個網(wǎng)絡(luò)的方法以及如何更新網(wǎng)絡(luò)以提高其性能,那么接下來就可以構(gòu)建一個神經(jīng)網(wǎng)絡(luò)了。

    首先,希望大家能知道神經(jīng)網(wǎng)絡(luò)名稱的由來。也許你已經(jīng)聽說過了,神經(jīng)網(wǎng)絡(luò)模仿了神經(jīng)元即神經(jīng)細胞的結(jié)構(gòu),雖然這種結(jié)構(gòu)看起來比神經(jīng)網(wǎng)絡(luò)復(fù)雜得多,但其實二者的功能是相似的。

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權(quán)所有