樸素貝葉斯
樸素貝葉斯分類法是統(tǒng)計(jì)學(xué)分類方法數(shù)據(jù)挖掘算法實(shí)現(xiàn)代碼,在特征條件獨(dú)立的前提下,基于貝葉斯定理計(jì)算的隸屬關(guān)系概率進(jìn)行分類。
樸素貝葉斯分類有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)和穩(wěn)定的分類效率,同時,分類模型需要估計(jì)的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。
從理論上講,樸素貝葉斯分類模型與其他分類方法相比的誤差率最小數(shù)據(jù)挖掘算法實(shí)現(xiàn)代碼,但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯分類模型假設(shè)各屬性之間相互獨(dú)立,然而這個假設(shè)在實(shí)際應(yīng)用中往往是不成立的,因此,這在一定程度上影響了模型的正確分類。
決策樹
決策樹是一種類似于流程圖的樹結(jié)構(gòu)。其中,每個內(nèi)部節(jié)點(diǎn)代表在一個屬性上的測試,每個分支代表該測試的一個輸出,每個葉節(jié)點(diǎn)代表存放一個類標(biāo)號,頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。
在構(gòu)造決策樹時,使用屬性選擇度量來選擇將元組劃分成不同的類的屬性。決策樹中的許多分枝可能反映訓(xùn)練數(shù)據(jù)中的噪聲或離群點(diǎn),使用剪枝識別來減去是這種分枝,以提高泛化性。
常用的決策樹模型包括ID3、C4.5和CART。它們都采用自上到下遞歸的分枝方式構(gòu)造決策樹,各算法之間的差別在于創(chuàng)建決策樹時如何選擇屬性和剪枝機(jī)制。
K最近鄰分類
K最近鄰分類算法(KNN)的核心思想是,如果一個樣本在特征空間中的K歌最相鄰的樣本中大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。
該方法在確定分類決策上只依據(jù)最近鄰的一個或者幾個樣本的類別來決定待分樣本所屬的類別。KNN算法在類別決策時只與極少量的相鄰樣本有關(guān)。
由于KNN方法主要靠周圍有限的鄰近樣本,而不是靠判別類域的方法來確定所屬類別,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN算法較其他方法更為合適。
KNN算法不僅可以用于分類,還可以用于回歸。通過找到一個樣本的K個最近鄰居,將這些鄰居的屬性的平均值賦予該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產(chǎn)生的影響設(shè)定不同的權(quán)重,權(quán)重與距離成反比。
神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是模仿生理神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能設(shè)計(jì)的一種信息處理系統(tǒng)。它從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。
大量的人工神經(jīng)元以一定的規(guī)則連接成神經(jīng)網(wǎng)絡(luò),神經(jīng)元之間的連接以及各連接的權(quán)重表示特定的信息。
神經(jīng)網(wǎng)絡(luò)分布式存儲信息,具有很高的容錯性。每個神經(jīng)元都可以進(jìn)行獨(dú)立運(yùn)算、處理接收信息并輸出結(jié)果,同時,神經(jīng)網(wǎng)絡(luò)具有并行運(yùn)算能力,實(shí)時性很強(qiáng)。
神經(jīng)網(wǎng)絡(luò)對信息處理具有自組織、自學(xué)習(xí)的特點(diǎn),便于聯(lián)想、綜合和推廣。
深度學(xué)習(xí)
深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,其目的在于建立能夠模人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),并模仿人腦的工作機(jī)制來解釋數(shù)據(jù)。
深度學(xué)習(xí)模型結(jié)構(gòu)是含有多個隱層的多層感知器,它通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
深度學(xué)習(xí)的概念由等人于2006年提出,是基于深度置信網(wǎng)絡(luò)(DBN)提出的非監(jiān)督貪心逐層訓(xùn)練算法,目的是解決深層結(jié)構(gòu)相關(guān)的優(yōu)化問題。隨后,他們又提出了多層自動編碼器深層結(jié)構(gòu)。
此外,Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)(CNN)是第一個真正多層結(jié)構(gòu)的學(xué)習(xí)算法,它利用空間相對關(guān)系來減少參數(shù)的數(shù)量,從而提高訓(xùn)練性能。
深度學(xué)習(xí)涉及相當(dāng)廣泛的機(jī)器學(xué)習(xí)技術(shù)和結(jié)構(gòu),根據(jù)這些結(jié)構(gòu)和技術(shù)應(yīng)用的方式,可以將其分成如下三類:
支持向量機(jī)
支持向量機(jī)( ,SVM)算法是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,無論在理論分析還是實(shí)際應(yīng)用中都已取得了很好的成果。
SVM算法由和共同提出,其理論基礎(chǔ)是提出的“結(jié)構(gòu)風(fēng)險(xiǎn)最小化”原理。
SVM算法泛化能力很強(qiáng),在解決很多復(fù)雜問題時有很好的表現(xiàn)。例如,為滿足美國郵政服務(wù)局利用手寫郵政編碼進(jìn)行郵件自動分類的需要,Boser和Guyon等人利用SVM算法對手寫阿拉伯?dāng)?shù)字進(jìn)行了識別。
后來,Osuna E和 R提出了基于SVM的面部識別方法。等利用SVM算法實(shí)現(xiàn)了對路透社新聞故事數(shù)據(jù)集的文本分類。
除了數(shù)據(jù)分類,SVM逐漸被應(yīng)用于回歸分析、多種背景的模式識別、數(shù)據(jù)挖掘、函數(shù)逼近擬合、醫(yī)學(xué)診斷等多個領(lǐng)域。
如今,SVM已成為機(jī)器學(xué)習(xí)領(lǐng)域的主要研究方向之一,它所代表的統(tǒng)計(jì)學(xué)理論也必將帶來機(jī)器學(xué)習(xí)領(lǐng)域的一場深刻變革。
SVM算法的思想源于線性學(xué)習(xí)器,即感知機(jī)。感知機(jī)可以將線性可分的兩種不同類型的樣例自動劃分為兩類。
如果這兩類樣例不是線性可分的,就可以用核函數(shù)方法將實(shí)驗(yàn)對象的屬性表達(dá)于高維特征向量中并由最優(yōu)化理論的學(xué)習(xí)算法進(jìn)行訓(xùn)練,實(shí)現(xiàn)由統(tǒng)計(jì)學(xué)理論推導(dǎo)得出的學(xué)習(xí)偏置,從而達(dá)到分類的效果。
相關(guān)文章:
常用數(shù)據(jù)挖掘算法舉例(下)
智能反欺詐算法概覽
數(shù)學(xué)模型漫談
什么是機(jī)器學(xué)習(xí)?(上)
什么是機(jī)器學(xué)習(xí)?(下)
基于個人信用評分的建模分析和授信決策