導語
大數據(Big Data)是指無法在一定時間范圍用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強決策力、洞察發現力和流程優化能來來適應海量、高增長率和多樣化的信息資產。本文將對常見的大數據分析模型進行簡單的介紹,以便為運用大數據分析解決問題、助力決策等奠定基礎。
大數據正在成為新的生產要素,對經濟社會發展產生著越來越大的影響。根據中國大數據產業聯盟發布的《2021中國大數據產業發展地圖暨中國大數據產業發展白皮書》, 2020年中國的大數據產業規模達6388億元,同比增長18.6%,預計未來三年保持15%以上的年均增速,到2023年產業規模超過10000億元[1]。大數據不僅在推進經濟社會發展中有著重要地位,我國也高度重視其體系完善,在2021年的 ‘十四五規劃’ 中將大數據標準系統的完善指明為發展重點。
大數據(Big Data)是指無法在一定時間范圍用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強決策力、洞察發現力和流程優化能力,來適應海量、高增長率和多樣化的信息資產。其具有5V特點,分別是(大量)——數據的大小決定數據的價值,(高速)——獲得數據的速度,(多樣)——數據類型的多樣性,Value(價值)——合理運用大數據,以低成本創造高價值,(真實性)——數據的質量[2]。隨著大數據以及數據采集、存儲、分析等技術的快速發展,幾乎所有公司都在盡可能充分利用數據來獲取競爭優勢。除此之外,大數據還改變了傳統的生產方式和經濟運行機制,催生新業務促進新興領域的快速發展。中國大數據網發布的《中國大數據產業白皮書(2021年)》顯示,截止2021年8月31號,全國共有大數據企業6萬余家,其中處于高質量發展階段的企業數量達12432家,占比超過了20%[3]。
本文將對常見的大數據分析模型進行簡單的介紹,以便為運用大數據分析解決問題、助力決策等奠定基礎。
首先,本文將對數據類型進行簡單的介紹。數據主要分為結構性數據和非結構性數據。結構性數據指的是可以用二維表結構來邏輯表達和實現的數據;而圖片、文本等數據結構不規則、不完整、不能用邏輯來表現的數據則是非結構性數據。根據不同的數據類別,采用不同的數據分析方法。對所有數據而言,都需要對數據進行預處理,從而保準數據的完整性和準確性,進一步提高數據分析的結果。
接下來,我們將會對結構化數據、非結構化數據以及以業務為主的數據分析模型和方法進行介紹。這些分析模型與方法可通過SPSS,R,,等軟件進行實現。
結構化數據分析方法
對處理好的標準化傳統結構數據來說,數據分析模型通常是指統計分析或大數據挖掘、深度學習、人工智能等多種類的數據模型。而在數據分析中,可能會對數據進行多重處理,如對數據進行降維、檢驗數據之間的相關性、對數據進行分類等。接下來我們將簡單介紹一些關于處理數據時的方法,分別是降維、回歸、聚類、分類等。
降維
對大規模的數據進行數據挖掘時,往往會面臨多維度數據。數據集維度的無限增加,計算機的處理能力和速度有限,以及數據集的多個維度之間可能存在共同的線性關系等多項原因可能會造成學習模型的可擴展性不足,乃至優化算法結果無效。因而,必須減少層面總數并減少層面間共線性危害。
數據降維也稱為數據歸約或數據約減。目的就是為了減少數據計算和建模中涉及的維數。主要應用于構建綜合指標來區分目標群體;實現數據可視化;對變量進行壓縮、重構,去除數據集中的噪音,突出數據的特征。有兩種數據降維思想:一種是基于特征選擇的降維,另一種是基于維度變換的降維。常用的分析法是線性判別分析(IDA)等。
線性判別分析(IDA)
LDA( )決策樹模型的應用特點,線性判別分析。主要用于數據預處理中的降維、分類任務。LDA的目標是最大化類間區分度的坐標軸成分,將特征空間投影到一個維度更小的k維子空間中,同時保持區分類別的信息。簡而言之,LDA投影后的數據類內方差最小,類間方差最大。該算法的步驟如下:
1)計算類內散度矩陣
2)計算類內間散度矩陣
3)計算矩陣
4)計算最大的d個特征值和對應的d個特征向量,得到投影矩陣
5)對樣本中的每一個樣本特征轉換成新樣本。
回歸
回歸分析法指利用數據統計原理,對大量統計數據進行數學處理,并確定因變量與某些自變量的相關關系,建立一個相關性較好的回歸方程(函數表達式),并加以外推,用于預測今后的因變量的變化的分析方法。根據因變量和自變量的個數分為:一元回歸分析和多元回歸分析;根據因變量和自變量的函數表達式分為:線性回歸分析和非線性回歸分析。回歸分析法的步驟如下:
1)根據自變量與因變量的現有數據以及關系,初步設定回歸方程;
2)求出合理的回歸系數;
3)進行相關性檢驗,確定相關系數;
4)在符合相關性要求后,即可根據已得的回歸方程與具體條件相結合,來確定事物的未來狀況,并計算預測值的置信區間。
常用的回歸分析法有: 線性回歸、決策樹回歸,多項式回歸等。因這些方法比較常見,在此不再詳細介紹。
聚類
聚類分析法是大數據挖掘和測算中的基礎每日任務,聚類分析法是將很多統計數據集中化具備 “類似” 特點的統計數據點區劃為一致類型,并最后轉化成好幾個類的方式。大量數據集中必須有相似的數據點。基于這一假設,可以區分數據,并且可以找到每個數據集(分類)的特征。它不僅僅能獲得數據內部有效結構,還能作為其他算法的預處理步驟,也能完成噪聲點/孤立點的挖掘。常見的聚類算法有系統(層次)聚類算法,算法等。
系統(層次)聚類算法
系統聚類法( )又分為凝聚的層次聚類和分裂的層次聚類,使用距離作為合并或者分裂的標準。凝聚的層次聚類是一種自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到某個終結條件被滿足。分裂的層次聚類與凝聚的層次聚類相反,采用自頂向下的策略,它首先將所有對象置于同一個簇中,然后逐漸細分為越來越小的簇,直到每個對象自成一簇,或者達到了某個終止條件。
算法
算法是一種基于密度的聚類算法,聚類前不需要預先指定聚類的個數,生成簇的個數不定(由數據決定)。該算法利用基于密度的聚類的概念,即要求聚類空間中的一定區域內所包含對象(點或其他空間對象)的數目不小于某一給定閾值。該方法能在具有噪聲的空間數據庫中發現任意形狀的簇,可將密度足夠大的相鄰區域連接,能有效處理異常數據。
分類
分類算法根據對已知類型訓練集的測算和剖析,發掘類型標準,為此分折新統計數據的類型的類別優化算法。分類算法是解決分類問題的一種方法,其目標是預測數據的類別標簽(class label)。總體來說,數據分類是一個二階段的過程,第一個階段是學習階段,用于訓練分類模型,第二個階段是預測階段,使用模型預測新數據的類標簽。邏輯回歸、決策樹、支持向量機、隨機森林等分類算法,不僅可以進行二分類,也能進行多分類。這里簡單介紹決策樹模型。
決策樹
決策樹( Tree)是在已知各種情況發生概率的基礎上,通過構建決策樹來進行分析的一種方式,是一種直觀應用概率分析的一種圖解法,它代表的是對象屬性與對象值之間的一種映射關系。樹中每個節點表示某個對象,而每個分支叉路徑則代表某個可能的屬性值,而每個葉節點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。
常見決策樹分類算法:
1) CLS算法:是最原始的決策樹分類算法,基本流程是,從一棵空樹出發,不斷的從決策表選取屬性加入數的生長過程中,直到決策樹可以滿足分類要求為止。CLS算法存在的主要問題是在新增屬性選取時有很大的隨機性。
2) ID3算法:對CLS算法的最大改進是摒棄了屬性選擇的隨機性,利用信息熵的下降速度作為屬性選擇的度量。ID3是一種基于信息熵的決策樹分類學習算法,以信息增益和信息熵,作為對象分類的衡量標準。ID3算法結構簡單、學習能力強、分類速度快適合大規模數據分類。但同時由于信息增益的不穩定性,容易傾向于眾數屬性導致過度擬合,算法抗干擾能力差。
3) C4.5算法:基于ID3算法的改進,主要包括:使用信息增益率替換了信息增益下降度作為屬性選擇的標準;在決策樹構造的同時進行剪枝操作;避免了樹的過度擬合情況;可以對不完整屬性和連續型數據進行處理;使用k交叉驗證降低了計算復雜度;針對數據構成形式,提升了算法的普適性。
非結構性數據分析方法
非結構性數據則根據不同的數據類別采用不同的分析方法,當數據是圖片時,處理的方法可以采用主成分分析法(PCA),也可以采用K均值聚類算法亦或是CNN算法(卷積神經網絡)進行圖像分類。當數據是文本時,可以根據自身需求采用自然語言處理里的多類分析方法對文本進行處理。自然語言處理旨在從文本數據中提取信息,目的是能讓計算機處理自然語言,執行信息抽取、文本分類,情感分析、文本挖掘等方面的操作。接下來會對主成分分析法(PCA)、k均值聚類法、以及自然語言處理中的情感分析進行部分介紹。
主成分分析法(PCA)
主成分分析( , PCA)是最常用的一種降維方法,通常用于高維數據集的探索與可視化,還可以用作數據壓縮和預處理等。PCA可以把具有相關性的高維變量合成為線性無關的低維變量,轉換后的變量稱為主成分。該算法的步驟如下:
1)將原始數據按列組成n行m列矩陣X
2)去平均化(去中心化),即每一位特征減去各自的平均值
3)求出協方差矩陣C
4)求出協方差矩陣的特征值及對應的特征向量
5)用特征值從大到小排序,選擇其中最大的k個,然后將其對應的k個特征向量分別作為行向量組成特征向量矩陣P
6)將數據轉換到k個特征向量構建的新空間中,即Y=PX,Y為降維到K維后的數據
K-means聚類算法
K-means聚類算法是根本樣本之間的距離大小將樣本集劃分為K個簇,讓簇內的點盡量緊密的連載一起,而讓簇之間的間距盡可能的大。其算法是:
1) 隨機選取k個點作為初始聚類中心
2) 對于剩下的點,根據其余聚類中心的距離,將其歸入最近的簇
3) 對每個簇,計算所有點的均值作為新的聚類中心
4) 重復2、3直至聚類中心不再發生改變
自然語言處理——情感分析( )
情感分析指的是利用自然語言處理和文本挖掘技術,對帶有情感色彩的主觀性文本進行分析、處理和抽取的過程[4]。情感分析又包括情感分類、情感檢索、情感抽取問題來分析相關研究工作。情感分類又稱為情感傾向性分析,是對指定的文本識別其主觀性文本的傾向是正面的或是負面的。文本的主客觀分類主要以情感詞識別,利用不同的特征表示方法和分類器進行識別分別。主要的分類方法有支持向量機(SVM)、邏輯回歸( )等。
在進行情感分析時,需要構建邏輯回歸分類模型,主要分為三個步驟,先對特征進行有效提取,并對其進行標注(如正面情感標為1,負面情感標為0),訓練邏輯回歸分類器,并多次迭代減小損失值,后用使用好的模型進行預測,最終完成情感分析。其中邏輯回歸是一種廣義的線性回歸模型,常用于數據挖掘,經濟預測等領域,其原理是用邏輯函數把線性回歸的結果從(-∞,∞)映射到(0,1),其步驟:
1) 將特征X輸入預測函數(模型)中,計算得到對應的預測標簽
2) 通過損失函數計算標簽Y與預測標簽之間的差異,即損失值(loss),損失值越小,說明模型效果越好,從而實現標簽到特征的最佳映射
3) 通過損失值來更新參數
4) 重復上述流程,直到損失值下降到理想程度[5]
圖 1 邏輯回歸法[5]
以業務為主的數據分析方法
基于事件的多個維度,多種數據,都會形成一些常見的以業務為主的分析方法,而這些分析方法能相對完整的揭示用戶行為的內在規律,幫助更好地做出決策。當然數據也需要進行提前的處理,隨后可通過,等工具進行數據分析。接下來將著重介紹漏斗模型、PEST模型、決策樹分析法、需求分析方法 KANO模型等。
漏斗模型
漏斗分析是一套流程式數據分析,它能夠科學反映用戶行為狀態以及從起點到終點各階段用戶轉化率情況的重要分析模型,其主要步驟是監控用戶在流程上各個層次的行為路徑,尋找每個層級的可優化點,提高用戶在每個層級之間的轉化率。通過人數進行統計,就是次數去重以后基于時間序列的統計。
漏斗分析模型已經廣泛應用于網站和APP用戶行為分析的流量監控、電商行業、零售的購買轉化率、產品營銷和銷售等日常數據運營與數據分析的工作中。可以幫助企業監控用戶在各個層級的轉化情況,降低流失率,也能多維度切分與呈現用戶情況,捕捉用戶行為變化,改變營銷策略。
PEST模型
PEST分析是分析企業外部宏觀環境的一種方法。宏觀環境又稱一般環境,是指影響一切行業和企業的各種宏觀力量、因素。對宏觀環境因素作分析,不同行業和企業根據自身特點和經營需要,分析的具體內容會有差異,但一般都應對政治()、經濟()、技術()和社會()這四大類影響企業的主要外部環境因素進行分析。
該方法主要作用于公司戰略規劃、市場規劃、產品經營發展、研究報告撰寫等,對宏觀市場環境進行分析,從政治、經濟、社會以及技術四個維度對產品或服務是否適合進入市場進行數據化的分析,最終得到結論,輔助判斷產品或服務是否滿足大環境。
邏輯樹分析法
圖 2 邏輯樹分析法
“邏輯樹” 分析法就是一種結構化的思維工具。它把各種各樣的要素組合在一起,用樹狀結構來展示問題。通過這種方法,可以從 “廣度” 和 “深度” 兩方面找出問題所在。邏輯樹的使用必須遵循以下三個原則。要素化:把相同的問題總結歸納成為要素,框架化:將各個要素組織成框架,遵守不重不漏的原則,關聯化:框架內的各要素保持必要的相互關系,簡單而不獨立。主要作用是幫助數據分析更加清晰,避免重復和無關的步驟,可以把工作細分為更加便于操作的任務,確定各部分的優先順序,明確地把責任落實到個人。
需求分析方法 KANO模型
KANO模型是對用戶需求分類和優先排序的有用工具決策樹模型的應用特點,以分析用戶需求對用戶滿意的影響為基礎,體現了產品性能和用戶滿意之間的非線性關系。卡諾模型的數據收集是采用問卷法,每個問題設計正方兩方面問題,最后把數據填入質量類型評價表,共有必備質量、期望質量、魅力質量、無差異質量、反向質量五個類型組成。
必備質量(M)(Must-be ),又叫基本質量,當提供此類需求時,使用者滿意度不會明顯提升,但不提供此類需求時滿意度會大幅降低,是必須被保障的基礎需求。
期望質量(M)(One- ),又叫一元質量,當提供此類需求時,使用者滿意度會提升,反之則降低。該類應是被優先考慮提升和改進的需求。
魅力質量(A)( ),又叫興奮質量,在實踐中,若不提供此類需求,使用者滿意度不會降低,但當提供此類需求時,滿意度會極大提升,有時是產品或服務具有競爭力的保證。
無差異質量(I)( ),即無論提供或不提供此類需求,使用者滿意度并不會有明顯變化。在條件有限的情況下,可以不優先提供此類需求。
反向質量(R)( ),即使用者沒有此需求,若提供反而會導致滿意度下降。如:過度服務會引起不少顧客的反感。在設計績效指標時,前三種必備質量、期望質量和魅力質量,就是基本因素、績效因素和激勵因素。
圖 3 KANO模型[6]
概括而言,本文的概述并不深入,通過梳理希望能夠給大家展示一些大數據分析模型與方法的基本知識,為入門學習提供一些參考。此外,特別感謝和鍇博士提供的幫助。
參考文獻
向上滑動閱覽
[1]中國大數據產業生態聯盟,2021中國大數據產業發展地圖暨中國大數據產業發展白皮書[R].
[2]郭鳴華.大數據的定義及特征[J].當代檢察官,2017,0(12):32-32
[3]中國大數據網. 中國大數據產業白皮書(2021)[R].
[4]PANG B,LEE L. and [J]. and in R,2008,2 (1 -2) :130 - 135.
[5]“自然語言處理(NLP)-1.1 監督學習與情感分析( ML & )”,2021-3-18,[DB/OL],~~~-1.&spm=1001.2101.3001.4242.2&=4
[6]“基礎的競品分析”,2019-08-13, [DB/OL], #