欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    一、數據挖掘的層次

    一直想整理下對數據挖掘不同層次的理解,這也是這兩年多的時間里面,和很多金融領域、互聯網做數據相關工作的小伙伴,聊天交流的一些整理和歸納。大概可以分為四類:

    (一)純粹的數據加工

    側重于變量加工和預處理,從源系統或數據倉庫,對相關數據進行提取、加工、衍生處理,生成各種業務表。然后銀行網站系統邏輯模型,以客戶號為主鍵,把這些業務表整合匯總,最終可以拉出一張大寬表,這張寬表就可以稱之為“客戶畫像”。即,有關客戶的很多變量和特征的集合。

    在這個階段,主要的數據加工工具為SQL和SAS base。

    (二)傻瓜式的挖掘工具

    較為典型的就是SAS EM和,里面嵌入很多較為傳統成熟的算法、模塊和節點(例如邏輯回歸、決策樹、SVM、神經網絡、KNN、聚類等)。通過鼠標的托拉拽,流程式的節點,基本上就可以實現你挖掘數據的需求。

    傻瓜式操作的優點就是使得數據挖掘,入手非???,較為簡單。但是,也存在一些缺陷,即,使得這個挖掘過程變得有點單調和無趣。沒辦法批量運算模型,也沒辦法開發一些個性化的算法和應用。用的比較熟練,并且想要進一步提升的時候,建議把這兩者拋棄。

    (三)較為自由的挖掘工具

    較為典型的就是R語言和。這兩個挖掘工具是開源的,前者是統計學家開發的,后者是計算機學家開發的。

    邏輯回歸模型r_邏輯回歸模型 應用_銀行網站系統邏輯模型圖

    一方面,可以有很多成熟的、前沿的算法包調用銀行網站系統邏輯模型圖,另外一方面,還可以根據自己的需求,對既有的算法包進行修改調整,適應自己的分析需求,較為靈活。此外,在文本、非結構化數據、社會網絡方面的處理,功能比較強大。

    (四)算法拆解和自行開發

    一般會利用、C、C++,自己重新編寫算法代碼。例如,通過自己的代碼實現邏輯回歸運算過程。甚至,根據自己的業務需求和數據特點,更改其中一些假定和條件,以便提高模型運算的擬合效果。尤其,在生產系統上,通過C編寫的代碼,運行速度比較快,較易部署,能夠滿足實時的運算需求。

    一般來說,從互聯網的招聘和對技能的需求來說,一般JD里面要求了前三種,這樣的職位會被稱為“建模分析師”。但是如果增加上了最后一條,這樣的職位或許就改稱為“算法工程師”。

    二、模型的理解:傳統的和時髦的

    據理解,模型應該包括兩種類型。一類是傳統的較為成熟的模型,另外一類是較為時髦有趣的模型。對于后者,大家會表現出更多的興趣,一般是代表著新技術、新方法和新思路。

    (一)傳統的模型

    傳統的模型,主要就是為了解決分類(例如決策樹、神經網絡、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(、系譜、密度聚類等)、關聯(無序關聯和有序關聯)這四類問題。這些都是較為常規和經典的。

    (二)時髦有趣的模型

    比較有趣、前沿的模型,大概包括以下幾種類型,即社會網絡分析、文本分析、基于位置的服務(-Based ,LBS)、數據可視化等。

    它們之所以比較時髦,可能的原因是,采用比較新穎前沿的分析技術(社會網絡、文本分析),非常貼近實際的應用(LBS),或者是能夠帶來更好的客戶體驗(數據可視化)。

    邏輯回歸模型 應用_銀行網站系統邏輯模型圖_邏輯回歸模型r

    (1)社會網絡的應用

    傳統的模型將客戶視為單一個體,忽視客戶之間的關系,基于客戶的特征建立模型。社會網絡是基于群體的,側重研究客戶之間的關聯,通過網絡、中心度、聯系強度、密度,得到一些非常有趣的結果。典型的應用,例如,關鍵客戶的識別、新產品的滲透和擴散、微博的傳播、風險的傳染、保險或信用卡網絡團伙欺詐、基于社會網絡的推薦引擎開發等。

    (2)文本挖掘的應用

    文本作為非結構化數據,加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強烈程度。典型的應用,包括搜索引擎智能匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網絡爬蟲抓取產品評論、詞云展示等。

    關于文本分析,最近朋友圈有篇分享,很有意思,號稱可以讓你瞬間變成詩人。原理很簡單,就是先把《全宋詞》分詞,然后統計頻數前100的詞語。然后你可以隨機湊6個數(1-100),這樣就可以拼湊出兩句詩。比如,隨機寫兩組數字,(2,37,66)和(57,88,33),對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩,即“東風無人黃花落,憔悴今夜風月明”。還真像那么一回事,有興趣可以玩一玩。

    (3)LBS應用

    即基于位置的服務,即如何把服務和用戶的地理位置結合。當下的APP應用,如果不能很好地和地理位置結合,很多時候很難有旺盛的生命力。典型的APP,例如大眾點評(餐飲位置)、百度地圖(位置和路徑)、滴滴打車、微信位置共享、時光網(電影院位置)等服務。此外,銀行其實也在研究,如何把線上客戶推送到距離客戶最近的網點,完成O2O的完美對接,從而帶來更好的客戶體驗。

    (4)可視化應用

    基于地圖的一些可視化分析,比較熱門,例如,春節人口遷徙圖、微信活躍地圖、人流熱力圖、擁堵數據的可視化、社會網絡擴散可視化等。

    邏輯回歸模型 應用_銀行網站系統邏輯模型圖_邏輯回歸模型r

    如果你想讓你的分析和挖掘比較吸引眼球,請盡量往以上四個方面靠攏。

    三、互聯網和金融數據挖掘的差異

    博士后兩年,對銀行領域的數據挖掘有些基本的了解和認識,但是面對浩瀚的數據領域,也只能算剛剛入門。很多時候,會很好奇互聯網領域,做數據挖掘究竟是什么樣的形態。

    很早之前,就曾在知乎上提了個問題,“金融領域的數據挖掘和互聯網中的數據挖掘,究竟有什么的差異和不同”。這個問題掛了幾個月,雖有寥寥的回答,但是沒有得到想要的答案。

    既然沒人能夠提供想要的答案,那就,我根據自己的理解、一些場合的碰壁、以及和一些互聯網數據小伙伴的接觸,試圖歸納和回答下。應該有以下幾個方面的差異。

    (一)“分析”和“算法”

    在互聯網中,“分析”和“算法”,分得非常開,對應著“數據分析師”和“算法工程師”兩種角色。前者更多側重數據提取、加工、處理、運用成熟的算法包,開發模型,探索數據中的模式和規律。后者更多的是,自己寫算法代碼,通過C或部署到生產系統,實時運算和應用。

    在銀行領域,基本上,只能看到第一種角色。數據基本上來源于倉庫系統,然后運用SQL、SAS、R,提取、加工、建模和分析。

    (二)數據類型

    數據類型,主要包括“結構化”和“非結構化”兩類數據。前者就是傳統的二維表結構。一行一條記錄,一列一個變量。后者包括文本、圖像、音頻、視頻等。

    銀行里面的數據,更多的是結構化數據,也有少量的非結構化數據(投訴文本、貸款審批文本等)。業務部門對非結構化數據的分析需求比較少。因此,在非結構化數據的分析建模方面,稍顯不足。

    銀行網站系統邏輯模型圖_邏輯回歸模型r_邏輯回歸模型 應用

    互聯網,更多的是網絡日志數據,以文本等非結構化數據為主,然后通過一定的工具將非結構化數據轉變為結構化數據,進一步加工和分析。

    (三)工具、存儲和架構

    互聯網,基本上是免費導向,所以常常選擇開源的工具,例如MySql、R、等。常常是基于的分布式數據采集、加工、存儲和分析。

    商業銀行一般基于成熟的數據倉庫,例如TD,以及一些成熟的數據挖掘工具,SAS EG和EM。

    (四)應用場景

    在應用場景上,兩者之間也存在著非常大的差異。

    (1)金融領域

    金融領域的數據挖掘,不同的細分行業(如銀行和證券),也是存在差別的。

    銀行領域的統計建模。銀行內的數據挖掘,較為側重統計建模,數據分析對象主要為截面數據,一般包括客戶智能(CI)、運營智能(OI)和風險智能(RI)。開發的模型以離線為主,少量模型,例如反欺詐、申請評分,對實時性的要求比較高。

    證券領域的量化分析。證券行業的挖掘工作,更加側重量化分析,分析對象更多的是時間序列數據,旨在從大盤指數、波動特點、歷史數據中發現趨勢和機會,進行短期的套利操作。量化分析的實時性要求也比較高,可能是離線運算模型,但是在交易系統部署后,實時運算,捕捉交易事件和交易機會。

    (2)互聯網

    互聯網的實時計算。互聯網的應用場景,例如推薦引擎、搜索引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等,很多時候需要將模型部署在生產系統,對實時響應要求比較高,需要保證比較好的客戶體驗。

    邏輯回歸模型r_邏輯回歸模型 應用_銀行網站系統邏輯模型圖

    四、數據挖掘在金融領域的典型應用

    別人常常會問,在銀行里面,數據挖掘究竟是做什么的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋:

    (一)信用評分

    申請評分。當你申請信用卡、消費貸款、經營貸款時,銀行是否會審批通過,發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意愿,綜合評定放款額度和利率水平。

    行為評分。當你信用卡使用一段時間后,銀行會根據你的刷卡行為和還款記錄,通過行為評分模型,判斷是否給你調整固定額度。

    (二)個性化產品推薦

    很多時候,你可能會收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財產品。這背后,很可能就是產品響應模型運算的結果。銀行會通過模型,計算你購買某款理財產品的概率,如果概率比價高的話,就會向你推送這款理財產品。

    此外,很多時候,不同的客戶,銀行會個性化的推薦不同的產品,很可能就是產品關聯分析模型運算的結果。

    (三)個性化廣告展示

    登陸商業銀行網站時,通常會有一個廣告,上會展示若干幅廣告。很多時候,不同的客戶登陸網站,會接觸到不同的廣告,即個性化的廣告推送。一般來說,后臺經過計算,會判斷,你對哪幾款廣告和產品感興趣,最后推送3-5款你最感興趣的產品,從而能夠有效吸引你的注意,促進點擊、轉化和成交。

    圖/百度、微頭條 · 文章

    文/微頭條 · 文章

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有