機器學習可以解決很多問題,其中最為重要的兩個是 回歸與分類。 這兩個問題怎么解決, 它們之間又有什么區別呢? 以下舉幾個簡單的例子,以給大家一個概念
1. 線性回歸
回歸分析常用于分析兩個變量X和Y 之間的關系。 比如 X=房子大小 和 Y=房價 之間的關系, X=(公園人流量,公園門票票價) 與 Y=(公園收入) 之間的關系等等。
那么你的數據點在圖上可以這么看
現在你想找到 房子大小和房價的關系, 也就是一個函數f(x) = y. 能夠很好的表示 這兩個變量之間的關系。
于是你需要大概評估一下這個 房子大小和房價大概是一個什么關系.
是線性的關系嗎? 還是非線性的關系?
當然在這個問題里面, 線性的關系更符合這兩者的關系。于是我們 選擇一個合適的 線性模型, 最常用的是 f(x) = ax+b.
然后用這個線性的模型 去 匹配這些數據點。
1.1 怎么匹配?
有了數據點 和 你臆想出來的線性模型,怎么進行匹配,也就是怎么用這根線最好地描述些數據點的關系?
需要最好地描述點, 我們又需要一個關于“好”的定義。你也可以想出很多關于“好”的定義。下面有兩個,
這兩個定義都是 將模型與數據點之間的距離差 之和做為 衡量匹配好壞的標準。 誤差越小, 匹配程度越大。
但是 總的來說, 我們想要找到的模型, 最后是想要使 f(x) 最大程度地 與y相似, 所以我們想要盡量地減少 f(x)與y之間的差值。 所以在這里 用第二個圖的“好的定義” 來評估這根線的匹配程度是很合理的。于是我們有了誤差公式!!!!!
這個公式,說的是,可以通過調整不同的a 和 b的值,就能使 誤差不斷變化,而當你找到這個公式的最小值時,你就能得到最好的a,b. 而這對(a,b)就是能最好描述你數據關系的模型參數。
1.1.1 沿導數下降法( Descent)
怎么找 cost(a,b)的最小? cost(a,b) 的圖像其實像一個碗 一樣,有一個最低點。 找這個最低點的辦法就是,先隨便找一個點(e.g. a=3, b = 2), 然后 沿著這個碗下降的方向找,最后就能找到碗的最低點。
cost(a,b) 的形狀
怎么找(某一點)碗下降的方向?? 答案是,找那一點導數的反方向。拿參數a 舉個例子, a與cost 關系如下圖,
只要將任意一個a, 沿著使cost 導數的反方向 慢慢移動,那么 最終有一天a值就會到達使 cost 最小的那一點. 于是你可以不斷地移動a,b, 向著最低點前進。
當然在進行移動的時候也需要考慮,每次移動的速度,也就是Alpha的值,這個值也叫做(學習率). 學習率的增大可以加速參數逼近最優的情況, 但是如果在快要到達函數的底端的時候,需要減小學習率,以免出現cost 不斷增大或者不停擺動的情況(如下圖, J(a,b)就是cost(a,b) )。 所以說,當出現以上兩種情況時候,我們應該果斷選取一個較小的學習率, 以保證cost能減少到一個穩定的值(我們稱為 收斂).
1.1.2 直接求解最小點方法
這時候,有的人會問,為什么要讓a不停地往下跑呢? 而且還需要設定學習率, 多麻煩, 直接讓找 導數為0點(最小極值), 不就可以了嗎? 嗯。。。也可以...但是各有優缺,
具體方法和優劣分析可見 的博客:
總結一下: 回歸問題的解決方法是:
1. 假定一個模型 2. 定義什么叫做最好的匹配(構造誤差函數) 3. 用這個模型去匹配已有的數據點(訓練集)
需要進一步討論的問題:
2.分類( )
分類問題也是一類很常見的問題。 比如說,怎么判定一個人是高富帥還是吊絲? 假如我是中央電視臺的記者,采訪了N個人, 拿到了第一手資料。資料如下
我們想要根據一個人的口袋錢數量,來預測一個人是(富帥) 還是 (吊絲). 我們能不能用回歸的方法做呢? 顯然是可以的, 我們只要找到一個模型,然后再進行匹配就可以了。
但是因為分類問題的y值常常是一些離散的數字,(比如, 富帥為1, 吊絲為0), 所以我們已經不能用一個簡單的線性函數來擬合這些數據了。我們需要一個更逼真的模型。
于是我們引入了一個更適合處理分類問題的函數--- 一個非線性函數, 階躍函數。
這個函數的形狀更像我們分類問題的數據分布,所以,用他來擬合分類問題的數據將更適合!
所以我們有了一個新的模型,
$\frac{1}{1+e^{-(ax+b)}}$
通過調整a,b 的值,可以讓模型不斷改變以匹配數據點。 為了匹配數據點,我們又需要一個衡量匹配程度的函數,就像 回歸問題一樣的cost 函數. 于是同理我們可以得到cost
$cost(a,b) = \sum_{i=1}^N (f(x_i) - y_i)^2 = \sum_{i=1}^N (\frac{1}{1+e^{-ax_i-b}} - y_i)^2$
于是我們急切地想要把它用我們之前的 descent 的方法求解出使cost 最小的兩個a,b值。 但是很遺憾的是, 這個cost函數關于a,b,是非凸(non-convex)的。 就像下面那張圖那樣坑坑洼洼。。。
所以你沒有辦法通過以上兩種方法(1.1.1和1.1.2)求出這個cost函數的全局最小值。
所以你需要構造一個更好的cost函數, 在可以衡量擬合程度的同時 又是一個關于a,b 的凸函數(像回歸問題的cost一樣,和一個碗一樣,只有一個極小值).
這怎么構造啊....
幸好我們還有各種偉大的數學家,他們夜以繼日,終于趕制出了一個形狀和碗一樣(convex)的cost函數. (Maximum 更具體的介紹請看 )
$cost(a,b)=\sum_{i=1}^N\[-y_ilog(f(x_i))-(1-y_i)log(1-f(x_i))\]$
現在我們又可以用我們熟悉的 導數方向下降法( descent) 移動a, b的值,使cost 降低到最小。
$a:=a-\alpha\frac{\}{\}=a-\alpha\sum_{i=1}^N(f(x_i)-y_i)x_i$
$b:=b-\alpha\sum_{i=1}^N(f(x_i)-y_i)$
最后,分類的問題就這樣被解決了。
當然,更復雜的問題可能有:
$f_a(y=A|x,\theta_a),f_b(y=B|x,\theta_b),f_c(y=C|x,\theta_c)$
最后比較大小,哪個大,這個x就屬于哪一類
具體可看, (七)
3.總結(兩個問題的區別)
這篇文章大概的意圖是能想讓大家了解, 機器學習中最基本的兩類問題,線性回歸和分類。 能讓大家有個清晰的思想,對于這兩類問題都有以下幾個步驟,
談談回歸和分類的區別:
總的來說兩個問題本質上都是一致的,就是模型的擬合(匹配)。 但是分類問題的y值(也稱為label), 更離散化一些. 而且, 同一個y值可能對應著一大批的x, 這些x是具有一定范圍的。
所以分類問題更多的是 (一定區域的一些x) 對應 著 (一個y). 而回歸問題的模型更傾向于 (很小區域內的x,或者一般是一個x) 對應著 (一個y).
在把一個問題建模的時候一定要考慮好需求,讓你的模型更好的與現實問題相對應。
下一篇:機器學習 --- 2.從最大似然再看線性回歸
從古至今,人類經歷了五次信息技術革命,依次是什么?
第一次:語言的使用
第二次:文字的創造
第三次:印刷術的發明
第四次:電報、電話、廣播、電視的發明和普及應用
第五次:計算機應用的普及、計算機與現代通信技術的結合
回顧過去幾千年,人類社會的進步很程度上依賴于基礎設施的建設,住房、道路、農田水利、工廠等等都是人類社會發展不可缺少的基礎。如果我們的子孫后代回顧20世紀,他們一定會注意到信息高速公路這一全球基礎設施的興建。
信息高速公路是一種高速多媒體傳輸系統,它能在全球甚至更大的范圍內傳輸聲像圖文化并茂的多媒體信息。由美國首先提出的“信息高速公路”是指數字化大容量興纖通信網絡,用以把政府機構、企業、大學、科研機構和家庭的計算機聯網。一些國家和公司還提出利用衛星架設“空中信息高速公路”的設想。
1993初,美國新總統克林頓上臺后不久就提出興建“信息高速公路”計劃,并授權成立了“信息基礎設施特別小組”,由商務部長羅恩·布朗領導,副總統戈爾、總統經濟顧問委員會主席勞拉·泰森以及一批經濟、法律、技術專家和電信工業界代表組成。特別小組的核心成員每星期都在白宮聚會討論。
美國政府制定“信息高速公路”的政策基于5項原則:其一,鼓勵私人企業增加投資;其二,促進并保護私人企業間的競爭;其三,公眾都有機會獲得服務;其四,避免在信息擁有方面出現“貧富不均”現象;其五,維護技術設計上的靈活性。
半年后日本政府也決定建立全國超高速信息網。1994年2月16日,歐洲委員會宣布將建立自己的“信息高速公路”。新加坡的“信息高速公路”計劃也已完成。這些情況說明,第二次信息革命已拉開序幕。
自40年代中期計算機問世以來,在全世界范圍內興起的第一次信息革命對人類社會產生了空前的影響,信息產業應運而生,人類邁向信息社會。到90年代初期,美國每年應用計算機完成的工作量相當于4000億人一年的工作量。以信息技術為基礎的產業已占發達國家內生產總值的一半以上。在世界各國紛紛提出建信息高速公路之際,全世界擁有4億臺計算機和10億部電話(1994年初),但是,全球范圍內的信息傳遞仍不暢通。美國計劃在10-15年內建成的“信息高速公路”是指數字化大容量光纖通信網絡,用以把政府機構、企業、大學、科研機構和家庭的計算機聯網。用90年代計算機網絡傳輸33卷《大不列顛百科全書》需要13小時,而利用“信息高速公路”將只需4.7秒。
“信息高速公路”掀起的第二次信息革命的特征是網絡化、多媒體化。“信息高速公路”能傳遞數據、圖像、聲音等信息,其服務范圍包括教育、衛生、娛樂、商業、金融和科研等,并將采取雙向交流形式。
在當今經濟競爭中,誰掌握信息并使之轉化為經濟優勢,誰就將取得勝利。著名美國未來學家阿爾文·托夫勒在他的《力量轉移》一書中指出:以信息為基礎創造財富體系的崛起是當代經濟方面最重要的事情,知識已成軍事和經濟中最重要的因素。日本全國科技政策研究所預測,從2011-2020年的10年內,人類知識將比現在增加3-4倍。美國《未來學家》1994年1-2月號載文指出,到2110年,信息技術應用范圍將涉及到90%的勞動力,大大促進經濟的發展,改變人們的生活和工作方式。
但是,第二次信息革命也有可能擴大南北差距,發展中國家因信息技術、資金和人才不足而更加處于不利地位,因此應高度重視第二次信息革命,加緊培養人才,爭取迎頭趕上;發達國家應實行優惠政策,幫助發展中國家迎接第二次信息革命的到來。
在信息革命時代信息的作用有質的變化
世界管理思想大師彼德·德魯克,在他最新出版的著作——《21世紀的管理挑戰》一書中指出,現在我們正經歷著一場信息革命。這不是在技術上,機器設備上,軟件上或速度上的一場革命,而是一場“概念”上的革命。以往50年信息技術集中在數據上——收集、儲存、傳輸和打印數據,其重點放在“技術”上,而新的信息革命則把重點放在“信息”上。
過去對企業有用的數據主要是用來計算成本的,會計制度就是為提供成本信息和對成本加以控制而設立的。但現在企業要取得成功所依據的是要著眼于所創造的價值與財富,這就需要進行帶有風險的決策:依靠經營理念、經營戰略、放棄舊的進行創新、達到短期利潤與奪取市場份額之間的平衡等等。這類戰略決策是企業高層領導所真正需要的。但傳統的會計制度所提供的數據完全無法提供這些。因此,現在對信息技術的要求已不是得到更多的數據、技術、速度。現在需要的是對信息的新的概念,其中一個新的領域,而且是最重要的領域就是怎樣去組織企業外部的信息,這些信息都是互不相關并由不同的來源提供的,但它們有兩點是共同的,即它們提供的是信息而不是數據,它們是高層領導為作出高層決策所需要的信息。
企業的根本目標是創造財富,為了創造財富,企業需要四種信息:基礎信息、生產力信息、素質信息以及資源配置信息。但這些信息只告訴我們企業的現狀,它用以指導“策略”。至于“戰略”所需要的信息則應包括:市場、顧客與非顧客、本行業和其它行業的技術、世界金融,以及變化中的國際經濟秩序等等。
信息不只是一種知識,它能夠導向采取正確的行動。生產數據的人一般并不知道用戶需要什么樣的數據使之變為信息。只有個別的知識工作者,特別是個別的企業領導人才會把數據轉變為信息,并把這些信息組織起來采取有效的行動。
信息革命十大趨勢
前不久落下帷幕的‘99《財富》全球論壇年會’留給我們的不僅僅是這些影響世界跨國公司對中國的有形投資,更重要的是從他們的言語與言論中流露出的對未來世界的描繪,從他們智力與智力的較量所折射出的各自成功歷史的光環,在我們的面前展現出當今世界信息技術革命初現端倪的十大趨勢。
趨勢一:快吃慢。正處于局部大爆發階段,占領局部(特別是美歐市場)市場的領先地位將有利于成為全球市場標準化制定者,成敗的關鍵正從傳統意義上的“大吃小”模式轉化為“快吃慢”。
趨勢二:地變天。由于信息技術本身的跨國界,傳統意義上的地緣經濟、地緣文化、地緣軍事、地緣政治正在讓位于現代意義上的網絡經濟、網絡文化、網絡軍事、網絡政治……
趨勢三:西融東。由于信息技術革命將使世界的財富在三維空間再一次進行劃分,作為技術革命發源地的西半球經濟圈對乍暖還寒的東半球經濟圈滲透愈演愈烈,與此同時東半球國家借助信息革命升級換代自身產業 結構,以擺脫下個世紀被淪為新一輪全球網絡圈地戰的“殖民地”,對西方先進技術也在無奈中積極引進著。
趨勢四:聰變傻。由于信息技術革命已從單一信息技術產業擴張為跨產業的革命,越來越多的聰明人,不斷推出傻瓜版的信息技術產品,以面向成百上千倍于技術用戶的普通百姓。
趨勢五:窄拓寬。以信息技術革命引發的電子商務革命,為全球信息基礎設施走向終端用戶的傳輸通路提出了巨大的市場需求,無論是在電信基礎層,還是接入服務層,還是商務應用層,帶寬越拓越寬已成競爭與制 勝的重要因素。
趨勢六:分讓直。由于信息技術革命可以將廠商與最終用戶在任何時間、任何地點連接起來。傳統意義上的分銷代理制正在受到直銷交互制沖擊。
趨勢七:老讓少。由于創新是信息技術革命的靈魂,那些成于過去也終將歸于過去的老資格企業、老朽思想的企業家將讓位于致力革新,充滿生氣的新企業和少年英雄(美國1999年40位最富有的年輕人中有百分之九十五以上來自信息技術,而他們當中最“窮”的已有2 億美元之多)。
趨勢八:收即開。當全球信息技術革命潮流向中國等發展中國家傳播時,既要妥善處理好技術領先國與技術接受國之間平等與不平等關系,又要處理好東西政治體制不同,南北貧富差距加大的現實關系,穩健的信息 技術政策對發展中國家十分重要,先制定規則(收)再進行開放可能是明智之舉。
趨勢九:高喝低。由于這場信息技術革命使得東西方政治與軍事沖突出現有利于西方的不均衡,南北方經濟與利益摩擦差距拉大,全球產業將再次劃分結構,高技術含量的剝削低技術含量的,一場沒有硝煙的戰爭正 在掀起。
趨勢十:技變貿。信息技術革命從軍事到科研, 從教育到商貿,2003年全球電子商務僅企業與企業之間的貿易額將超過1萬億美元。 以信息技術革命為誘因,以全球電子貿易為形式,以爭奪新世紀全球財富的制高點 為實質的新世紀“制網權”戰爭已經開始。