在去IOE的時(shí)代,一起聊聊 貌似有些不明智。在各種“免費(fèi)”,“開(kāi)源”,"Scale Out",“大數(shù)據(jù)”等喧囂中,走進(jìn)另類(lèi)一種技術(shù)創(chuàng)新的世界,回溯一下過(guò)去10多年的互聯(lián)網(wǎng)經(jīng)歷,還是有些點(diǎn)滴的感悟。
是一個(gè)偉大的公司,它能把很多企業(yè)服務(wù)產(chǎn)業(yè)格局想透we7 初始化oracle數(shù)據(jù)環(huán)境,并且鯊魚(yú)般的執(zhí)行起來(lái),每次巨額吞都會(huì)有整合陣痛后的歡愉,包括,, Sun等等。不管技術(shù)發(fā)展成這樣,有3個(gè)方面是企業(yè)軟件永遠(yuǎn)需要的: 更快,更好用,性?xún)r(jià)比更高; 就是這么一個(gè)戰(zhàn)略性的產(chǎn)品。
剛剛得知HPE把非核心的獨(dú)立軟件部門(mén)和Micro Focus合并成新公司,估值88億美元,HPE占股50%,其中就包括大數(shù)據(jù)分析軟件。職業(yè)經(jīng)理人真的會(huì)讓公司缺少信仰和執(zhí)行力,總是學(xué)著跳舞的大象,“靈巧”躲避市場(chǎng)的風(fēng)險(xiǎn)。
為什么今天聊這個(gè)話(huà)題,這也是我自己對(duì)于"Scale out "(谷歌的魔咒)和“開(kāi)源”一些反思。多年以來(lái),我也一直相信使用大量便宜的硬件,搭建一套牛逼的高性能分布式軟件系統(tǒng)是一種美德和必然。 。現(xiàn)在,回顧這個(gè)問(wèn)題,自己才真正想清楚:解決業(yè)務(wù)的問(wèn)題是王道,不管是Scale out 還是Scale Up,不管是 還是 。
舉一個(gè)Scale up例子,的流量世界排名第56(Alexa排名),相當(dāng)于搜狐(76名)和京東(64名),但這家公司只使用了24臺(tái)機(jī)器,包括4臺(tái)內(nèi)存768G的數(shù)據(jù)庫(kù)服務(wù)器,技術(shù)有部分使用老舊的.NET,“夠用就好”是他們CTO給出的答案。
過(guò)去多年,我從事互聯(lián)網(wǎng)搜索引擎的研發(fā)項(xiàng)目,其中Index Serve需要將全部網(wǎng)頁(yè)的索引都裝進(jìn)去,需要大量機(jī)器資源,特別是內(nèi)存資源。那時(shí)候,經(jīng)過(guò)各種成本權(quán)衡之后,購(gòu)買(mǎi)高配置的硬件往往能夠節(jié)省整體費(fèi)用: 高配置硬件內(nèi)存更大,性能更好,需要更少的機(jī)器,更少的電費(fèi)(電費(fèi)是數(shù)據(jù)中心重要成本)。而且,每隔幾年,就要更新一遍這些高端的機(jī)器,因?yàn)樾聶C(jī)器的配置更高,效率更高,更加省電。長(zhǎng)期使用高端配置和利用最新硬件創(chuàng)新,卻成為一個(gè)重要成本節(jié)省的方法,說(shuō)起來(lái)這很有趣,確實(shí)一個(gè)可計(jì)算推演的事實(shí)。搜索引擎的系統(tǒng)開(kāi)發(fā)難度,就是需要對(duì)最新軟硬件的融合開(kāi)發(fā)。
更新的硬件(網(wǎng)絡(luò),CPU,存儲(chǔ),顯卡,虛擬化等)=》適配的系統(tǒng)和軟件
另外一個(gè)隨想,是關(guān)于的效率;經(jīng)常使用 MR/Hive的同學(xué),應(yīng)該都有過(guò)經(jīng)歷:一個(gè)簡(jiǎn)單查詢(xún),有時(shí)候M/R執(zhí)行起來(lái),執(zhí)行慢的要命,這是一種“不必要的痛苦和可笑的低效成本”。有時(shí)候恨不得把所有數(shù)據(jù)拷貝出來(lái),自己寫(xiě)一個(gè)Java程序搞定的。這有時(shí)候,往往會(huì)想起數(shù)據(jù)庫(kù)的高效率,每個(gè)SQL都能是可期待的執(zhí)行時(shí)間。與其在海量低熵值的數(shù)據(jù)中找豆子,不如把關(guān)心的數(shù)據(jù)整理好放到一個(gè)數(shù)據(jù)庫(kù)里,進(jìn)行高效簡(jiǎn)單查詢(xún)。
好了,啰嗦這么多,回到正題,今天學(xué)習(xí)一下“軟硬件一體”的 。它是一個(gè)軟硬件一體的解決方案,把數(shù)據(jù)庫(kù),存儲(chǔ)的軟硬件都一起打包解決了,支持OLTP和數(shù)據(jù)倉(cāng)庫(kù)(Data )的應(yīng)用,它有一個(gè)優(yōu)勢(shì)就是可以自主的使用各種高性能硬件解決各個(gè)模塊間的瓶頸,也可以使用軟件解決效率問(wèn)題。這個(gè)產(chǎn)品線從2008年開(kāi)始,以每12-18個(gè)月升級(jí)一次,今年發(fā)布的叫做X6。
這個(gè)數(shù)據(jù)庫(kù)的定位,實(shí)際上是處理TB級(jí)別的高可靠交易數(shù)據(jù),同時(shí)支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)和分析功能。
(估計(jì)大部分?jǐn)?shù)據(jù)庫(kù),你都熟悉。故意放了一個(gè)“",你未必知道,這是俄羅斯互聯(lián)網(wǎng)巨擘剛剛開(kāi)源的分析數(shù)據(jù),兇猛無(wú)比,有興趣可以看看相關(guān)介紹文章we7 初始化oracle數(shù)據(jù)環(huán)境,大部分是俄文的 :) )
1.硬件外觀
既然是硬件,先看看顏值, 的外觀一看就是Sun的作品,工程師范十足,沒(méi)全沒(méi)有藝術(shù)元素,標(biāo)標(biāo)準(zhǔn)準(zhǔn)老老實(shí)實(shí)的Rack,兼容行業(yè)標(biāo)準(zhǔn)的。對(duì)比IBM的 Z13,IBM的工業(yè)設(shè)計(jì)還是完勝啊,當(dāng)然價(jià)格要比要高一些。
2.整體架構(gòu)
整體架構(gòu)如下,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理,分別有數(shù)據(jù)存儲(chǔ)服務(wù)(軟件+硬件),數(shù)據(jù)庫(kù)服務(wù)(軟件+硬件),之間由高速網(wǎng)絡(luò)(連接。
下圖是一些組件詳圖,藍(lán)色為硬件部分,紅色為軟件部分;
DBRM( Mgn): 數(shù)據(jù)庫(kù)資源管理
ASM( Mgn):自動(dòng)存儲(chǔ)管理,用于管理;
OEL( Linux):定制的Linux
:用于管理存儲(chǔ)的專(zhuān)用軟件服務(wù)
IORM(I/O ):I/O資源管理
3.硬件創(chuàng)新
a)網(wǎng)絡(luò)
并非通用的網(wǎng)絡(luò)協(xié)議,而是專(zhuān)門(mén)用于服務(wù)器之間通信的底層數(shù)據(jù)通信協(xié)議,它有兩個(gè)特點(diǎn):貴且快(菊與刀)。最新的 采用最新的,速度可以達(dá)到40Gb/s。雖然,現(xiàn)在有很多千兆以太網(wǎng)協(xié)議,有些網(wǎng)卡甚至支持10Gb/s或更高,但是在服務(wù)器之間的數(shù)據(jù)傳輸場(chǎng)景下,有絕對(duì)的優(yōu)勢(shì)。有些公司也在嘗試使用在集群中,但是貌似兩種東西的氣質(zhì)不符,很難融合在一起。另外一個(gè)特點(diǎn)是稀貴,這個(gè)很好理解,一個(gè)網(wǎng)線200元(是美金),一個(gè)交換機(jī)也要上萬(wàn)元(也是美金)。
用于中,數(shù)據(jù)庫(kù)服務(wù)器和存儲(chǔ)服務(wù)器(也包括CPU處理能力)之間的通信,是非常成功的一個(gè)應(yīng)用 。
b) 高性能閃存卡
使用了 Flash F320 PCIe Card(越來(lái)越硬了),這個(gè)閃存加速卡使用PCIe接口,采用3D V-Nand技術(shù),這是三星公司SSD的獨(dú)門(mén)絕技,閃存單元更加高密度,容量更大。這個(gè)加速卡單卡容量為3.2T,一個(gè)Rack最多8個(gè)閃存加速卡,容量能到25.6T。
4.軟件創(chuàng)新
a) Smart Scan(智能掃描)
這是一個(gè) Sense的創(chuàng)新,在的架構(gòu)下,數(shù)據(jù)獲取主要在存儲(chǔ)服務(wù)上,復(fù)雜計(jì)算(例如Join)主要在數(shù)據(jù)庫(kù)服務(wù)器,因此每次查詢(xún),存儲(chǔ)服務(wù)器需要準(zhǔn)備好相關(guān)的數(shù)據(jù),通過(guò)高速網(wǎng)絡(luò)傳給數(shù)據(jù)庫(kù)服務(wù)器。所謂Smart Scan,就是在掃描數(shù)據(jù)的時(shí)候,只返回相關(guān)的數(shù)據(jù),滿(mǎn)足Where條件的數(shù)據(jù)。這樣可以減少數(shù)據(jù)傳輸量,并且加快速度。
b) (混合列式壓縮)
這個(gè)一個(gè)非常有意思的技術(shù),數(shù)據(jù)庫(kù)既提供經(jīng)典的行式數(shù)據(jù)存儲(chǔ),支持OLTP,也支持高壓縮比的列式存儲(chǔ),支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的各種分析場(chǎng)景。它還提供一些靈活的功能,把舊的行式數(shù)據(jù)轉(zhuǎn)換成壓縮比高的列式數(shù)據(jù)。壓縮算法支持LZO,ZLIB,BZIP2等。列式數(shù)據(jù)庫(kù)之所以可以高效壓縮,由于每個(gè)所有類(lèi)似的數(shù)據(jù)都放在一起,很容易做一些字典編碼,行程編碼等。
為了提高數(shù)據(jù)查詢(xún)的效率, Flash Cache提供將查詢(xún)獲得的行數(shù)據(jù),動(dòng)態(tài)轉(zhuǎn)換成列數(shù)據(jù),放在Flash中,方便后面的數(shù)據(jù)分析工作。前面提到的Smart Scan也可以根據(jù)Flash列式數(shù)據(jù)獲得相關(guān)最小數(shù)據(jù)集合。
c)存儲(chǔ)索引
這個(gè)技術(shù)看起來(lái)像一個(gè)小trick,系統(tǒng)會(huì)對(duì)一些列的每個(gè)區(qū)記錄最大和最小值,如果查詢(xún)語(yǔ)句在Where中有制定范圍時(shí),可以快速獲取數(shù)據(jù)或者skip數(shù)據(jù)。這個(gè)內(nèi)部索引對(duì)于用戶(hù)是完全透明的,無(wú)需任何操作,就可以利用這個(gè)技術(shù)提高范圍查詢(xún)的性能。這個(gè)技術(shù)就是為一些列做一些粗粒度的簡(jiǎn)單索引。
d) 云服務(wù)
可以讓處理所有的部署問(wèn)題,動(dòng)態(tài)的增減資源,按照預(yù)定的資源付費(fèi),起步配置為,2個(gè)數(shù)據(jù)庫(kù)服務(wù),3個(gè)存儲(chǔ)單元。有興趣可以看看.
結(jié)束語(yǔ):
最后,看了這么多,一直沒(méi)有涉及到一個(gè)關(guān)鍵問(wèn)題,它的答案直接會(huì)影響閱讀的心情,這個(gè)玩意多少錢(qián)? 我沒(méi)有花太多時(shí)間了解的詳細(xì)定價(jià),大概的價(jià)格范圍是1百萬(wàn)之間/Rack,(對(duì),價(jià)格也美元)。其實(shí),對(duì)于一些銀行/電信業(yè)務(wù),的客戶(hù)還是蠻多,也是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)不錯(cuò)的選擇。
雖然已經(jīng)6X版本了,銷(xiāo)量還是比寶馬6X少很多,美國(guó)的國(guó)際化客戶(hù)不少,中國(guó)的一號(hào)店,工商銀行,招商證券等也都開(kāi)始使用這種軟硬件一體的創(chuàng)新,也有更多的客戶(hù)開(kāi)始使用 Cloud了。
我的精選文檔:
彪悍開(kāi)源的分析數(shù)據(jù)庫(kù)-
當(dāng)我們談大數(shù)據(jù)分析的時(shí)候,我們?cè)谡勈裁矗?/p>
史上最嚴(yán)的隱私條例出臺(tái),2018年開(kāi)始執(zhí)行
谷歌推出 360套件:為廣告主而生的數(shù)據(jù)服務(wù)
大數(shù)據(jù)的8個(gè)小觀點(diǎn)
全球流量第56位的網(wǎng)站,什么架構(gòu)讓它只有23臺(tái)服務(wù)器?
一切事物真的都可以數(shù)據(jù)化度量么?
作者簡(jiǎn)介:
歐陽(yáng)辰,互聯(lián)網(wǎng)廣告技術(shù)老兵,小米MIUI架構(gòu)師/主管,負(fù)責(zé)廣告平臺(tái)架構(gòu)和數(shù)據(jù)分析平臺(tái),曾負(fù)責(zé)微軟移動(dòng) Ads廣告平臺(tái),參與Bing搜索引擎的核心模塊研發(fā),有空也會(huì)在個(gè)人微信公眾號(hào)“互聯(lián)居”中,分享一些互聯(lián)網(wǎng)技術(shù)心得,訂閱“互聯(lián)居”公眾號(hào),與作者直接交流。
友情鏈接: 餐飲加盟
地址:北京市海淀區(qū) 電話(huà):010- 郵箱:@126.com
備案號(hào):冀ICP備2024067069號(hào)-3 北京科技有限公司版權(quán)所有