嘉賓介紹:
王帥: 極海 高級數據工程師
編輯推薦:
地圖大數據的可視化受到了越來越多的重視。作為地理大數據應用的最后一步,地理空間的可視化,不僅僅是為了好看,還是為了將空間分布上的規律更加直觀的展示出來,同時挖掘更加深層次的信息。
地理大數據的可視化有多少種類型?今天的文章會一一告訴你。
正文
1831年,霍亂第一次傳播到英國,出現上萬人死亡。當時的醫生約翰·斯諾就在地圖上用黑杠標注死亡的案例。最終發現,死亡的病例,大多數圍繞在這個公共的水井旁,也就是地圖中紅點的位置。這張地圖為當時政府揭示了霍亂的來源。
地理空間的可視化,不僅僅是為了好看,而是為了將一些空間分布上的規律更加直觀地展示,挖掘出更深層次的信息。
2、在線地圖的秘密,一片兩片三四片
瓦片地圖其實就是互聯網地圖后臺的工作原理,將一整張地圖切成一塊塊小的地圖,就像屋頂上的瓦片。我們在查看的時候就是一級一級的、像金字塔一樣去縮放。
下面這幅圖片就是縮放流程,“4”是代表他的級別;“55” 是代表它的行號,然后“23”是代表它的列號。將這樣一個一個256×256的小圖片存在這樣一個位置里面。
這是一張谷歌地圖,如果打開瀏覽器的開發者模式可以看到,谷歌地圖具體的渲染方法就是最基本的點線面的渲染。里面的圖片都是一張張的圖片,然后每張圖片會根據不同的地物,渲染不同的顏色或者形狀。像“面”可能就渲染成有一種顏色,“線”就渲染成黑色,“點”就由不同的樣式去填充信息。
3、九種地理數據可視化,只能幫你到這了
接下來我們來對每一種可視化的方法一一進行講解。
1)單值圖
單值圖比較簡單,就是將一種數據統一渲染成同樣顏色、形狀或者大小。比如說左面這個是全國肯德基店鋪的分布,右面這個是全球機場航線以及機場位置的數據。其中航線是用白色進行渲染,機場的位置是用綠色進行渲染。這種可視化比較簡單、直觀,能看出一些位置在空間上的分布的信息。
2)類別圖
類別圖,顧名思義就是根據不同的類別進行不同顏色的渲染或者一些根據不同的形狀、大小的進行的渲染。像下圖左上角這個圖,Tom、Dick和Harry就是根據不同的屬性,渲染成不同的顏色。
我們再來看看左下角這幅紐約的聲音地圖,其實這幅地圖是將不同的街道主要的聲音賦給不同的顏色,也就是不同的類別。與上面的可視化方法一樣,只不過是對線條進行渲染,其他原理上都是一樣的。通過圖例可以看到,主要就是交通、自然、人聲和音樂幾種聲音。
中央公園那個區域,明顯都是綠色,也就是自然的聲音。大橋與陸地的連接處,多數以交通的聲音為主。這樣一幅可視化的結果非常漂亮,就是用了可視化的方法中的類別圖。
然后右面這幅圖,是根據不同的村莊的尾字進行渲染的,比如說河西村就是以“村”結尾,南辛莊就是以“莊”結尾。那這個圖就是大家可以看出來。每個村莊的名字都會被渲染成不同的顏色。其實,這個就是整個分類圖的一個大致的思想。
3)漸進圖
漸進圖也可以稱作數量圖,就是根據一個字段的數字賦予不同的顏色,比如說大于零的賦予一個顏色,大于一百二十八的賦予一個顏色,不同的間隔賦予不同的顏色。
怎么確定間隔?常用的四種方法是:
等間隔,根據數據的總體的分布,比如說地圖數據可視化有哪幾種方法,你的數據范圍是零到一百,那么要分成五段。那么零到二十就是設置成一個顏色,二十到四十設置一個顏色,以此類推。
等數量,如果數據有一百個,那么前二十個設置成一個顏色,后二十個設置成一個顏色,再后這又設置成一個顏色。
自然分段,是保證各個類別內部的方差最小,類別與類別之間的方差越大越好。
標準偏差,指偏離數據的標準差多少個,比如說偏離一個、兩個、三個,一段一段地賦予不同的顏色。
類別圖和漸進圖,有類似的地方。如果數據是數值型的,且數據跨度非常大,比如從1到10000,而且里面有小數,那么就盡量用漸進圖;如果數據量都是一些字符型的分類,那么可以考慮用分類圖。
這個圖是2010年鄉鎮級別尺度的全國人口普查密度,用的是自然分段法。可以明顯看到北京、珠三角、長三角、四川上盆地以及河南等地方的人口密度非常的大。
右邊是“條條大路通羅馬”漸進圖,右面是我根據左面這個復現了一個“條條大路通北京”。
其實制作方法也比較簡單,就是在全陸地上平均地撒上一個點,然后去求你這個撒的點的起點到終點的最短路徑。然后經過的路段越多,那么它的數量就越多,這樣累計起來你每一段路,經過了多少個起點,有多少個起點經過就會有一個數字。
求出每條道路經過的起點數量之后,我們就可以根據上面講到的幾種分類方法。比如,自然分段還是等間隔、等數量對它渲染不同的粗細。
4)氣泡圖
氣泡圖,根據每一個屬性,以及值的大小,數值越大,那么氣泡圓圈越大,這幅圖是每個省份的GDP的一個氣泡圖,廣州、江蘇以及山東的氣泡會大一些。
5)混合圖
混合圖也叫 mode,最出名的當屬這幅的地圖。這是在2011年發布的全球用戶關系圖。
這個與我們前面講到的單值圖(飛機航線)不同在于,雖然渲染的顏色是藍色的,但是在美國歐洲這些用戶非常多的地方,顏色是非常亮的。
怎么做出這種高亮的效果? 其實就是一個疊加的作用,可以看到右面列了幾個公式,一個是,就是你輸的兩條線或者兩個點,然后誰在前面,誰在上面就呈現出誰的顏色,就像剛才那個飛機航線圖。那么要想做到這種高亮的效果,那就是可以用一個或者去做一個運算操作。就說比如說這個,a和b乘起來做一個輸出,在對其進行渲染,那么這部分就會高亮很多。
上面這幅圖就是村莊尾字圖,這個是以村結尾的圖也是用了的效果。然后可以看到在東部沿岸會有一些發白的地方,就說明的村莊分布非常的多。
6)熱力圖
熱力圖,左邊的這個圖是全國肯德基的分布,右面這個是用熱力圖渲染的效果。其實大家可以明顯的看出來越聚集的地方,那么熱力圖就顯得越亮。然后,點越少的或者越稀疏的地方,聚集的程度也就說顏色,可以設成綠色。
熱力圖最大的一個作用是可以突出一個點聚集的程度,點聚集得越多,那么熱力就高。點聚集地越少,那這地方熱力就越低。
7)聚合圖
聚合圖,左面的其實就是一個點,然后右面聚合之后的結果。聚合的方式有多種多樣,可以是像圖中所示的正六邊形,也可以做正方形的聚合。
在聚合之后,我們就可以對它就里面的數量運用剛才的漸進圖對它進行渲染不同的顏色。
例如下面這兩幅圖,左面是科比的命中率投籃統計,然后右面是庫里的投籃統計。六邊形的大小代表投籃的次數。顏色越紅代表命中率越高,可以看到科比在中距離出手次數要比庫里多,然后庫里在三分線外出手次數以及命中率都是非常的高的。
8)時態圖
時態圖有兩種呈現方式,一種是不將前一禎的數據抹掉,然后下一禎數據繼續往上放。
這是第二種大數據可視化的方法就是將前一禎的數據慢慢隱藏,然后下一禎數據出現,這樣就會出現一個尾巴的效果。
9)邊捆綁
捆綁圖。左面是美國的一個人口遷徙圖。然后比如說從一開始洛杉磯到紐約就只有一條直線,這樣看起來會錯綜復雜,那么我們需要加這個線進行捆綁,就會出現右面這六種不同的捆綁效果。
那具體的捆綁方法可以把兩條線想象成兩個星球。星球與星球之具有引力,離得越近的兩條線,它們的引力越大,那么就會慢慢的將所有的線聚集在一起,就會形成像右面這種各式各樣的效果。
4、常用的可視化工具有哪些?
可視化工具主要分成三種:一種是桌面工具,比如QGIS,第二種是在線的線上工具,可以在瀏覽器里直接操作,比如極海的平臺,再有就是前端工具,需要寫代碼,比如 D3、。
右面這個 GS的列表,是我在上建的一個倉庫,涉及的很多常用的技術軟件以及工具,包括一些新聞以及優秀的可視化站點。
5、地球投影是怎么回事?
地球是個球形,但平時看到的地圖都是二維平面,那么這個怎么來的呢?從視頻中直觀的看,就是把地球拋開,然后拋成一瓣一瓣的,再將兩端拉升,最后縫合起來,就成為我們平時看到這種地圖。這種投影方式叫做墨卡托投影。大家平時用的百度、以及高德都是采用這種方式。
越往北的地方,越往兩極的地方,圓圈越大代表他的形變越大,可以看到這個人的頭像也會出現很大的形變。然后在赤道上面他的圓圈就是小,說明形變最小。
左面這張圖片是中國大陸拖到俄羅斯的位置上,可以看到我國的邊界發生了一個比較大的形變,然后板塊面積也變得非常的大。就是投影變形。右面這個圖就是將美國、印度以及我國放到非洲這個尺度下的一個效果,可以看到這三個國家大概就相當于非洲的一個面積。
6、問答環節:
Q:地理數據的輸入一般是哪種格式的文件?
A:地理數據輸入的文件格式最常用的是、、kml等。這些格式的文件都會保存地理信息以及它們的投影相關的信息,像QGIS、在這些軟件里面都可以很方便的讀取這些數據。
Q:請問您平時做數據化都用哪些工具?
A: QGIS和極海的可視化平臺,QGIS是屬于功能更加豐富。但是需要更多的專業知識水平。上手起來,也可能會比較難。極海的平臺是網頁版地圖數據可視化有哪幾種方法,只要一個賬號就可以使用,也不需要你安裝,使用起來比較簡潔方便。
Q:時態軌跡數據一次性獲取后展示?還是動態獲取?
A:時態數據。我剛才發的例子是一個先獲取之后再進行展示的,當然你也可以實時的接入這個數據流,比如說阿里在雙十一做的全球交易的一個動態效果就是實時獲取和實時接入。
Q:在合理的范圍內,請比較一下QGIS、。
A: QGIS是因為它是開源的,目前我用它主要是做數據處理和可視化。相對于來說,QGIS他的分析功能比較弱。有一堆的工具包可以用,它的分析功能空間分析功能要比QGIS要好很多。如果你是一般使用的話,那推薦你是用QGIS,畢竟是開源免費的。
Q:D3在做可視化視頻的時候有什么優缺點?
A:D3做可視化,因為它是一個覆蓋很全很廣的工具,然后在地圖這方面,可畫的內容會偏少一些。然后在數據量升到一定級別的時候,可能會出現卡頓現象。
你可能還喜歡:
數據可視化入門攻略 | 鏑次元沙龍分享系列你真的知道何謂“數據新聞”?|鏑次元沙龍分享系列
關于鏑次元沙龍:
說到國內的數據新聞社群,武漢大學的鏑次元數據傳媒實驗室(ID:dyclub-org)可謂先鋒者。鏑次元以數據新聞為核心,建立起融數據挖掘、數據分析、數據可視化、數據敘事等內容于一體的交流互動平臺,每兩周舉辦一期線上沙龍,分享前沿經驗和干貨資源。