這是一門實踐的課程。
1、做語義分析需要編程能力,谷歌搜索即可
2、大數據需要非常了解關系型數據庫和非關系型數據庫,以方便從數據庫中提取數據
3、數據分析師分數據分析和數據挖掘,前者偏業務,后者偏算法。
4、R語言的面試可以網上搜
5、數據結構經典入門書,清華大學嚴蔚敏《數據結構》
6、入門自學到什么程度可以找到一份工作?跟著課程和《R語言實戰》學習,跟著敲代碼,同時以專欄記錄學習進程。
正式上課
一、R語言和的比較
1、中國數據分析師的年薪在20-40萬,美國數據分析師年薪60-80萬
2、招聘要求上一般是要兩種語言都要會
3、R使用最多,天然的統計分析和繪圖語言
二、數據結構是什么
類比蓋房子
1、房子設計 ——架構師(搞清楚用戶需求)
2、蓋房子的區域——R環境
3、準備材料——數據結構(放數據的一個容器)
4、組合材料——算法(分析和展示)
蓋房子=材料+整合材料
程序=數據結構+算法
三、的使用
R是運行環境(R是地基)
是開發工具(為了方便開發而產生的)
四、數據結構
1、常用數據結構:向量、矩陣、數組、數據框、列表、因子(暫不介紹)
2、如何定義一個數據結構
3、如何使用一個數據結構
4、向量:相同數據類型的容器(數值或字符串數據結構基礎教程,必須一致)
向量的長度:()
訪問向量中的某個元素:name[1]
5、矩陣:(,nrow=2,ncol=2,byrow=,=list(,))
如何訪問矩陣中的元素:a[1,] ,a[,1],a[1,1]
6、數組:多維度
array(,數組中的元素
,各維度元素個數
);各維度名稱
7、數據框
定義:
查找:age1
計算個數:
選出部分:
type1
新增加行:
新增加列:
8、列表:集合各個數據結構
list(name1=,name2=,name3=,…)
獲取某個數據框:
五、實踐
練習:將excel數據導入到R中,并選取其中的內容
1、導入
我先按照書中載入xlsx包的方法走了一遍,后來又自己搜索了幾種方法,最簡單的是直接用File, ,From Excel,窗口選擇文件即可,這種太簡單,后續就不說了。
1.1 書本方法
書中的方法是安裝xlsx包,但由于xlsx是依賴于和RJava包存在的,因此三個包都要安裝并載入。
首先,安裝xlsx包,.("xlsx");
成功之后,載入,系統提示載入需要的程輯包:rJava 載入需要的程輯包:
.("") .("Java") 系統提示下載錯誤,然后去Java官網下載,下載成功了之后,依次載入和Java數據結構基礎教程,再載入xlsx就成功了。
> (rJava)
> ()
> (xlsx)
>
>
>
這一串代碼之后,excel中的內容導入進來了,但是出現的全是亂碼,如下圖
谷歌之后發現是會有這樣的情況出現,屬于bug,我沒有發現很好的解決方法。于是,這種方法導入數據是可以的,但是在我電腦上沒有多大作用,后期數據基本無法使用,遂尋找其他的導入方法。
后來,易成凡同學出手相助,給出了一個解決中文亂碼問題的方法:在括號內加入='UTF-8',完美解決了問題。
如上圖,亂碼問題就不見啦。再次感謝易成凡同學!
1.2 使用粘貼板導入
首先,先復制excel中想要導入的內容,
然后,在中敲入如下代碼
read.table("clipboard",header=T)
如上圖,完美呈現,而且非常方便,想選哪里選哪里。
1.3 安裝 “"包
這種方法也是我喜歡的,可以跨平臺、無依賴的讀取xls,xlsx中的表格數據。
> .("")
> ()
> ("data")
如上圖,也導入了excel的結果。但要注意data所在的位置必須是工作目錄,如果不是就用setwd進行修改。
2、使用表格中的內容
如果要使用表格中的內容,上述介紹的后兩種方法就直接定義成數據框,然后再在數據框中選擇。如下圖所示,兩種方法定義了和兩個數據框。
然后,以為例進行操作,選擇age列,選擇部分列,顯示行數
在選取具有某些特征的數據時發現一個很容易忽略的錯誤,一個逗號。比如,選擇患有1型糖尿病的病人。
正確代碼應該是:
但我第一次不小心少些了最后一個逗號,于是結果就變成了:
對照了半天才發現其中的差距,R語言果然是實踐的課程。