华企号 后端开发 R语言练习笔记

R语言练习笔记

R语言基础

初始调整

  • Tools → Global Options → Appearance调整输入字体版式
  • Code → Saving改UTF-8
  • Packages 改下载地址至中国

R包的安装&卸载

  • 方法一:Packages → install键入
    勾选install dependencies一并加载关联包
  • 方法二:使用代码
    install.packages('ggplot2') #注意加英文引号
    Tab键可直接调出其它参数
  • 方法三:从Github中下载包
    先下载devtools包 → 再加载library(devtools) → install_github(‘lijian13/rinds’)
  • .libPaths() 可显示电脑中R包的位置
  • 卸载包:①点Package界面中×直接卸载。②remove.packages()卸载包

向量

  • 赋值符号<-
x <- 1  #给x赋值1
z <- 1:5 #给z赋值1 2 3 4 5
a <- c(1,2,4,3,5) #给a赋值向量(1 2 4 3 5)
identical(a,z) #判断a和c是否完全一致(虽元素一致但方向不一致)
  • 提取和增删
a[3] #在a中提取第三个的元素
vector1 <- 1:10
vector1[1:4] #输出vector1中前四个元素
vector1[6:10] #输出vector1中后五个元素
vector1[-c(2,5,8)] #去掉第2,5,8个元素

c函数(combine)是常用的向量生成函数

  • 加减运算
x <- 1:5
y <- 6:10
x+y #元素两两相加
x <- 1
x+y #y每个元素加1

数值型向量

  • 生成一个数值型向量
vector1 <- c(1:3,6:10)
x <- 1
class(x) #判断x类别 "numeric"代表数值型
is.integer(x) #判断x是否是整型 不是整型 

注意:与Python等语言不同,R语言中数字就是数值型,而不是整型或浮点型

y <- 1:3
class(y) #而加了冒号之后的y就是整型了
  • seq函数
seq(from = 1, to = 5, by = 0.5) #生成从1到5步长为0.5的向量
seq(from = 5, to = 1, by = -0.5) #生成从5到1步长为-0.5的向量
seq(1,6,length.out = 3)
seq(1,6,len = 3) #生成1到6分成三份
seq(1,5,along.with = 1:3)
  • rep函数
rep(c(1:3),times = 5) #1:3重复5次
rep(c(1:3),each = 5) #每个元素重复5次
rep(c(1,3),len = 9) #生成向量长度为9
  • length函数
x <- rep(1:2,times = 4)
length(x) #生成向量x的长度

逻辑型向量

  • 生成一个逻辑性向量
logit <- rep(c(TRUE,FALSE), len = 5)
logit #生成一组长度为5的逻辑向量
sum(logit) #逻辑型向量可加减TRUE=1,FALSE=0
  • 逻辑表达式的运用
logit1 <- c(100>99, 100>101)
logit1
class(logit1)

注意:逻辑判断符号为 ==(R中不用 =,而是 == 双等号)

logit2 <- (c(100!=1)) #!= 代表不等于
logit2
c(100>90 & 100>110) #&代表且
c(100>90 | 100>110) #|代表或
x <- seq(1,100,length.out = 20) #1到100生成长度20的向量
index <- x > 80 
x[index] #找到x中大于80的向量 #注意[]在接受逻辑型向量时会直接返回TRUE的值
which(x>80) #返回x>80的下标
x[which(x >80)] #返回x>80的下标的值
  • 练习:找到x中大于80、小于90的数
index <- 80<x & x<90
x[index]
x[which(x>80 & x<90)]

字符串向量

  • 生成一个字符串向量
string <- c('abc','def',1,2)
class(string[3])
is.character(string) #判断string向量是否是字符串类型
  • letters用法
letters #a-z 26个小写字母
LETTERS #A-Z 26个大写字母
letters[1:5]
letters[25:28] #返回"y" "z" NA  NA
y <- 1:5
y[6] #返回NA

因子型向量(分类)

  • 生成因子型向量
my_fac <- factor(x = rep(c(1,2),times=5),levels = c(1,2),labels = c('Male','Female'))
class(my_fac)
my_fac1 <- factor(LETTERS[1:5], labels = letters[1:5]) #将大写字母用小写标签
#n表示因子水平个数,k表示每个因子重复次数
my_fac2 <- gl(n=2, k=5, labels = c('Control','Treatment')) 
my_fac3 <- gl(n = 2, k = 1, length = 8, labels = c('Control','Treatment'))
temp_string <- c('A','B','AB','O')
  • 因子转换
my_fac4 <- as.factor(temp_string) #把字符串'A','B','AB','O'转换为因子A AB B O
as.character(my_fac4) #把因子A AB B O转换为字符串'A','B','AB','O'
  • 练习:将x转换为因子和字符串
x <- 1:5
as.factor(x)
as.character(x)
#当不知道有多少因子水平时
nlevels(my_fac4) #返回因子水平数量
levels(my_fac4) #返回所有因子水平
  • 生成参照(哑变量)R语言可以自动生成哑变量
reference
my_fac5 <- relevel(my_fac4, ref = 'B')
#会输出B A AB O,B在第一位说明把B作为参照。不设置时会自动将第一个水平作为参照
x <- c('Placebo','10mg','20mg','50mg')
my_order_fac <- factor(x, ordered = TRUE) # ordered = TRUE认为x已经是有序分类
#这样会输出10mg < 20mg < 50mg < Placebo,而Placebo代表0mg,结果不准确
#①将Placebo写为0mg;②用DescTools函数
library(DescTools)
my_order_fac2 <- reorder.factor(my_order_fac,new.order = x)#代表定义一个新排序

列表

  • 生成列表
my_list <- list(1,2,3,'R','Hello',TRUE,FALSE)
my_list1 <- list(1:10, letters[1:5])
my_list2 <- list(1:10,letters[1:5],list(11:14,LETTERS[1:5]))
  • 提取列表元素
my_list1[[1]] #提取列表中的元素
my_list1[[2]][1] #提取列表中的元素a
my_list2[[3]][[2]][3] #提取列表中的元素C

矩阵

  • 生成矩阵
my_matrix <- matrix(data = 1:6, nrow = 2, byrow = TRUE) 
my_matrix1 <- matrix(data = 1:10, nrow = 5) #生成一个5行共10个元素的矩阵
# byrow = TRUE 表示按行来排列数字,默认状态按列排列数字
my_matrix2 <- matrix(data = 2,nrow = 3,ncol = 4) #生成一个3行4列的矩阵
my_matrix3 <- matrix(data = letters[1:3],nrow = 2,ncol = 4) #2x4=8个元素1:3会警告
  • dimnames给行列命名
my_matrix4 <- matrix(data = 1:12, nrow = 3, ncol = 4, dimnames = list(c('A','B','C'),c('V1','V2','V3','V4')))
  • 转置函数t(x)
t(my_matrix4)
my_matrix5 <- matrix(c(1:5,letters[1:5]),nrow = 2,byrow = TRUE)

数组

  • 生成数组
my_array <- array(data = 1:16,dim = c(2,4,2)) #dim生成两行四列两层的数组
  • dim函数
dim(my_array) #dim可返回数组维度
dim(my_array) <- c(4,2,2) #使用dim函数改变数组维度
  • 分别给数组的行/列/层命名
my_array1 <- array(1:16,dim = c(4,2,2),dimnames = list(c(LETTERS[1:4]),c('col1','col2'),c('first','second')))
my_matrix6 <- matrix(1:8, nrow = 4)
  • 提取矩阵数组的元素
my_matrix6[4,2] #提取元素8,在第4行第2列
my_matrix6[4,] #提取第4行
my_array1[2,2,1] #提取数组1中的元素6[2行,2列,1层]
my_array1[4,,2] #提取数组1第2层中的第4行

注意:提取数据时行、列、层都要按格式和范围写入,缺一或超范围就会报错

数据框(类似Excel)

  • 生成一个数据框
my_df <- data.frame(name = c('Tom','Andy','Marry'),age = c('24','25','26'),height = c('178','176','180'))

注意:变量命名规范 ①数字不能开头。②不可用数字命名。③不可使用运算符命名。

  • 查看数据框
dim(my_df) #看数据框格式
View(my_df) #生成表格看格式
nrow(my_df) #看数据框行数
my_df1 <- data.frame(one = c(1.2,2.3,3.4,4.5,5.4),two = LETTERS[1:5],three = c(TRUE,F,T,F,T))
#每个元素要同行数
str(my_df1) #可查看数据框格式

数据框操作

my_df2 <- data.frame(one = c(1.2,2.3,3.4,4.5,5.4),two = c('Tom','Jerry','Amy','Vickie','Mannie'),three = c(TRUE,F,T,F,T),stringsAsFactors = FALSE)
str(my_df2) #stringsAsFactors = FALSE 将因子型改为字符串格式
my_df2[,-2] #去掉第二列two变量
my_df2$two <- NULL #去除第二列two变量
my_df2$four <- LETTERS[1:5] #新增第四列four变量
  • 修改变量
edit(my_df2) #调出编辑框,但注意,edit是一次性的编辑
my_df3 <- edit(my_df2) #赋值后就会存储修改后的
fix(my_df2) #fix函数是永久性操作
  • 实例:鸢尾花
View(iris) #查看表格格式
head(iris,n = 5) #快速查看前部数据结构
tail(iris,n = 5) #快速查看尾部数据结构
library(psych)
describe(iris) #descibe用来查看描述性统计

重新命名

names(iris)
names(iris) <- c('SL','SW','PL','PW','S') 
head(iris)
#为命名兼容中文,需改UTF-8, windows系统下运行以下函数
Sys.setlocale(locale = 'chinese')
names(iris) <- c('用','中','文','命','名') 
head(iris)
my_df4 <- data.frame(one = c(1.2,2.3,3.4,4.5,5.4),two = c('汤姆','杰瑞','艾米','维奇','曼尼'),three = c(TRUE,F,T,F,T))
my_df5 <- data.frame(four = c(1.2,2.3,3.4,4.5,5.4),five = c('汤姆','杰瑞','艾米','维奇','曼尼'),six = c(TRUE,F,T,F,T))

数据框合并&切分

  • cbind按列合并两数据框(要求两数据框有相同数量观测值)
my_df6 <- cbind(my_df4,my_df5) 
my_df7 <- data.frame(one = c(1.2,2.3,3.4),two = c('汤姆','杰瑞','艾米'),three = c(TRUE,F,T))
  • rbind按行合并两数据框(要求两数据框名字相同)
my_df8 <- rbind(my_df4,my_df7) 
  • merge函数(去重合并)
my_df9 <- data.frame(one = c(1.2,2.3,3.4,4.5,5.4),seven = c('汤姆','杰瑞','艾米','维奇','曼尼'),eight = c(TRUE,F,T,F,T))
my_df10 <- merge(my_df4,my_df9)
  • 数据框的切分
set.seed(2022) #设置种子之后,可得到相同的随机数,自定义个起始值2022
iris_sub <- iris[sample(1:nrow(iris),30),] #抽样范围是1:nrow(iris),随机抽30个
  • 用split函数切分提取
iris_sub1 <- split(iris,f = iris$SL) #根据因子SL进行切分?
setosa <- as.data.frame(iris_sub1[2])
head(setosa) #将setosa提取出来(?)
  • 手术刀精细切分提取
iris_sub2 <- iris[iris$S=='setosa',]
head(iris_sub2)
iris_sub3 <- iris[iris$S=='setosa'&iris$SL>4.5,]#S中带setosa行,并且SL中大于4.5
head(iris_sub3)
range(iris_sub3$SL)#输出SL列的极值
iris_sub4 <- iris[iris$S=='setosa'&iris$SL>4.5,1:2]#只要第1、2列
  • 用subset函数切分提取
iris_sub5 <- subset(iris,iris$S=='setosa'&iris$SL>4.5,select = 1:2)
identical(iris_sub4,iris_sub5) #4和5完全一致

作者: 华企网通王鹏程序员

我是程序员王鹏,热爱互联网软件开发和设计,专注于大数据、数据分析、数据库、php、java、python、scala、k8s、docker等知识总结。 我的座右铭:"业精于勤荒于嬉,行成于思毁于随"
上一篇
下一篇

发表回复

联系我们

联系我们

028-84868647

在线咨询: QQ交谈

邮箱: tech@68v8.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部