
max(向量名) :返回向量最大值
min(向量名) :返回向量最小值
range(向量名) :返回向量中的上界和下界
mean(向量名) :返回向量平均值
var(向量名) :返回向量的方差
sd(向量名) :返回向量的标准差
prod(向量名) :向量中所有值的乘积
median(向量名) :求中位数
quantile(向量名) :求分位数, quantile(x,c(04,05,08) 求出向量x的四分位,五分位和八分位值。
abs(向量名) :返回绝对值
sqrt(向量名) :计算平方根
log(向量名/值,base=底数值) :取对数
exp(向量名) :计算向量中每个元素的指数
sin(向量或值) :正弦三角函数
cos(向量或值) :余弦三角函数
ceiling(向量名) :向上取整
floor(向量名) :向下取整
trunc(向量名) :舍去小数,取整
round(向量名) :四舍六入五留双(五留双含义整数部分为偶数留整数,奇数部分进一,例如45留4,55留6)
round(向量名,digits=数值x): round函数下保留x位小数,digits指小数点后位数
sigif(向量,digits=数值x) :截取数据,digits指有效数字的位数
下标从1开始
whichmax(向量名) :返回最大元素的索引值
whichmin(向量名):返回最小元素的索引值
which(t>5):返回元素值大于5的索引位置
t[which(t>5)]:返回元素值大于5的元素位置上的值
用的最多的,是求均值的mean()函数,当然这里也要提到,像sum()这种求和函数,
还有sd(x) 标准差函数,var(x) 方差函数。min()求最小值,max()求最大值。
我们来具体试试,这里使用一个向量:
test<-c(2,4,5,23,199,25,78,90,12)
求最大值
> max(test)
[1] 19
求最小值
> min(test)
求和
> sum(test)
[1] 43
求标准差,求方差
> sd(test)
[1] 6501154
> var(test)
[1] 4226
在来试试最重要的均值
> mean(test)
[1] 4866667
另外中位数计算。使用median()函数
> median(test)
[1] 23
如果给定一种概率分布,通常会有四类计算问题:
计算其概率密度density (d)计算其概率分布probability(p)计算其百分位数quantile (q)随机数模拟random (r)上面四类计算对应的英文首字母,就是R语言类率分布函数的开头字母。
比如说,正态分布是norm的化,那密度函数就是dnorm(),分布函数就是pnorm(),
更有用的是用相应分布生成随机数,比如rnorm(),就会生成服从正态分布的随机数。
比如我们生成100个服从正态分布的随机数
rnorm(100)
[1] -9064408e-01 1026560e+00 -1097470e+00 1055395e+00 9377175e-01
[6] -2080103e-01 -3092396e-01 -8739942e-01 -1242774e+00 1102486e+00
[11] 1082092e+00 -1695528e+00 -5930809e-01 -2100800e-01 8253859e-01
[16] -1112551e+00 -3960474e-01 -9354820e-01 7291608e-01 -3773510e-01
[21] -3438082e-01 -7378688e-02 -9047609e-01 -1036344e+00 9485103e-01
[26] -3437985e-01 -2145275e-02 1350098e+00 -1283633e+00 3767240e-01
[31] 1169566e+00 -4325399e-01 -9215626e-02 3839357e-01 3045491e-01
我们再用相应的频率分布直方图来看一下,这些生成的随机数:
hist(rnorm(100))
R就画出了这些随机数的频率分布图
2、矩阵是一个二维数组,每个元素都拥有相同的模式,可通过函数matrix()创建矩阵。
3、数组是一个可以在两个以上维度存储数据的数据对象。例如,如果创建尺寸(2,3,4)的数组,那么就是创建4个矩形矩阵每个2行3列。数组只能存储数据类型。
4、矩阵和数组一样都只能包含一种数据类型,当有多种模式的数据时,使用数据框就更为方便。数据框可以用函数dataframe () 创建。
5、$ 被用来选取一个给定数据框中的某个特定变量。
6、attach()绑定数据集,detach()解除数据集。
7、with:attach,detach最好在单独的数据框内使用,在多个同名对象最好不要使用,函数with(),可以再具有多个同名对象的数据框内使用,但是必须加入花括号{},这样就无须担心名称冲突了,但是它也有局限性,赋值仅在此函数的括号内生效。
8、列表是一些对象的有序集合。
9,、数据导入 readtable(),其中header = T,代表第一行为变量名称,不作为数据,header = F相反。sep代表数据分隔符,txt为"\t",csv为","。
10、table函数,用 table() 函数统计因子各水平的出现次数(称为频数或频率)。
>sex = c("女","女","女","男","男")
>table(sex)
>sex
男 女
2 3
求众数
> aim = table(sex)[table(sex)==max(table(sex))]
> aim
女
3
> max(table(sex))
[1] 3
> table(sex)==max(table(sex))
sex
男 女
FALSE TRUE
11、 无尺度网络: 是指在某一复杂的 系统 中,大部分节点只有少数几个连结,而某些节点却拥有与其他节点的大量连结。这些具有大量连结的节点称为“集散节点”,所拥有的连结可能高达数百、数千甚至数百万。这一特性说明该网络是无尺度的,因此,凡具有这一特性的网络都是无尺度网络。
12、options(stringsAsFactors = F)
#在调用asdataframe的时,将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型。
13、class():查看数据结构:vector、matrix、array、dataframe、list。
14、str():作用用英语来表示是:check classification of viriables,一般用于检查数据框当中有哪些数据。
15、mode() :查看数据元素类型。
16、typeof() :查看数据元素类型,基本等同于mode(),比mode()更为详细。
17、example():假设有一个函数foo,example("foo"),函数foo的使用示例。
18、apropos():列出名称中含有foo的所有可用函数。apropos("foo",mode="function")。
19、data():列出当前已加载包中所含的所有可用示例数据集。
20、ls():列出当前工作空间中的对象。
21、rm():移除(删除)一个或多个对象。
22、history(#):显示最近使用过的#个命令(默认值为25)。
23、options():显示或设置当前选项。有一个收藏文件有介绍options的功能。
24、boxplot():生成盒型图。
25、sum():计算和。sum(x,narm = TRUE)。
26、median():计算中位数。
27、cbind():以列结合变量。cbind(x,y,z)。
28、rbind():以行结合变量。
29、vector():以向量形式结合数据。vector(length = 10)。
30、rep():以矩阵形式结合数据。rep(c(1,,2,3),each = 10)
31、seq():生成一个有序的数列。seq(1,10)。
32、dim():矩阵或者cbind输出的维数。dim(Mydata)。
33、scan():从ascii文件中读取数据。scan(file = "testtxt")。
34、writetable():把一个变量写入到ascii文件。writetable(Z,file = "testtxt")。
35、order():确定数据的顺序。order(x)。
36、merge():合并两个数据框。merge(x,y,by = "ID")。
37、str():显示一个对象的内部结构。str(Mydata)。
38、factor():定义变量作为因子。factor(x)。
39、tapply():tapply(X = Veg$R,INDEX = Veg$Transect,FUN = mean)tapply函数根据第二个变量(Transect)的不同水平对第一变量(R)进行了求平均值运算。还可以求sd,var,length等 *** 作。R语言初学者指南P75详细介绍了这个函数。
40、下一页介绍了sapply和lapply。
41、summary():计算基本信息。
42、table():计算列联表,统计因子各水平的出现次数(频数或频率)。table(x,y)。
43、plot():y对x的图形。pch形状,col颜色。
44、par():par(mfrow = c(2,2),mar = c(3,3,2,1))
mfrow生成一个具有4个面板的图形窗口。mar选项指定每个图形周围空白的大小,底部、左侧、顶部、右侧。
45、paste():将变量连接成字符串。paste("a","b",sep = "")。
46、log(): log = "x",log = "y",log = "xy",生成对数轴。
47、%in%:
a<-c(1,3,13,1443,43,43,4,34,3,4,3)
b<-c(1,13,11,1313,434,1)
a%in%b
# 返回内容#
[1] TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
# 取反 *** 作
!(a%in%b)
48、sort()函数是对向量进行从小到大的排序
rank()函数返回的是对向量中每个数值对应的秩
order()函数返回的值表示位置,依次对应的是向量的最小值、次小值、第三小值……最大值等(位置索引)
arrange()函数(需加载dplyr包)针对数据框,返回基于某列排序后的数据框,方便多重依据排序。
49、subset(): df <- dataframe( a = 1:10, b = 2:11, c = 3:12 )
df <- subset(df, select = c(a,c)) #选取列a和c
df <- subset(df, select = -c(a,c) ) #去除列a和c1 算数平均数(arithmetic mean)
R语言函数:mean( )
2中位数(median)
将所有观测值从小到大排列,居于中间位置的观测值称为中位数,用 表示。
当观测值为奇数个时,中位数是第 位置的观测值;
当观测值为偶数个时,中位数是第 位置的两个观测值之和的
R语言函数:median( )
3众数(mode)
资料中出现次数最多的那个观测值或出现次数最多一组的中点值,称为众数,用 表示
4几何平均数(geometric mean)
用G表示。资料中有n个观测值,则计算公式为:
R语言计算:exp^(mean( log (x))) R语言log()函数默认底为e
5加权平均数(weighted mean)
在有N个观测的样本中,观测数 出现 次,观测数 出现 次,观测数 出现 次,且 ,则:
6加权几何均数:
R语言计算:exp^(sum(flog(x))/sum(f))
1极差(range)
又称为全距,是样本资料中最大值和最小值之差,一般用R表示
R语言计算:max(data) - min(data)
2方差(variance)
又称为均方(mean square,MS)
样本方差计算公式:
总体方差计算公式:
R语言函数:var( )
3标准差(standard deviation, Sd)
样本标准差:
总体标准差:
R语言函数:sd( )
4四分位数间距 (inter-quartile range ,IQR )
IQR=P75−P25
适于偏态分布或分布未知资料,由于不受两端极大或极小数据的影响,四分位数间距比极差更为稳定,但仍未考虑每个观测值的变异。 常与中位数一起使用 ,综合反映数据的平均水平和变异程度,写成 M(P25, P75) 。
R语言函数:quantile( )
5变异系数(coefficient of variability, CV)
%
在 度量单位不同 或者 均数相差悬殊 时使用。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)