
记录一些R语言读入数据的方法还有可能遇到的问题~
读入数据时,需要先了解数据文件的类型(也就是看后缀)。一般就能够知道数据的类型和分隔符等信息。
另外,如果能够用excel预览一下数据的话,可以先看看数据是否有行列名。有些数据会有两列的行名,如基因名-基因id-表达值······,特殊的数据需要额外的处理。
还需要注意一下matrix和data.frame的数据结构,matrix中只能有一种数据类型,这意味着如果在读入数据时不进行合适的处理,R会将数值强行读成字符型,造成读数据的错误。
当用excel存储过之后,再用R处理时,会提示你行名重复,其实根本没有重复。因此建议不要用excel保存这种数据,一定要编辑可以使用notepad++或者ultra edit等软件。
-----正题分割线-----
read.xx的函数是R的内置函数,可以直接读取,并且设置一些参数
这些函数读取后都默认为data.frame,如果需要矩阵请使用as.matrix转换。
一定要赋值,不然R语言会把大大的矩阵print出来。
如果是没怎么见过的类型:
这个函数会自动识别你的分隔符,并且把第一行设为列名,但是没办法指定行名,需要读入以后自己设置
跟read.delim类似,可以读各种类型的文件以及非常大的文件:
读取后默认是一种data.table的数据类型,需要通过as.matrix/as.data.frame转换后使用。
像perl语言一样,逐行读取数据具有很大的优势
(万一文件超多行对吧)对于那种几个G的文件,全部读进来可能会导致你的电脑死机,所以我们可以先读几百行进来看看,或者分批读取,这样不会占用电脑太大内存,读取方法和上文的一次性读入有所不同-随便找个文件举例:
接下来继续读入数据,比如说我现在想读4行,因为文件是txt类型,所以分隔设为\t
第一种:把excel中所有sheet的表格读入为data.frame,并分别命名为每个sheet的名称
---请忽略硬核打码
第二种:把excel中所有sheet的表格读入为矩阵,并放进一个list中
R语言批量读文件
批量读excel的xlsx文件原理是和读其它文件一样的。
学到了新的会持续更新哟~
R语言可以使用read.xlsx()函数来读取excel数据文件,也可以使用read.csv()函数来读取csv格式的数据文件。此外,还可以使用R包RODBC来连接数据库,从而将数据文件存储在数据库中,便于管理和 *** 作。另外,还可以使用R语言的XML包来解析XML格式的数据文件,从而将其导入R语言中进行处理分析。1.R数据的保存与加载
可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中。
[ruby] view plain copy
> a <- 1:10
> save(a,file='d://data//dumData.Rdata')
> rm(a) #将对象a从R中删除
> load('d://data//dumData.Rdata')
> print(a)
[1] 1 2 3 4 5 6 7 8 9 10
2.CSV文件的导入与导出
下面创建df1的数据框,通过函数write.csv()保存为一个.csv文件,然后通过read.csv()将df1加载到数据框df2中。
[ruby] view plain copy
> var1 <- 1:5
> var2 <- (1:5)/10
> var3 <- c("R and","Data Mining","Examples","Case","Studies")
> df1 <- data.frame(var1,var2,var3)
> names(df1) <- c("VariableInt","VariableReal","VariableChar")
> write.csv(df1,"d://data//dummmyData.csv",row.names = FALSE)
> df2 <- read.csv("d://data//dummmyData.csv")
> print(df2)
VariableInt VariableReal VariableChar
1 1 0.1 R and
2 2 0.2 Data Mining
3 3 0.3 Examples
4 4 0.4 Case
5 5 0.5 Studies
3.通过ODBC导入与导出数据RODBC提供了ODBC数据库的连接。
3.1从数据库中读取数据
odbcConnect()建立一个数据库连接,sqlQuery()向数据库发送一个SQL查询,odbcClose()关闭数据库连接。
[ruby] view plain copy
library(RODBC)
connection <- odbcConnect(dsn="servername",uid="userid",pwd="******")
query <- "SELECT * FROM lib.table WHERE ..."
# or read query from file
# query <- readChar("data/myQuery.sql", nchars=99999)
myData <- sqlQuery(connection, query, errors = TRUE)
odbcClose(connection)
sqlSave()和sqlUpdate()用于写入或更新一个ODBC数据库表。3.2从Excel文件中导入与导出数据
[ruby] view plain copy
library("RODBC")
conn<-odbcConnectExcel("D:/data/Amtrak.xls")
Amtrak<-sqlFetch(conn,"Data")
close(conn)
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)