R 如何实现更快读取数据 - 使用readr包

R 如何实现更快读取数据 - 使用readr包,第1张

有时候文件有几行元数据,可以使用skip=n来跳过前n行;或者使用comment="#"来丢弃所有以#开头的行;

parse_*()函数族接受一个字符向量,并返回一个特定向量,如逻辑、整数或日期向量

对于数值型解析主要会遇到3个问题:

对于第一个问题,可以通过创建一个新的地区对象设定参数 decimal_mark 解决;readr()默认的地区时美国。

​ 对于不知道编码方式的字符串,可以使用guess_encoding(charToRaw())找出编码方式,charToRaw()可以返回字符串的底层表示;

​ 解析文件,首要任务就是对文件每列数据类型的确定;大多数工具会根据文件header或随机抽取一定数量行数确定数据类型;readr 通过读取文件前1000行来确定每列的类型,使用guess_parser()函数返回readr解析的数据类型,parse_guess()利用这个类型去解析文件的数据。

​ 遇到特殊情况,读取1000行的方法是行不通的;这时可以调控一些参数来解决遇到的问题。

col_types: 在文件读取时,通过参数col_types指定每列的类型;

guess_max: 指定用于解析列变量类型的行数;

n_max(): 指定文件读入行数;在处理大内存文件时相当有用;

read_lines(): 按行读入文件

​ 但是这种输出方式的缺点就是无法保留列类型信息,当再次读入文件时需要重新判定类的类型;这对于数据处理过程中输出读取临时文件会产生没必要的麻烦或错误;如果要避免这样的现象,可以使用其它输出方法:write_rds()和write_feather(), 后者需要调用feather包。

New packages for reading data into R — fast

R 数据科学

在R语言里面,有很多读取数据的方法。R能读文本文件,csv格式文件,通过RODBC包读取数据库数据等等。下面我介绍几种最基本的读取数据的方法!

工具/原料

RStudio

方法

不管是读取数据还是写入,R都是在工作路径中完成的。所以首先我们要知道我们的R所在的工作路径是在哪里。使用getwd()函数来获取我们的工作路径。

下面查看工作路径里面有哪些文件,使用dir()函数

如果你所想导入的数据并不在你当前的工作路径中,有两种方法可以解决。第一种就是把数据文件放到工作路径中,第二种方法就是更改工作路径。更改工作路径使用setwd()函数。比如你想要把工作路径设置成桌面

现在我读取我工作路径中,名字为hw1_data.csv的文件。使用read.csv()函数

也可以使用read.table()函数来读取csv格式的文件。由于csv文件的分隔符是“,”所以我们在用read.table()函数的时候,sep参数,我们要设定为sep=“,”

发现read.table()读出来的数据,列名并不是我们文件中的列名,而是V1,V2。。。我们需要加上header这个参数来修改这个问题

另外在read.table()函数族中还有很多参数,对我们读取数据都有帮助,大家可以去了解下。使用?read.table()进行了解

一、 安装RODBC库

1、进入R语言的GUI界面(RGUI.EXE),在菜单栏选择“程序包/安装程序包

2、在d出的窗口里往下拉,选择RODBC如图,点击确定

3、在ODBC数据源管理器里将需要的数据库添加进去,这里笔者使用的是SQL Server2008,驱动程序选择Native Client10.0

3、在R语言窗口输入连接语句

>library(RODBC)

**这里是载入RODBC库

>channel<-odbcConnect("MyTest",uid="ripley",case="tolower")

**连接刚才添加进数据源的“MyTest”数据库

**ch <- odbcConnect("some dsn ", uid = "user ", pwd = "**** ")

**表示用户名为user,密码是****,如果没有设置,可以直接忽略

>data(USArrests)

**将“USArrests”表写进数据库里(这个表是R自带的)

>sqlSave(channel,USArrests,rownames = "state",addPK = TRUE)

**将数据流保存,这时候打开SQL Server就可以看到新建的USArrests表了

>rm(USArrests)

>sqlTables(channel)

**给出数据库中的表

>sqlFetch(channel,"USArrests",rownames = "state")

**输出USArrests表中的内容

>sqlQuery(channel,"select * from USArrests")

**调用SELECT查询语句并返回结果(如图)

>sqlDrop(channel,"USArrests")

**删除表

>odbcClose(channel)

**最后要记得关闭连接

当然,通过这个办法也可以读取Excel、Access表中的内容,具体方法类似,这里不再重复


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9783703.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存