- R 菜鸟教程
- R - 教程
- R - 概述
- R - 环境设置
- R - 基本语法
- R - 数据类型
- R - 变量
- R - 运算符
- R - 判断语句
- R - Loop (循环)
- R - 函数
- R - 字符串
- R - 矢量
- R - 列表
- R - 矩阵
- R - 数组
- R - 因子
- R - 数据帧
- R - 包(Packages)
- R - 数据重塑
- R 数据接口
- R - CSV 文件
- R - Excel 文件
- R - 二进制文件
- R - XML 文件
- R - JSON 文件
- R - Web 数据
- R - 数据库
- R 图表和图形
- R - 饼图
- R - 条形图
- R - 箱线图
- R - 直方图
- R - 折线图
- R - 散点图
- R 统计示例
- R - 平均值、中位数和众数
- R - 线性回归
- R - 多元回归
- R - Logistic 回归
- R - 正态分布
- R - 二项分布
- R - 泊松回归
- R - 协方差分析
- R - 时间序列分析
- R - 非线性最小二乘法
- R - 决策树
- R - 随机森林
- R - 生存分析
- R - 卡方检验
R - 数据库
数据是关系数据库系统以规范化格式存储。因此,要进行统计计算,我们需要非常高级和复杂的 Sql 查询。但是 R 可以轻松连接到许多关系数据库,如 MySql、Oracle、Sql Server 等,并从中获取记录作为数据帧。
一旦数据在 R 环境中可用,它就会成为普通的 R 数据集,并且可以使用所有强大的包和函数进行操作或分析。
在本教程中,我们将使用 MySql 作为连接到 R 的参考数据库。
RMySQL 软件包
R 具有一个名为“RMySQL”的内置包,该包在与 MySql 数据库之间提供本机连接。您可以使用以下命令在 R 环境中安装此软件包。
将 R 连接到 MySql
安装包后,我们在 R 中创建一个连接对象以连接到数据库。它采用用户名、密码、数据库名称和主机名作为输入。
# 创建一个连接对象到MySQL数据库。
# 我们将连接到MySql安装附带的名为“sakila”的采样数据库。
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
host = 'localhost')
# 列出此数据库中可用的表。
dbListTables(mysqlconnection)
当我们执行上述代码时,它会产生以下结果——
[3] "address" "category"
[5] "city" "country"
[7] "customer" "customer_list"
[9] "film" "film_actor"
[11] "film_category" "film_list"
[13] "film_text" "inventory"
[15] "language" "nicer_but_slower_film_list"
[17] "payment" "rental"
[19] "sales_by_film_category" "sales_by_store"
[21] "staff" "staff_list"
[23] "store"
查询表
我们可以使用函数 dbSendQuery() 查询 MySql 中的数据库表。查询在 MySql 中执行,并使用 R fetch() 函数返回结果集。最后,它作为数据框存储在 R 中。
# 查询“actor”表以获取所有行。
result = dbSendQuery(mysqlconnection, "select * from actor")
# 将结果存储在R数据帧对象中。n=5用于获取前5行。
data.frame = fetch(result, n = 5)
print(data.fame)
当我们执行上述代码时,它会产生以下结果——
1 1 PENELOPE GUINESS 2006-02-15 04:34:33
2 2 NICK WAHLBERG 2006-02-15 04:34:33
3 3 ED CHASE 2006-02-15 04:34:33
4 4 JENNIFER DAVIS 2006-02-15 04:34:33
5 5 JOHNNY LOLLOBRIGIDA 2006-02-15 04:34:33
使用 Filter 子句的查询
我们可以传递任何有效的 select 查询来获取结果。
result = dbSendQuery(mysqlconnection, "select * from actor where last_name = 'TORN'")
# 获取所有记录(n=-1)并将其存储为数据帧。
data.frame = fetch(result, n = -1)
print(data)
当我们执行上述代码时,它会产生以下结果——
1 18 DAN TORN 2006-02-15 04:34:33
2 94 KENNETH TORN 2006-02-15 04:34:33
3 102 WALTER TORN 2006-02-15 04:34:33
更新表中的行
我们可以通过将更新查询传递给 dbSendQuery() 函数来更新 Mysql 表中的行。
dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")
执行完上面的代码后,我们可以看到 MySql Environment 中更新了表。
将数据插入表中
dbSendQuery(mysqlconnection,
"insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb)
values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)"
)
执行上述代码后,我们可以看到插入到 MySql Environment 中的表中的行。
在 MySql 中创建表
我们可以使用函数 dbWriteTable() 在 MySql 中创建表。如果表已存在,它会覆盖表,并将数据帧作为输入。
# 创建与要创建表的数据库的连接对象。
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
host = 'localhost')
# 使用R数据帧“mtcars”在MySql中创建表。
# 所有成排的mtcar都被输入MySql。
dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)
执行完上面的代码后,我们可以看到在 MySql 环境中创建的表。
在 MySql 中删除表
我们可以删除 MySql 数据库中的表,将 drop table 语句传递到 dbSendQuery() 中,就像我们用它来查询表中的数据一样。
dbSendQuery(mysqlconnection, 'drop table if exists mtcars')
执行上述代码后,我们可以看到该表被放置在 MySql Environment 中。