使用什么工具对mysql进行数据清洗_工具

下载安装软件

使用navicate for mysl 之前当然先下载该软件，可以通过百度搜索查找 navicate 特别注意一下，请认准百度安全验证最好到官方网站，或者正规软件下载站下载

下载好软件之后，进行安装navicat for mysql(安装过程之间注意一下插件的自定义选择）

Navicat for mysql 怎么用

连接数据库

打开navicat for mysql之后找到，文件----新建连接-- 如下图

连接参数填写

在出现的连接设置里面，有很多选项都是针对需要连接的数据库的账号信息

连接名：可以任意填写，方便以后识别区分即可

主机名或IP：填写服务器的主机名(必须要能解析的）或者服务器IP地址，如果是本机可以填写localhost 或 127001

端口：默认是3306 如果修改了其他端口，需要对应

密码：就是用户名root密码或者其他mysql用户的密码

设置好连接数据库的参数之后，点击下方的“连接”如图出现“连接成功”即设置成功

数据库管理

连接上数据库之后，在左侧会显示当前mysql所有的数据库。点击对应的数据库，能查看当前数据库下面的表

添加删除数据库

如果需要添加删除数据库的话，很简单选择需要 *** 作的数据库，鼠标右键选择 *** 作即可

添加删除表

同样对于数据库下方的表，如果要新建的话点击选择表---新建

对于新建的表，名和类型都可以手动输入指定选择。设置好之后，点击保存输入表名即可完成 *** 作

点击添加好的表，或数据库的表。双击之后右侧会列出当前表的详细列项目和属性

如何使用命令行

虽然是图形化管理工具，但是对于很多 *** 作其实还是需要SQL命令会更加方便。进入sql命令行界面，点击“工具”--“命令列界面”如下图箭头位置

随后在右下方空白区域进入了SQL命令行界面， *** 作方法和普通进入mysql命令行界面一样使用命令。如果需要清除当前屏幕内容，可以点击“清除”即可

其他功能

对于之前数据库已经导出的sql文件，或者写好的sql命令语句。可以通过选择需要导入的数据库，或表右键选项“运行sql文件”

-- 清空日志

--压缩日志及数据库文件大小

/--特别注意

请按步骤进行,未进行前面的步骤,请不要做后面的步骤

否则可能损坏你的数据库

--/

selectfromsysfiles

--1清空日志

DUMPTRANSACTIONusernameWITHNO_LOG

--2截断事务日志：

BACKUPLOGusernameWITHNO_LOG

--3收缩数据库文件(如果不压缩,数据库的文件不会减小

-- 企业管理器--右键你要压缩的数据库--所有任务--收缩数据库--收缩文件

--选择日志文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了

--选择数据文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了

-- 也可以用SQL语句来完成

--收缩数据库

DBCCSHRINKDATABASE(username)

--收缩指定数据文件,1是文件号,可以通过这个语句查询到:selectfromsysfiles

DBCCSHRINKFILE(2)

--4为了最大化的缩小日志文件(如果是sql70,这步只能在查询分析器中进行)

-- a分离数据库:

-- 企业管理器--服务器--数据库--右键--分离数据库

-- b在我的电脑中删除LOG文件

-- c附加数据库:

-- 企业管理器--服务器--数据库--右键--附加数据库

-- 此法将生成新的LOG，大小只有500多K

-- 或用代码：

-- 下面的示例分离username，然后将username中的一个文件附加到当前服务器。

execsp_dboptionusername,'singleuser',true

a分离

EXECsp_detach_db@dbname='username'

b删除日志文件

execmasterxp_cmdshell'delD:\ProgramFiles\SQL\database\username_LOGldf'

c再附加

EXECsp_attach_single_file_db@dbname='username',

@physname='D:\ProgramFiles\SQL\database\username_DataMDF'

--5为了以后能自动收缩,做如下设置:

-- 企业管理器--服务器--右键数据库--属性--选项--选择"自动收缩"

--SQL语句设置方式:

EXECsp_dboption'数据库名','autoshrink','TRUE'

--6如果想以后不让它日志增长得太大

-- 企业管理器--服务器--右键数据库--属性--事务日志

--将文件增长限制为xM(x是你允许的最大数据文件大小)

--SQL语句的设置方式:

alterdatabase数据库名modifyfile(name=逻辑文件名,maxsize=20)

单击开始---->所有程序---->MicrosoftSQLServer2014，选择SQLServer2014ManagementStudio选项，打开软件。

2连接到服务器窗口中，输入服务器名称，选择SQLServer身份验证，输入登录名和密码，连接进入数据库。

3在左侧对象资源管理器中，展开数据库选项，找到NewData数据库。

4在NewData数据库上右击，选择删除 *** 作。

5删除对象窗口中，选择删除数据库备份和还原历史记录信息选项，同时选择关闭现有连接选项，单击确定。

6可以看到，SQLServer中的NewData数据库已删除。

7打开SQLServer安装目录中的DATA文件夹，NewData数据库已没有了，说明NewData数据库成功删除。

扩展资料：

SQL是StructuredQueryLanguage(结构化查询语言)的缩写。SQL是专为数据库而建立的 *** 作命令集，是一种功能齐全的数据库语言。在使用它时，只需要发出“做什么”的命令，“怎么做”是不用使用者考虑的。SQL功能强大、简单易学、使用方便，已经成为了数据库 *** 作的基础，并且现在几乎所有的数据库均支持SQL。

SQL数据库的数据体系结构基本上是三级结构，但使用术语与传统关系模型术语不同。在SQL中，关系模式(模式)称为“基本表”(basetable)；存储模式(内模式)称为“存储文件”(storedfile)；子模式(外模式)称为“视图”(view)；元组称为“行”(row)；属性称为“列”(column)。名称对称如^00100009a^：

SQL包括了所有对数据库的 *** 作，主要是由4个部分组成：

数据定义：这一部分又称为“SQLDDL”，定义数据库的逻辑结构，包括定义数据库、基本表、视图和索引4部分。

数据 *** 纵：这一部分又称为“SQLDML”，其中包括数据查询和数据更新两大类 *** 作，其中数据更新又包括插入、删除和更新三种 *** 作。

数据控制：对用户访问数据的控制有基本表和视图的授权、完整性规则的描述，事务控制语句等。

嵌入式SQL语言的使用规定：规定SQL语句在宿主语言的程序中使用的规则。

参考资料：

IT专家网-微软SQL

用金山卫士或360卫士就能轻松清理。电脑内的各种缓存是由于电脑长时间运行的各种程序所形成的。如果您的电脑存在很多这样的缓存数据，可以下载安装金山卫士、或360安全卫士来解决。以金山卫士为例，打开金山卫士后可以看到上面有个一键清理垃圾的按钮，用鼠标左键单击这个按钮，软件就会自动对电脑系统内的缓存进行清理。

方法/步骤

1依次打开控制面板-->程序-->卸载程序，将带有SQL Server选项的相关组件全部卸载。

2打开Windows Install Clean Up进行深度清理。注意：该工具的四个按键功能分别为（Select all）查找全部，（Clear all）清除全部，（Remove）删除选中项，(Exit)退出。使用时只需选择带有SQL 部分进行Remove即可。

完：通过上述简单便捷的 *** 作即将SQL Server数据库安装失败所残留的文件彻底清除，无需用户花费大量时间去逐个排查寻找，更无需重新安装 *** 作系统即可再次安装SQL Server数据库。该方法同样适用于其他Microsoft软件的彻底删除与卸载。

MYSQL数据库多余的数据表清理方法：

drop table命令用于删除数据表。

drop table命令格式：drop table <表名>;

例如，删除表名为 MyClass 的表：

mysql> drop table MyClass;

DROP TABLE用于删除一个或多个表。必须有每个表的DROP权限。所有的表数据和表定义会被取消，所以使用本语句要小心。

关于数据清理（尤其是医学数据清理），每个数据库的具体问题都不一样，但是根据经验，都会涉及以下5个方面，清理时务必要考虑！

第1点：重复记录是优先要考虑的，很多人没有去重的概念和意识，拿到数据直接分析，或者仅进行极端值的清理，往往到结果出来了才发现需要重头来过。实际上出现重复的情形太多太多了，录入时id号不小心录错一位；一个人的左眼和右眼数据分成2行存储，等等等等，非常常见！

常见的坑：不同的数据库，尽量不要只用一个字段进行比对，像下面这种情况

id号为k0097和id号为k0265是我们一项真实大型眼病流调中的案例，很多人喜欢只用id号作为唯一性的识别。好了，对于我们这个研究，k0097和k0265id号完全不同，但是姓名、性别甚至是出生日期都完全一样；对于杨风云这个个体，甚至连身高都基本一致，严重提示重复！

经过核查，是同一个人，至于为什么同一个人会在现场出现两次，具体原因已然不得而知，但是要警惕这种现象！

第2点：缺失值是任何场景都会遇到的，无论是电商数据还是医学研究中采集的患者数据，都有无法测量的时候，医学数据更为特殊，因为患者有拒绝参与的情况。但是缺失归缺失，一定要引起重视，能做插补要考虑插补，不能插补的要做好备注或其它处理，否则结果（尤其是当有分组变量，且分组变量有缺失的情况下）往往互相矛盾。

常见的坑1：很多人喜欢用99，999，9999等来替换标记缺失值，这种做法在很多情况下，尤其是医学数据中要格外小心。因为真的有的指标是可以取到这些值的，比如体重，到达99公斤不少见；比如白细胞，9999也是正常范围。还有很多人喜欢用0代表缺失值，说实话，就更坑了。因为用0来赋值的情形太多了，况且有的指标也是可以取到0的，比如C反应蛋白。

标记缺失值一定要考虑指标本身的正常值范围！

常见的坑2：不是所有缺失值都能插补的！

100个数，缺2个，你插完基本接近真值；缺50个你还插，那不叫填补，那叫瞎蒙！

建议在列缺失20%比例以内的进行插补，太高的比例比如30%以上应该考虑舍弃该指标该变量！

大家在拿到一批数据时，不妨做一个下图这样的基本频数分布，帮助你判断数据质量。

第3点：极端值会严重影响数据分布，譬如你研究北京地区成年人血液中铅含量的正常水平，抽了1000人。其中999人都在80-110微克/升，按说平均血铅水平应该在90多；很不幸你抽到了一个铅中毒患者，他的血铅水平是常人的百倍，达到10000微克/升，你如果不对此人做

以上就是关于使用什么工具对mysql进行数据清洗全部的内容，包括:使用什么工具对mysql进行数据清洗、sql数据库满了怎么清理、如何清除SQL数据库中的数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/10154078.html

使用什么工具对mysql进行数据清洗

发表评论

评论列表（0条）