在hive中怎样删除一张有数据的管理表，包括删除数据_工具

Hive的数据管理：

（1）元数据存储

Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库：

Single User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test。

Multi User Mode：通过网络连接到一个数据库中，这是最常用的模式。

Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

（2）数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由地组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，它就可以解析数据了。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含4种数据模型：Table、External Table、Partition、Bucket。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-sitexml 中由 ${hivemetastorewarehousedir} 指定的数据仓库的目录，所有的 Table 数据（不包括 External Table）都保存在这个目录中。

Partition 对应于数据库中Partition 列的密集索引，但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, city = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/city=US；对应于 ds = 20090801, city = CA 的 HDFS 子目录为：/wh/pvs/ds=20090801/city=CA。

Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了便于并行，每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上，首先对 user 列的值计算 hash，比如，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/city=US/part-00000；对应hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/city=US/part-00020。

External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的组织结构上是相同的，而在实际数据的存储上则有较大的差异。

在Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成）中，实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时，表中的数据和元数据将会被同时删除。

External Table 只有一个过程，因为加载数据和创建表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的，它并不会移动到数据仓库目录中。

（3）数据交换

数据交换主要分为以下几个部分

Redis与Memcached的区别

传统MySQL+ Memcached架构遇到的问题

实际MySQL是适合进行海量数据存储的，通过Memcached将热点数据加载到cache，加速访问，很多公司都曾经使用过这样的架构，但随着业务数据量的不断增加，和访问量的持续增长，我们遇到了很多问题：

1MySQL需要不断进行拆库拆表，Memcached也需不断跟着扩容，扩容和维护工作占据大量开发时间。

2Memcached与MySQL数据库数据一致性问题。

3Memcached数据命中率低或down机，大量访问直接穿透到DB，MySQL无法支撑。

4跨机房cache同步问题。

众多NoSQL百花齐放，如何选择

最近几年，业界不断涌现出很多各种各样的NoSQL产品，那么如何才能正确地使用好这些产品，最大化地发挥其长处，是我们需要深入研究和思考的

问题，实际归根结底最重要的是了解这些产品的定位，并且了解到每款产品的tradeoffs，在实际应用中做到扬长避短，总体上这些NoSQL主要用于解

决以下几种问题

1少量数据存储，高速读写访问。此类产品通过数据全部in-momery 的方式来保证高速访问，同时提供数据落地的功能，实际这正是Redis最主要的适用场景。

2海量数据存储，分布式系统支持，数据一致性保证，方便的集群节点添加/删除。

3这方面最具代表性的是dynamo和bigtable 2篇论文所阐述的思路。前者是一个完全无中心的设计，节点之间通过gossip方式传递集群信息，数据保证最终一致性，后者是一个中心化的方案设计，通过类似一个分布式锁服务来保证强一致性,数据写入先写内存和redo log，然后定期compat归并到磁盘上，将随机写优化为顺序写，提高写入性能。

4Schema free，auto-sharding等。比如目前常见的一些文档数据库都是支持schema-free的，直接存储json格式数据，并且支持auto-sharding等功能，比如mongodb。

面对这些不同类型的NoSQL产品,我们需要根据我们的业务场景选择最合适的产品。

Redis适用场景，如何正确的使用

前面已经分析过，Redis最适合所有数据in-momory的场景，虽然Redis也提供持久化功能，但实际更多的是一个disk-

backed的功能，跟传统意义上的持久化有比较大的差别，那么可能大家就会有疑问，似乎Redis更像一个加强版的Memcached，那么何时使用

Memcached,何时使用Redis呢

如果简单地比较Redis与Memcached的区别，大多数都会得到以下观点：

1 Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，zset，hash等数据结构的存储。

2 Redis支持数据的备份，即master-slave模式的数据备份。

3 Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。

抛开这些，可以深入到Redis内部构造去观察更加本质的区别，理解Redis的设计。

在

Redis中，并不是所有的数据都一直存储在内存中的。这是和Memcached相比一个最大的区别。Redis只会缓存所有的

key的信息，如果Redis发现内存的使用量超过了某一个阀值，将触发swap的 *** 作，Redis根据“swappability =

agelog(size_in_memory)”计

算出哪些key对应的value需要swap到磁盘。然后再将这些key对应的value持久化到磁盘中，同时在内存中清除。这种特性使得Redis可以

保持超过其机器本身内存大小的数据。当然，机器本身的内存必须要能够保持所有的key，毕竟这些数据是不会进行swap *** 作的。同时由于Redis将内存

中的数据swap到磁盘中的时候，提供服务的主线程和进行swap *** 作的子线程会共享这部分内存，所以如果更新需要swap的数据，Redis将阻塞这个

*** 作，直到子线程完成swap *** 作后才可以进行修改。

使用Redis特有内存模型前后的情况对比：

VM off: 300k keys, 4096 bytes values: 13G used

VM on: 300k keys, 4096 bytes values: 73M used

VM off: 1 million keys, 256 bytes values: 43012M used

VM on: 1 million keys, 256 bytes values: 16009M used

VM on: 1 million keys, values as large as you want, still: 16009M used

当

从Redis中读取数据的时候，如果读取的key对应的value不在内存中，那么Redis就需要从swap文件中加载相应数据，然后再返回给请求方。

这里就存在一个I/O线程池的问题。在默认的情况下，Redis会出现阻塞，即完成所有的swap文件加载后才会相应。这种策略在客户端的数量较小，进行

批量 *** 作的时候比较合适。但是如果将Redis应用在一个大型的网站应用程序中，这显然是无法满足大并发的情况的。所以Redis运行我们设置I/O线程

池的大小，对需要从swap文件中加载相应数据的读取请求进行并发 *** 作，减少阻塞的时间。

如果希望在海量数据的环境中使用好Redis，我相信理解Redis的内存设计和阻塞的情况是不可缺少的。

补充的知识点：

memcached和redis的比较

1 网络IO模型

Memcached是多线程，非阻塞IO复用的网络模型，分为监听主线程和worker子线程，监听线程监听网络连接，接受请求后，将连接描述

字pipe 传递给worker线程，进行读写IO, 网络层使用libevent封装的事件库，多线程模型可以发挥多核作用，但是引入了cache

coherency和锁的问题，比如，Memcached最常用的stats

命令，实际Memcached所有 *** 作都要对这个全局变量加锁，进行计数等工作，带来了性能损耗。

(Memcached网络IO模型)

Redis使用单线程的IO复用模型，自己封装了一个简单的AeEvent事件处理框架，主要实现了epoll、kqueue和select，

对于单纯只有IO *** 作来说，单线程可以将速度优势发挥到最大，但是Redis也提供了一些简单的计算功能，比如排序、聚合等，对于这些 *** 作，单线程模型实

际会严重影响整体吞吐量，CPU计算过程中，整个IO调度都是被阻塞住的。

2内存管理方面

Memcached使用预分配的内存池的方式，使用slab和大小不同的chunk来管理内存，Item根据大小选择合适的chunk存储，内

存池的方式可以省去申请/释放内存的开销，并且能减小内存碎片产生，但这种方式也会带来一定程度上的空间浪费，并且在内存仍然有很大空间时，新的数据也可

能会被剔除，原因可以参考Timyang的文章：>

（一）实例的最大和最小内存设置

右击数据库，选择属性，如图。

为实例设置合适的最大和最小内存，如图。

（二）为 *** 作系统预留足够的内存

假如一台8GB的服务器，我们可以限制数据库使用的内存上限不超过6GB，剩下的2GB留给 *** 作系统使用。

（三）配置lock pages in memory

查看SQL进程的启动账户，如图。

在组策略里设置启动SQL Server的账户拥有锁定内存页的权限。如图。

在下图的添加用户或组界面，添加SQL server的服务启动账户，如图。

设置完成后，需要关注的两个问题：

1、因为SQL Server锁定了内存页，当Windows内存告急时，SQL Server就不能对Windows的内存告急做出响应，因为SQL Server的特性是内存有多少用多少，因此很有可能在无法做出对Windows低内存的响应时造成Windows的不稳定甚至崩溃。因此开启了”Lock Page In Memory”之后，要限制SQL Server Buffer Pool的内存使用

2、还有一个问题是当Buffer Pool通过AllocateUserPhysicalPages分配内存时，我们在任务管理器中看到的sqlservrexe占用的内存就仅仅包含Buffer Pool中非Data Cache部分和MemToLeave部分，而不包含Data Cache部分，因此看起来有可能造成sqlservrexe只占用了几百兆内存而内存的使用是几十G。这时我们就需要在Perfmonexe中查看SQL Server:Memory Manager\Total Server Memory计数器去找到SQL Server真实占用的内存。（由于SQL server 2012内存管理机制的变化，所以个人认为这一条原则可能只适用于SQL server 2008R2以前的数据库版本）

以上就是关于在hive中怎样删除一张有数据的管理表，包括删除数据全部的内容，包括:在hive中怎样删除一张有数据的管理表，包括删除数据、php面试题 memcache和redis的区别、如何设置SQLServer数据库内存等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/10169616.html

在hive中怎样删除一张有数据的管理表，包括删除数据

发表评论

评论列表（0条）