
改时间戳,会带来很多问题。
首先对于楼主出现的问题,应该是自己封装的问题。
对于第一个问题:
//数据插入,人为不设置时间戳,数据能删除,但是不能录入多版本数据
putadd(BytestoBytes(colFamilygetColumnFamilyName()),
BytestoBytes(colgetColumnName()),
BytestoBytes(colgetValue()));
认为不设置时间戳,数据是能删除和录入多版本数据的,这是毋庸置疑的。
对于第二个问题
//数据插入,人为设置时间戳,数据不能删除,但是能录入多版本数据
putadd(BytestoBytes(colFamilygetColumnFamilyName()),
BytestoBytes(colgetColumnName()),
colgetTimeStamp(), BytestoBytes(colgetValue()));
hbase自带的时间戳是精确到毫秒的楼主可查看时间戳是否有相同的。务必自己生成具有唯一性的时间戳
3个。数据类型long,单元值有时间版本,用时间戳(Timestamp)标识,默认数量3个。hbase添加数据时使用的时间戳默认使用的是数据添加时的时间,在存储实时数据的时候是很方便。
创建testjava 文件包含如下内容:
在命令行中编译和执行
Phoenix Thick驱动的JDBC的URL格式如下([]内的元素可选择的)
最简单的例子:
最复杂的例子:
请注意,URL中的每个可选元素都需要前面所有可选元素。例如,去指定Hbase的zk节点,那么zk的端口必须是指定的。
这些信息最初包含在 该页 。
Phoenix Thin驱动(与Phoenix查询服务一起使用)JDBC格式如下:
这里暴露了数个key供客户端使用。最经常使用的key为 url 和 serialization 。url key直接影响到需要查询的Phoenix查询服务器的地址。
最简单的URL例子:
非常复杂的URL例子:
这里记录着所有有关于Thin 客户端JDBC URL涉及到的支持项,可以参考 Apache Avatica documentation 和 Query Server Documentation 。
查看 相关例子 。
CSV数据可以批量导入通过psql的通用功能。一般插入的速度在20K-50K行数据每秒。(取决于一行数据有多大)。
创建表例子:
插入数据例子:
你可以创建Phoenix 表(table)和视图(view)通过 CREATE TABLE/CREATE VIEW 在已存在的HBase表上执行DLL语句。两种情况下都不会改变Hbase的元数据。对于 CREATE TABLE ,我们会创建任何不存在的元数据(table,column families)。我们会增加空键在每一行,所以查询的行为符合预期(不需要所有的列都进行扫描)。
需要注意的是字节的序列化必须匹配Phoenix的字节序列化。比如varchar、char和unsigned_ 类型,我们使用Hbase字节方法。char类型预期只有单字节字符和无符号类型预期值大于或者等于0。 对于有符号的类型(tinyint,smallint,integer 和bigint),phoenix会翻转第一个字节,这样负值会在正值之前排序。 因为Hbase排序row key按照ASCII正序排列,负值的第一位是1 而正值的第一位是0,那么负值大于正值,党我们不进行第一位翻转时。所以你存储整数时通过Hbase本地API接口和想通过Phoenix访问整数,确认你的数据类型是否是无符号类型。
我们复合row key可以将简单的值进行拼接在一起,在可变长类型上使用0字节作为分隔符。
如果你创建Hbase表如下:
如果你已经有了一张带有名称为't1'和列簇为'f1'的Hbase表。那么请记住,在Hbase中你不用对可能的键值和row key结构进行建模。这是你在phoenix指定的表和列簇之外的信息。所以在phoenix,你不需要像这样创建view:
这个‘pk’列定义,你的row key是varchar类型(类似字符串),而'f1'val列定义你的Hbase表包含键值形式和列成员及列限定符为'f1'val还有他们的类型为varchar。
注意,你不需要使用双引号,当你创建你的hbase表包含所有的大写名称(Phoenix会标准化字符串,将字符串转大写)。比如:
你可以这样创建phoenix视图:
或者如果你创建了新的hbase表,不需要借助hbase shell,直接在phoenix *** 作。
注意:理想情况下4核CPU的16个region server,可以选择salt buckets在32-64最佳性能。
始于Phoenix 21版本,Phoenix开始支持索引在可变和不可变的数据中。注意,Phoenix在20x中仅支持不可变数据的索引。索引写性能在不可变索引表中,稍微快一些于可变数据表,不可变数据表即是数据不支持更新。
例子:
更新行信息在test表中,Phoenix查询优化器会选择正确的索引去使用。你可以查看 explain plan 如果Phoenix使用这个索引表。你还可以在Phoenix查询中给出使用特定索引的 提示 。
除非查询中使用到的所有列都在二级索引中,否作不会使用二级索引(作为直接索引,或者覆盖索引)。构成数据表中的主键全部列都会自动包含在索引中。
在lastname不是索引或者覆盖所有一部分时,索引是没有被使用到。这点可以在 "explain plan" 中被证实。在创建索引时固定lastname字段存在索引中一部分,或者时覆盖索引的覆盖字段。
例子:
Phoenix速度非常快,全表扫描100M的数据,通常情况下在20秒内完成(中等规模的集群上的小表)。如果查询包含到关键列的过滤器,则降低到毫秒级。你可以添加索引在导致性能等同于过滤键的列上,使用索引列作为键的一部分复制表。
为什么Phoenix即使做了全扫描,速度依然快:
检阅Anil Gupta的优秀 文章 。
Hadoop2的配置存在Phoenix的pomxml中即可。
在默认情况下,Phoenix让Hbase管理时间戳,并只让你查看最后的版本数据。但是,Phoenix也给用户提供支持任意的时间戳。要做到这一点,使用连接属性"CurrentSCN",像这样:
上面的 *** 作等同于Hbase API中的:
通过指定CurrentSCN,你可以告诉Phoenix。所有东西在这次连接中按该时间戳被完成。注意的是,这也适用于对连接执行的查询。举个例子,一个查询在myTable表的数据是不会看到刚插入的数据,因为它只看到创建连接时指定CurrentSCN属性之前的数据。这样提供了一种类似于快照的功能,或者是时间点查询。
请记住,创建个新的连接不是一个很昂贵的 *** 作。相同的底层Hbase的连接用于全部连接的相同的集群,所以或多或少实例出一些对象。
RANGE SCAN :意味着只扫描表中一部分数据。如果使用主键约束中的一个或者多个组成主键的列会出现这种情况。没有过滤PK列的查询,例子: select from test where pk2='x' and pk3='y'; 将会出现全扫描,然而在 select from test where pk1='x' and pk2='y'; 中却是范围扫描(range scan)。注意,你可以添加二级索引在"pk2"和"pk3"列上,会触发范围扫描(range scan)在第一次查询中。
DEGENERATE SCAN :意味着一个查询不能返回行数据。如果我们决定在编译时完成。我们甚至不需要运行扫描。
FULL SCAN :意味着所有行都被扫描到。(如果你有一个where子句,可能会应用到一个过滤器)
SKIP SCAN :将扫描一个表中的子集或者全部行。无论如何它将会根据过滤器跳过大分组的行。可以查看 博客 了解更多。如果主键上没有过滤器的列,那我们就不做SKIP SCAN,但是你可以强制SKIP SCAN通过使用/+ SKIP_SCAN/去命中。在一些条件下,也就是说当你的主键基数比较少时,它将会更有效超过FULL SCAN。
不,它不是必须的Phoenix jDBC连接池。
Phoenix的连接对象时不同大部分的JDBC连接,原因在于底层是Hbase的连接。Phoenix连接对象在设计时就是为了更精细便宜的代价去创建。如果Phoenix的连接被再利用,底层的HBase连接可能并不总是由前一个用户保持在健康状态。更好的方式是去创建一个新的Phoenix连接,保证避免潜在的问题。
实行Phoenix连接池可以简单的创建实例化委派,对外部而言,创建出新的Phoenix连接,实际是需要时从池中获取,对外部而言的关闭,实际是返回到池中去,可以参考 Phoenix-2388 。
空键值或者伪键值(_01列限定符)必须的,去保证列都有有效的在全部行中。
数据存储在Hbase是以键值对形式存在,意味着存储每个列值完整的行键。这还意味着,除非至少存储了一个列,否则根本不存储行键。
现在考虑到JDBC的行存在int类型的主键,和若干列可能是空(null)的。为了可以存储主键,键值必须去存储去展示这行数据的全部(现在的时间戳,考虑的时间戳版本)。你会注意到这些列是空列。这允许执行“SELECT FROM TABLE”并接收所有行的记录,即使那些非pk列为空的记录也是如此。
即使对于某些(或所有)记录只有一个列为空,也会出现相同的问题。在Phoenix上的扫描将包括空列,以确保只包含主键的行(所有非键列都为空)将包含在扫描结果中。
主要基于两个方面的原因:
Client首先会从ZooKeeper中获取元数据hbase:meta表所在的RegionServer,然后根据待读写rowkey发送请求到元数据所在RegionServer,获取数据所在的目标RegionServer和Region(并将这部分元数据信息缓存到本地),最后将请求进行封装发送到目标RegionServer进行处理。
3)KeyValueScanner合并构建最小堆
最小堆管理Scanner可以保证取出来的KeyValue都是最小的,这样依次不断地pop就可以由小到大获取目标KeyValue集合,保证有序性。
1)检查该KeyValue的KeyType是否是Deleted/DeletedColumn/DeleteFamily等
2)检查该KeyValue的Timestamp是否在用户设定的Timestamp Range范围
3)检查该KeyValue是否满足用户设置的各种filter过滤器
4)检查该KeyValue是否满足用户查询中设定的版本数
总结:根据业务需求而定的优化,没啥鸟用
Phoenix版本46现在提供一种方式去映射HBase的本地行时间戳到Phoenix的列上。这有助于利用Hbase为存储文件的时间范围提供各种优化,以及Phoenix内置的各种查询优化功能。
对于指定为ROW_TIMESTAMP的列,需要遵守如下约束:
UPSERT INTO DESTINATION_METRICS_TABLE VALUES (, , ) - 这将CREATE_DATE的值设置为相应的绑定参数中指定的值。
UPSERT INTO DESTINATION_METRICS_TABLE (METRIC_ID, METRIC_VALUE) VALUES (, ) - 这将CREATED_DATE的值设置为服务器端时间。
UPSERT INTO DESTINATION_METRICS_TABLE (CREATED_DATE, METRICS_ID, METRIC_VALUE) SELECT DATE, METRICS_ID, METRIC_VALUE FROM SOURCE_METRICS_TABLE -这将CREATED_DATE的值设置为从SOURCE_METRICS_TABLE中选择的日期
UPSERT INTO DESTINATION_METRICS_TABLE (METRICS_ID, METRIC_VALUE) SELECT METRICS_ID, METRIC_VALUE FROM SOURCE_METRICS_TABLE-设置CREATE_DATE为服务器的时间戳。
通过过过滤行时间戳列进行查询时,除了执行Phoenix对行键列所做的常规优化外,Phoenix还能够适当地设置扫描上的最小和最大时间范围。在这个时间范围信息的帮助下,服务器端的HBase可以完全跳过那些不在时间范围内的存储文件。这极大地提高了性能,尤其是在查询数据的尾部时。
数据的确界
在HBase当中,我们可以为数据设置上界和下界,其实就是定义数据的历史版本保留多少个,通过自定义历史版本保存的数量,我们可以实现数据多个历史版本的数据查询
版本的下界
默认的版本下界是0,即禁用。row版本使用的最小数目是与生存时间(TTL Time To Live)相结合的,并且我们根据实际需求可以有0或更多的版本,使用0,即只有1个版本的值写入cell。
版本的上界
之前默认的版本上界是3,也就是一个row保留3个副本(基于时间戳的插入)。
该值不要设计的过大,一般的业务不会超过100。如果cell中存储的数据版本号超过了3个,再次插入数据时,最新的值会将最老的值覆盖。(现版本已默认为1)
数据的TTL
在实际工作当中经常会遇到有些数据过了一段时间我们可能就不需要了,那么这时候我们可以使用定时任务去定时的删除这些数据
或者我们也可以使用Hbase的TTL(Time To Live)功能,让我们的数据定期的会进行清除
以上就是关于怎么获取系统当前的时间戳全部的内容,包括:怎么获取系统当前的时间戳、hbaseshelltext如何显示命令、Hbase手动设置时间戳,无法删除数据,怎么办等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)