大数据都是需要什么技术的

大数据都是需要什么技术的,第1张

数据技术庞大复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等范畴

查询引擎:Phoenix、Shark、Pig、Hive等

流式计算:storm、Twitter Rainbird等

迭代计算:Apache Hama、Apache Giraph、HaLoop等

离线计算:Hadoop MapReduce、Berkeley Spark等

键值存储:LevelDB、RocksDB、HyperDex、Voldemort等

表格存储:OceanBase、Amazon SimpleDB、Cassandra、HBase等

文件存储:CouchDB、MongoDB、HDFS等

资源管理:Twitter Mesos、Hadoop Yarn

1 文档数据库,没研究过定义,通常mongodb 就是文档数据库,特点就是数据定义比较灵活。

2 Kv数据库,提供的是kv的数据表示模式。单机的rocksdb,分布式的tikv之类。

3 图数据库。数据可以用图来定义。

4 列式数据库。hbase之类,这里可能有争议,很多人把hbase 定义为列存。

关于 C++ 框架、库和资源的一些汇总列表,内容包括:标准库、Web应用框架、人工智能、数据库、处理、机器学习、日志、代码分析等。有需要的小伙伴可以收藏一下!

C++标准库,包括了STL容器,算法和函数等。

C++ Standard Library:是一系列类和函数的集合,使用核心语言编写,也是C++ISO自身标准的一部分。

Standard Template Library:标准模板库

C POSIX library : POSIX系统的C标准库规范

ISO C++ Standards Committee :C++标准委员会

C++通用框架和库

Apache C++ Standard Library:是一系列算法,容器,迭代器和其他基本组件的集合

ASL :Adobe源代码库提供了同行的评审和可移植的C++源代码库。

Boost :大量通用C++库的集合。

BDE :来自于彭博资讯实验室的开发环境。

Cinder:提供专业品质创造性编码的开源开发社区。

Cxxomfort:轻量级的,只包含头文件的库,将C++ 11的一些新特性移植到C++03中。

Dlib:使用契约式编程和现代C++ 科技 设计的通用的跨平台的C++库。

EASTL :EA-STL公共部分

ffead-cpp :企业应用程序开发框架

Folly:由Facebook开发和使用的开源C++库

JUCE :包罗万象的C++类库,用于开发跨平台软件

libPhenom:用于构建高性能和高度可扩展性系统的事件框架。

LibSourcey :用于实时的视频流和高性能网络应用程序的C++11 evented IO

LibU : C语言写的多平台工具库

Loki :C++库的设计,包括常见的设计模式和习语的实现。

MiLi :只含头文件的小型C++库

openFrameworks :开发C++工具包,用于创意性编码。

Qt :跨平台的应用程序和用户界面框架

Reason :跨平台的框架,使开发者能够更容易地使用Java,Net和Python,同时也满足了他们对C++性能和优势的需求。

ROOT :具备所有功能的一系列面向对象的框架,能够非常高效地处理和分析大量的数据,为欧洲原子能研究机构所用。

STLport:是STL具有代表性的版本

STXXL:用于额外的大型数据集的标准模板库。

Ultimate++ :C++跨平台快速应用程序开发框架

Windows Template Library:用于开发Windows应用程序和UI组件的C++库

Yomm11 :C++11的开放multi-methods

btsk : 游戏 行为树启动器工具

Evolving Objects:基于模板的,ANSI C++演化计算库,能够帮助你非常快速地编写出自己的随机优化算法。

Neu:C++11框架,编程语言集,用于创建人工智能应用程序的多用途软件系统。

BoostAsio:用于网络和底层I/O编程的跨平台的C++库。

libev :功能齐全,高性能的时间循环,轻微地仿效libevent,但是不再像libevent一样有局限性,也修复了它的一些bug。

libevent :事件通知库

libuv :跨平台异步I/O。

音频,声音,音乐,数字化音乐库

FMOD :易于使用的跨平台的音频引擎和音频内容的 游戏 创作工具。

Maximilian :C++音频和音乐数字信号处理库

OpenAL :开源音频库—跨平台的音频API

Opus:一个完全开放的,免版税的,高度通用的音频编解码器

Speex:免费编解码器,为Opus所废弃

Tonic: C++易用和高效的音频合成

Vorbis: Ogg Vorbis是一种完全开放的,非专有的,免版税的通用压缩音频格式。

生物信息,基因组学和生物技术

libsequence:用于表示和分析群体遗传学数据的C++库。

SeqAn:专注于生物数据序列分析的算法和数据结构。

Vcflib :用于解析和处理VCF文件的C++库

Wham:直接把联想测试应用到BAM文件的基因结构变异。

压缩和归档库

bzip2:一个完全免费,免费专利和高质量的数据压缩

doboz:能够快速解压缩的压缩库

PhysicsFS:对各种归档提供抽象访问的库,主要用于视频 游戏 ,设计灵感部分来自于Quake3的文件子系统。

KArchive:用于创建,读写和 *** 作文件档案(例如zip和 tar)的库,它通过QIODevice的一系列子类,使用gzip格式,提供了透明的压缩和解压缩的数据。

LZ4 :非常快速的压缩算法

LZHAM :无损压缩数据库,压缩比率跟LZMA接近,但是解压缩速度却要快得多。

LZMA :7z格式默认和通用的压缩方法。

LZMAT :及其快速的实时无损数据压缩库

miniz:单一的C源文件,紧缩/膨胀压缩库,使用zlib兼容API,ZIP归档读写,PNG写方式。

Minizip:Zlib最新bug修复,支持PKWARE磁盘跨越,AES加密和IO缓冲。

Snappy :快速压缩和解压缩

ZLib :非常紧凑的数据流压缩库

ZZIPlib:提供ZIP归档的读权限。

并发执行和多线程

BoostCompute :用于OpenCL的C++GPU计算库

Bolt :针对GPU进行优化的C++模板库

C++React :用于C++11的反应性编程库

Intel TBB :Intel线程构件块

Libclsph:基于OpenCL的GPU加速SPH流体仿真库

OpenCL :并行编程的异构系统的开放标准

OpenMP:OpenMP API

Thrust :类似于C++标准模板库的并行算法库

HPX :用于任何规模的并行和分布式应用程序的通用C++运行时系统

VexCL :用于OpenCL/CUDA 的C++向量表达式模板库。

C++ B-tree :基于B树数据结构,实现命令内存容器的模板库

Hashmaps: C++中开放寻址哈希表算法的实现

Bcrypt :一个跨平台的文件加密工具,加密文件可以移植到所有可支持的 *** 作系统和处理器中。

BeeCrypt:

Botan: C++加密库

Crypto++:一个有关加密方案的免费的C++库

GnuPG: OpenPGP标准的完整实现

GnuTLS :实现了SSL,TLS和DTLS协议的安全通信库

Libgcrypt

libmcrypt

LibreSSL:免费的SSL/TLS协议,属于2014 OpenSSL的一个分支

LibTomCrypt:一个非常全面的,模块化的,可移植的加密工具

libsodium:基于NaCI的加密库,固执己见,容易使用

Nettle 底层的加密库

OpenSSL : 一个强大的,商用的,功能齐全的,开放源代码的加密库。

Tiny AES128 in C :用C实现的一个小巧,可移植的实现了AES128ESB的加密算法

数据库,SQL服务器,ODBC驱动程序和工具

hiberlite :用于Sqlite3的C++对象关系映射

Hiredis: 用于Redis数据库的很简单的C客户端库

LevelDB: 快速键值存储库

LMDB:符合数据库四大基本元素的嵌入键值存储

MySQL++:封装了MySql的C API的C++ 包装器

RocksDB:来自Facebook的嵌入键值的快速存储

SQLite:一个完全嵌入式的,功能齐全的关系数据库,只有几百KB,可以正确包含到你的项目中。

调试库, 内存和资源泄露检测,单元测试

BoostTest:Boost测试库

Catch:一个很 时尚 的,C++原生的框架,只包含头文件,用于单元测试,测试驱动开发和行为驱动开发。

CppUnit:由JUnit移植过来的C++测试框架

CTest:CMake测试驱动程序

googletest:谷歌C++测试框架

ig-debugheap:用于跟踪内存错误的多平台调试堆

libtap:用C语言编写测试

MemTrack —用于C++跟踪内存分配

microprofile- 跨平台的网络试图分析器

minUnit :使用C写的迷你单元测试框架,只使用了两个宏

Remotery:用于web视图的单一C文件分析器

UnitTest++:轻量级的C++单元测试框架

Cocos2d-x :一个跨平台框架,用于构建2D 游戏 ,互动图书,演示和其他图形应用程序。

Grit :社区项目,用于构建一个免费的 游戏 引擎,实现开放的世界3D 游戏 。

Irrlicht :C++语言编写的开源高性能的实时#D引擎

Polycode:C++实现的用于创建 游戏 的开源框架(与Lua绑定)。

CEGUI : 很灵活的跨平台GUI库

FLTK :快速,轻量级的跨平台的C++GUI工具包。

GTK+: 用于创建图形用户界面的跨平台工具包

gtkmm :用于受欢迎的GUI库GTK+的官方C++接口。

imgui:拥有最小依赖关系的立即模式图形用户界面

libRocket :libRocket 是一个C++ HTML/CSS 游戏 接口中间件

MyGUI :快速,灵活,简单的GUI

Ncurses:终端用户界面

QCustomPlot :没有更多依赖关系的Qt绘图控件

Qwt :用户与技术应用的Qt 控件

QwtPlot3D :功能丰富的基于Qt/OpenGL的C++编程库,本质上提供了一群3D控件

OtterUI :OtterUI 是用于嵌入式系统和互动 娱乐 软件的用户界面开发解决方案

PDCurses 包含源代码和预编译库的公共图形函数库

wxWidgets C++库,允许开发人员使用一个代码库可以为widows, Mac OS X,Linux和其他平台创建应用程序

bgfx:跨平台的渲染库

Cairo:支持多种输出设备的2D图形库

Horde3D 一个小型的3D渲染和动画引擎

magnum C++11和OpenGL 2D/3D 图形引擎

Ogre 3D 用C++编写的一个面向场景,实时,灵活的3D渲染引擎(并非 游戏 引擎)

OpenSceneGraph 具有高性能的开源3D图形工具包

Panda3D 用于3D渲染和 游戏 开发的框架,用Python和C++编写。

Skia 用于绘制文字,图形和图像的完整的2D图形库

urho3d 跨平台的渲染和 游戏 引擎。

BoostGIL:通用图像库

CImg :用于图像处理的小型开源C++工具包

CxImage :用于加载,保存,显示和转换的图像处理和转换库,可以处理的格式包括 BMP, JPEG, GIF, PNG, TIFF, MNG, ICO, PCX, TGA, WMF, WBMP, JBG, J2K。

FreeImage :开源库,支持现在多媒体应用所需的通用格式和其他格式。

GDCM:Grassroots DICOM 库

ITK:跨平台的开源图像分析系统

Magick++:ImageMagick程序的C++接口

MagickWnd:ImageMagick程序的C++接口

OpenCV : 开源计算机视觉类库

tesseract-ocr:OCR引擎

VIGRA :用于图像分析通用C++计算机视觉库

VTK :用于3D计算机图形学,图像处理和可视化的开源免费软件系统。

最后, 对于学习编程或者在工作想升职的程序员兄弟,如果你想更好的提升你的编程能力帮助你提升水平! 笔者这里或许可以帮到你~

编程学习书籍分享:

编程学习视频分享:

分享(源码、项目实战视频、项目笔记,基础入门教程)

欢迎转行和学习编程的伙伴,利用更多的资料学习成长比自己琢磨更快哦!

TiDB 是 PingCAP 自主研发的开源分布式关系型数据库,具备商业级数据库的数据可靠性,可用性,安全性等特性,支持在线d性水平扩展,兼容 MySQL 协议及生态,创新性实现 OLTP 及 OLAP 融合。

TiDB 30 版本显著提升了大规模集群的稳定性,集群支持 150+ 存储节点,300+TB 存储容量长期稳定运行。易用性方面引入大量降低用户运维成本的优化,包括引入 Information_Schema 中的多个实用系统视图、EXPLAIN ANALYZE、SQL Trace 等。在性能方面,特别是 OLTP 性能方面,30 比 21 也有大幅提升,其中 TPC-C 性能提升约 45 倍,Sysbench 性能提升约 15 倍,OLAP 方面,TPC-H 50G Q15 因实现 View 可以执行,至此 TPC-H 22 个 Query 均可正常运行。新功能方面增加了窗口函数、视图(实验特性)、分区表、插件系统、悲观锁(实验特性)。

截止本文发稿时 TiDB 已在 500+ 用户的生产环境中长期稳定运行,涵盖金融、保险、制造,互联网, 游戏 等领域,涉及交易、数据中台、 历史 库等多个业务场景。不同业务场景对关系型数据库的诉求可用 “百花齐放”来形容,但对关系数据库最根本的诉求未发生任何变化,如数据可靠性,系统稳定性,可扩展性,安全性,易用性等。请跟随我们的脚步梳理 TiDB 30 有什么样的惊喜。

30 与 21 版本相比,显著提升了大规模集群的稳定性,支持单集群 150+ 存储节点,300+TB 存储容量长期稳定运行,主要的优化点如下:

1 优化 Raft 副本之间的心跳机制,按照 Region 的活跃程度调整心跳频率,减小冷数据对集群的负担。

2 热点调度策略支持更多参数配置,采用更高优先级,并提升热点调度的准确性。

3 优化 PD 调度流程,提供调度限流机制,提升系统稳定性。

4 新增分布式 GC 功能,提升 GC 的性能,降低大集群 GC 时间,提升系统稳定性。

众所周知,数据库查询计划的稳定性对业务至关重要,TiDB 30 版本采用多种优化手段提升查询计划的稳定性,如下:

1 新增 Fast Analyze 功能,提升收集统计信息的速度,降低集群资源的消耗及对业务的影响。

2 新增 Incremental Analyze 功能,提升收集单调递增的索引统计信息的速度,降低集群资源的消耗及对业务的影响。

3 在 CM-Sketch 中新增 TopN 的统计信息,缓解 CM-Sketch 哈希冲突导致估算偏大,提升代价估算的准确性,提升查询计划的稳定性。

4 引入 Skyline Pruning 框架,利用规则防止查询计划过度依赖统计信息,缓解因统计信息滞后导致选择的查询计划不是最优的情况,提升查询计划的稳定性。

5 新增 SQL Plan Management 功能,支持在查询计划不准确时手动绑定查询计划,提升查询计划的稳定性。

1 OLTP

30 与 21 版本相比 Sysbench 的 Point Select,Update Index,Update Non-Index 均提升约 15 倍,TPC-C 性能提升约 45 倍。主要的优化点如下:

1 TiDB 持续优化 SQL 执行器,包括:优化 NOT EXISTS 子查询转化为 Anti Semi Join,优化多表 Join 时 Join 顺序选择等。

2 优化 Index Join 逻辑,扩大 Index Join 算子的适用场景并提升代价估算的准确性。

3 TiKV 批量接收和发送消息功能,提升写入密集的场景的 TPS 约 7%,读密集的场景提升约 30%。

4 TiKV 优化内存管理,减少 Iterator Key Bound Option 的内存分配和拷贝,多个 Column Families 共享 block cache 提升 cache 命中率等手段大幅提升性能。

5 引入 Titan 存储引擎插件,提升 Value 值超过 1KB 时性能,缓解 RocksDB 写放大问题,减少磁盘 IO 的占用。

6 TiKV 新增多线程 Raftstore 和 Apply 功能,提升单节点内可扩展性,进而提升单节点内并发处理能力和资源利用率,降低延时,大幅提升集群写入能力。

TiDB Lightning 性能与 2019 年年初相比提升 3 倍,从 100GB/h 提升到 300GB/h,即 28MB/s 提升到 85MB/s,优化点,如下:

1 提升 SQL 转化成 KV Pairs 的性能,减少不必要的开销。

2 提升单表导入性能,单表支持批量导入。

3 提升 TiKV-Importer 导入数据性能,支持将数据和索引分别导入。

4 TiKV-Importer 支持上传 SST 文件限速功能。

RBAC(Role-Based Access Control,基于角色的权限访问控制) 是商业系统中最常见的权限管理技术之一,通过 RBAC 思想可以构建最简单“用户-角色-权限”的访问权限控制模型。RBAC 中用户与角色关联,权限与角色关联,角色与权限之间一般是多对多的关系,用户通过成为什么样的角色获取该角色所拥有的权限,达到简化权限管理的目的,通过此版本的迭代 RBAC 功能开发完成。

IP 白名单功能(企业版特性) :TiDB 提供基于 IP 白名单实现网络安全访问控制,用户可根据实际情况配置相关的访问策略。

Audit log 功能(企业版特性) :Audit log 记录用户对数据库所执行的 *** 作,通过记录 Audit log 用户可以对数据库进行故障分析,行为分析,安全审计等,帮助用户获取数据执行情况。

加密存储(企业版特性) :TiDB 利用 RocksDB 自身加密功能,实现加密存储的功能,保证所有写入到磁盘的数据都经过加密,降低数据泄露的风险。

完善权限语句的权限检查 ,新增 ANALYZE,USE,SET GLOBAL,SHOW PROCESSLIST 语句权限检查。

1 新增 SQL 方式查询慢查询,丰富 TiDB 慢查询日志内容,如:Coprocessor 任务数,平均/最长/90% 执行/等待时间,执行/等待时间最长的 TiKV 地址,简化慢查询定位工作,提高排查慢查询问题效率,提升产品易用性。

2 新增系统配置项合法性检查,优化系统监控项等,提升产品易用性。

3 新增对 TableReader、IndexReader 和 IndexLookupReader 算子内存使用情况统计信息,提高 Query 内存使用统计的准确性,提升处理内存消耗较大语句的效率。

4 制定日志规范,重构日志系统,统一日志格式,方便用户理解日志内容,有助于通过工具对日志进行定量分析。

5 新增 EXPLAIN ANALYZE 功能,提升SQL 调优的易用性。

6 新增 SQL 语句 Trace 功能,方便排查问题。

7 新增通过 unix_socket 方式连接数据库。

8 新增快速恢复被删除表功能,当误删除数据时可通过此功能快速恢复数据。

TiDB 30 新增 TiFlash 组件,解决复杂分析及 HTAP 场景。TiFlash 是列式存储系统,与行存储系统实时同步,具备低延时,高性能,事务一致性读等特性。 通过 Raft 协议从 TiKV 中实时同步行存数据并转化成列存储格式持久化到一组独立的节点,解决行列混合存储以及资源隔离性问题。TiFlash 可用作行存储系统(TiKV)实时镜像,实时镜像可独立于行存储系统,将行存储及列存储从物理隔离开,提供完善的资源隔离方案,HTAP 场景最优推荐方案;亦可用作行存储表的索引,配合行存储对外提供智能的 OLAP 服务,提升约 10 倍复杂的混合查询的性能。

TiFlash 目前处于 Beta 阶段,计划 2019 年 12 月 31 日之前 GA,欢迎大家申请试用。

未来我们会继续投入到系统稳定性,易用性,性能,d性扩展方面,向用户提供极致的d性伸缩能力,极致的性能体验,极致的用户体验。

稳定性方面 V40 版本将继续完善 V30 未 GA 的重大特性,例如:悲观事务模型,View,Table Partition,Titan 行存储引擎,TiFlash 列存储引擎;引入近似物理备份恢复解决分布数据库备份恢复难题;优化 PD 调度功能等。

性能方面 V40 版本将继续优化事务处理流程,减少事务资源消耗,提升性能,例如:1PC,省去获取 commit ts *** 作等。

d性扩展方面,PD 将提供d性扩展所需的元信息供外部系统调用,外部系统可根据元信息及负载情况动态伸缩集群规模,达成节省成本的目标。

我们相信战胜“未知”最好的武器就是社区的力量,基础软件需要坚定地走开源路线。截止发稿我们已经完成 41 篇源码阅读文章。TiDB 开源社区总计 265 位 Contributor,6 位 Committer,在这里我们对社区贡献者表示由衷的感谢,希望更多志同道合的人能加入进来,也希望大家在 TiDB 这个开源社区能够有所收获。

TiDB 30 GA Release Notes: >

做存储, 数据库系统方面的开发,主要用到 grpc/libevent/libev/libasio 实现高性能网络服务器 protobuf 数据结构序列化/反序列化,方便数据交换 LevelDB/RocksDB 嵌入式KV数据库 snappy/zlib/lz4 数据压缩,解压缩 jemalloc/tcmalloc 高效内存分配器,尤其多线程场景 jerasure Reed Solomon编解码,给存储系统实现erasure code murmurhash… 实现hash摘要 crc32 数据存储或传输时的数据校验 cJSON 解析json格式配置文件 libBSON JSON序列化/反序列化,MongoDB使用这种格式存储数据 boost 功能丰富的C++基础库,轻度使用,C++11/14后基本不用了。 libRedis redis是一个数据库服务,并不是单独的库,但其代码精简,质量非常高,里面很多代码都可以拿出来直接复用,比如网络,各种数据结构的实现。

以上就是关于大数据都是需要什么技术的全部的内容,包括:大数据都是需要什么技术的、什么是非关系型数据库、吐血整理:C++编程语言资源汇总等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9688814.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存