你所了解的大数据，是真正的大数据吗_物联网

什么是大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

大数据的定义

大数据由巨型数据集组成，这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变，截至2012年，单一数据集的大小从数太字节（TB）至数十兆亿字节（PB）不等。

在一份2001年的研究与相关的演讲中，麦塔集团（META Group，现为高德纳）分析员道格·莱尼（Doug Laney）指出数据增长的挑战和机遇有三个方向：量（Volume，数据大小）、速（Velocity，数据输入输出的速度）与多变（Variety，多样性），合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司，都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义：“大数据是大量、高速、及/或多变的信息资产，它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外，有机构在3V之外定义第4个V：真实性（Veracity）为第四特点。

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据，奥巴马更在同年投入2亿美金在大数据的开发中，更强调大数据会是之后的未来石油。数据挖掘（data mining）则是在探讨用以解析大数据的方法。

大数据的特点

具体来说，大数据具有4个基本特征：

一是数据体量巨大。百度资料表明，其新首页导航每天需要提供的数据超过15PB（1PB=1024TB），这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。

二是数据类型多样。现在的数据类型不仅是文本形式，更多的是、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。

三是处理速度快。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。

四是价值密度低。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。

大数据的作用

第一，对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。

大数据具有催生社会变革的能量。但释放这种能量，需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。

第二，大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

第三，大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。

对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对；可以为商家制定更加精准有效的营销策略提供决策支持；可以帮助企业为消费者提供更加及时和个性化的服务；在医疗领域，可提高诊断准确性和药物有效性；在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

第四，大数据时代科学研究的方法手段将发生重大改变。例如，抽样调查是社会科学的基本研究方法。在大数据时代，可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。

大数据的分析

众所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。基于如此的认识，大数据分析普遍存在的方法理论有哪些呢？

1 可视化分析。大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。

2 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统计学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。

3 预测性分析。大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。

4 语义引擎。非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能足以从数据中主动地提取信息。

5数据质量和数据管理。大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言，所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding)，也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

大数据的处理

1 大数据处理之一：采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和 *** 作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2 大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3 大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

4 大数据处理之四：挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

大数据的常见误解

一、数据不等于信息

经常有人把数据和信息当作同义词来用。其实不然，数据指的是一个原始的数据点（无论是通过数字，文字，还是视频等等），信息则直接与内容挂钩，需要有资讯性（informative）。数据越多，不一定就能代表信息越多，更不能代表信息就会成比例增多。有两个简单的例子：

备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好多解释的，每次备份都会创造出一组新的数据，但信息并没有增多。

多个社交网站上的信息。我们当中的很多人在多个社交网站上活跃，随着我们上的社交网站越多，我们获得的数据就会成比例的增多，我们获得的信息虽然也会增多，但却不会成比例的增多。不单单因为我们会互相转发好友的微博（或者其他社交网站上的内容），更因为很多内容会十分类似，有些微博虽然具体文字不同，但表达的内容十分相似。

二、信息不等于智慧（Insight）

现在我们去除了数据中所有重复的部分，也整合了内容类似的数据，现在我们剩下的全是信息了，这对我们就一定有用吗？不一定，信息要能转化成智慧，至少要满足一下三个标准：

可破译性。这可能是个大数据时代特有的问题，越来越多的企业每天都会生产出大量的数据，却还没想好怎么用，因此，他们就将这些数据暂时非结构化（unstructured）的存储起来。这些非结构化的数据却不一定可破译。比如说，你记录了某客户在你网站上三次翻页的时间间隔：3秒，2秒，17秒，却忘记标注这三个时间到底代表了什么，这些数据是信息（非重复性），却不可破译，因此不可能成为智慧。

关联性。无关的信息，至多只是噪音。

新颖性。这里的新颖性很多时候无法仅仅根据我们手上的数据和信息进行判断。举个例子，某电子商务公司通过一组数据/信息，分析出了客户愿意为当天送货的产品多支付10块钱，然后又通过另一组完全独立的数据/信息得到了同样的内容，这样的情况下，后者就不具备新颖性。不幸的是，很多时候，我们只有在处理了大量的数据和信息以后，才能判断它们的新颖性。

大数据时代存储所面对的问题

随着大数据应用的爆发性增长，它已经衍生出了自己独特的架构，而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的，就这个例子来说，我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。

从另一方面看，这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长，以及分析数据来源的多样化，此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点，他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里，我们会讨论哪些与大数据存储基础设施相关的属性，看看它们如何迎接大数据的挑战。

容量问题

这里所说的“大容量”通常可达到PB级的数据规模，因此，海量数据存储系统也一定要有相应等级的扩展能力。与此同时，存储系统的扩展一定要简便，可以通过增加模块或磁盘柜来增加容量，甚至不需要停机。基于这样的需求，客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外，内部还具备数据处理能力以及互联设备，与传统存储系统的烟囱式架构完全不同，Scale-out架构可以实现无缝平滑的扩展，避免存储孤岛。

“大数据”应用除了数据规模巨大之外，还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题，处理不当的话会影响到系统的扩展能力和性能，而传统的NAS系统就存在这一瓶颈。所幸的是，基于对象的存储架构就不存在这个问题，它可以在一个系统中管理十亿级别的文件数量，而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力，可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说，网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析，并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度，因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下，Scale-out架构的存储系统就可以发挥出优势，因为它的每一个节点都具有处理和互联组件，在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流，从而进一步提高数据吞吐量。

有很多“大数据”应用环境需要较高的IOPS性能(IOPS (Input/Output Operations Per Second)，即每秒进行读写（I/O） *** 作的次数，多用于数据库等场合，衡量随机访问的性能)，比如HPC高性能计算。此外，服务器虚拟化的普及也导致了对高IOPS的需求，正如它改变了传统IT环境一样。为了迎接这些挑战，各种模式的固态存储设备应运而生，小到简单的在服务器内部做高速缓存，大到全固态介质的可扩展存储系统等等都在蓬勃发展。

并发访问一旦企业认识到大数据分析应用的潜在价值，他们就会将更多的数据集纳入系统进行比较，同时让更多的人分享并使用这些数据。为了创造更多的商业价值，企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题，全局文件系统允许多个主机上的多个用户并发访问文件数据，而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

安全问题

某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同，而且都是必须遵从的，但是，大数据分析往往需要多类数据相互参考，而在过去并不会有这种数据混合访问的情况，因此大数据应用也催生出一些新的、需要考虑的安全性问题。

成本问题

“大”，也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说，成本控制是关键的问题。想控制成本，就意味着我们要让每一台设备都实现更高的“效率”，同时还要减少那些昂贵的部件。目前，像重复数据删除等技术已经进入到主存储市场，而且现在还可以处理更多的数据类型，这都可以为大数据存储应用带来更多的价值，提升存储效率。在数据量不断增长的环境中，通过减少后端存储的消耗，哪怕只是降低几个百分点，都能够获得明显的投资回报。此外，自动精简配置、快照和克隆技术的使用也可以提升存储的效率。

很多大数据存储系统都包括归档组件，尤其对那些需要分析历史数据或需要长期保存数据的机构来说，归档设备必不可少。从单位容量存储成本的角度看，磁带仍然是最经济的存储介质，事实上，在许多企业中，使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。

对成本控制影响最大的因素是那些商业化的硬件设备。因此，很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品，这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求，现在越来越多的存储产品都提供纯软件的形式，可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外，很多存储软件公司还在销售以软件产品为核心的软硬一体化装置，或者与硬件厂商结盟，推出合作型产品。

数据的积累

许多大数据应用都会涉及到法规遵从问题，这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全，而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间，因为任何数据都是历史记录的一部分，而且数据的分析大都是基于时间段进行的。要实现长期的数据保存，就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

灵活性

大数据存储系统的基础设施规模通常都很大，因此必须经过仔细设计，才能保证存储系统的灵活性，使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中，已经没有必要再做数据迁移了，因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用，就很难再调整了，因此它必须能够适应各种不同的应用类型和数据场景。

应用感知

最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施，比如针对政府项目开发的系统，还有大型互联网服务商创造的专用服务器等。在主流存储系统领域，应用感知技术的使用越来越普遍，它也是改善系统效率和性能的重要手段，所以，应用感知技术也应该用在大数据存储环境里。

小用户怎么办？

依赖大数据的不仅仅是那些特殊的大型用户群体，作为一种商业需求，小型企业未来也一定会应用到大数据。我们看到，有些存储厂商已经在开发一些小型的“大数据”存储系统，主要吸引那些对成本比较敏感的用户。

身处智能消费时代的大家都应该有深刻感受，物流速度在逐年增快。

根据国家邮政局预估，2020年快递业务吞吐量超740亿件，同比增长18%。面对日益增加的商品交付量，不得不重新定义产品分销方式，从而满足当今互联网消费者的需求。

商务部也针对市场发展，发布“互联网+”的专项行动计划，利好电子商务和物流业发展。随着新基建和数字化技术的成熟，智慧工厂闻风突起，物流作为其下游环节有着举足轻重的地位。所以仓储物流行业向着智慧化转型迫在眉睫。

物流仓储是一个由人工到智能的过程

物流仓储经历了：人工、机械化、自动化、智能化这四个阶段。

智能时代在自动化基础上，结合数字化通过物联网技术对货物信息进行采集处理，由云端分析并发出指令，实现无人作业。

在今年，疫情突发使得新基建以及其他行业的智慧化、无人作业的优势更为亮眼。智慧化+数字化成为了仓储物流的发展新趋势，同时搭配 hightopo 的可视化方案，让仓库全局“尽收眼底”。

自动化的仓库管理

运用自动化搬运设备对高层货架进行处理的立体仓库。通过作业设定控制面板进行任务下发和AGV任务下发。由输送机入库，堆垛机完成货物的上架。再由AGV机器人结合WMS仓库管理系统，借助MES信息化管理平台，进行高效、灵活的搬运工作。例如：排列优先的拣货路径、自动提示补货信息、上架信息提示、多种盘点和巡查方式，并可以查看任务的详细信息，跟踪货物状态。

有了这些设备和能力，仓储做到了精细化管理，并具备了实时优化的调度能力。

数字化运营方式

通过物联网以及传感器对货物属性、温度、等信息进行实时采集与分析，提供针对性的指令 *** 作。从入库到出库全流程可视，实现对货物的远程感知与 *** 控，云端可以形成三维数字服务以及仓库管理策略定制等更深层次的能力，同时支持仓储管理、订单管理、运输管理多个系统协同运行，优化了成本，提高效能。成为“仓储——分拣——配送”一站式服务。由此可见，自动化设备如同四肢一样，而数字化的运营系统相当于大脑，流程可视化则助力理清脉络。帮助管理人员“足不出户”掌握仓库全流程，实现了可视化、精细化监管。

细节管理精准 *** 作

对货物采用电子标签的方式，管理者可以随时查看货物位置与信息，入库出库过程中，每一件货物都能得到合理的调配。解决分拣错误的问题，极大提高工作效率；一般电子标签差错率少于万分之五，应用电子标签系统比手工分拣更为高效。

全局掌控节省成本

对于不同类商品集中堆放的仓储空间，采用不同种类传感器（烟感、温度传感器），对仓库实时环境监测监控，通过3D场景中进行显示，及时调配人员处理问题，保障货物安全。

线上工作流程加快了事务处理周期，平均出入库节省67%~83%的时间；人力成本减少30%，车辆成本减少20%，运营成本大大降低。

投资未来

因为物联网和5G技术的成熟，物流仓储行业也开始对自身进行智能化深度改造。不仅在技术、生产效率、节能环保等方面有了重要的突破。也改变了物流仓储行业的运营思维，从体力作业转变为技术作业，解放了人力成本。而 Hightopo 的立体仓库可视化，是为您提供更加完善的智慧管理方式。

更多资料

图扑软件（Hightopo）是由厦门图扑软件科技有限公司独立自主研发，基于HTML5标准技术的Web前端2D和3D图形界面开发框架。非常适用于实时监控系统的界面呈现，广泛应用于电信网络拓扑和设备管理，以及电力、燃气等工业自动化 (HMI/SCADA) 领域。

Hightopo 提供了一套独特的 WebGL 层抽象，将 Model–View–Presenter (MVP) 的设计模型延伸应用到了 3D 图形领域。使用 Hightopo 您可更关注于业务逻辑功能，不必将精力投入复杂 3D 渲染和数学等非业务核心的技术细节。

随着以5G、区块链、物联网、大数据、云计算、数字孪生、人工智能等数字科技为引领的第四次工业革命的兴起，产业互联网发展进入快车道，居民消费转向线上并呈现个性化、定制化、多元化的趋势。为了把握这个短暂的转型窗口期，大部分商业银行都纷纷进行数字化转型，对于数字化转型的本质、难点仍在探索阶段。因此，笔者以在商业银行的实际管理经验为基础，借鉴智能工业数字化的历程，探讨商业银行数字化转型的实际方法。

数字化转型的本质：数据流动的自动化

信息技术爆发式进步对商业银行的本质影响，是将商业银行置于不确定性的环境中。数字科技直接拉近了银行与客户之间的距离，在竞争激烈的互联网环境下，银行必须在金融交付方式上满足客户个性化需求，以此获取、激活并黏住宝贵的客户资源。在数字时代，银行必须以有限的人力、财务、研发等资源，以创新的金融服务快速响应客户不确定的金融需求。对于任何一家银行来说，资源都成了最为紧缺的要素，只有提高资源的配置效率，才可能缩短产品研发周期、提升服务体验、敏捷预测金融需求等。因此，在不确定性的环境中，银行竞争的核心就是资源配置效率的竞争。

资源配置的背后，是银行在研发、设计、交付、定价、客服、营销等每一个环节的决策。在数字时代，决策是否智能，决定了资源配置效率的高低。此处“智能”，是指一个主体对外部市场环境的变化作出响应的能力。以智能制造为参考，美国NSIT强调智能制造解决的三个基本问题是：差异性更大的定制化服务、更小的生产批量、不可预知的供应链变更，其本质就是响应外部环境的不确定性变化。

银行的智能决策，不仅仅是物理世界中看得到的机器设备自动化，还表现为虚拟世界中看不到的数据流动的自动化。数据流动的自动化要求实现“五个正确”，即把正确的信息，在正确的时间，用正确的方式传递给正确的人，以此为依据作出正确的决策。例如，客户需求信息被采集之后，在银行的经营管理、产品设计、体验设计、产品研发、产品测试、产品维护等每一个环节流动，信息不断被加工、处理、执行，进而实现在正确的时间将正确的数据以正确的方式传递给正确的人和机器。正是信息技术、物联网、大数据等数字科技的进步，保障了数据流动的自动化，从而帮助银行构建更加高效、低成本、精准、科学的智能决策体系。

基于以上分析，商业银行数字化转型的根本动机，是以数据流动的自动化来化解复杂环境的不确定性。传统机器设备的自动化替代了体力劳动，数据流动的自动化则替代了脑力劳动。判断银行内部决策是否智能，就是看在数据流动的每个环节，是不是需要越来越少的人参与。基于智能决策的要求，数据流动的内涵也有了巨大的变化，过去的数据流动是基于文档的流动，今天的数据流动是基于模型、风控、反欺诈、交易要素的流动。因此，商业银行数字化转型的本质可以定义为：在“数据+算法”定义的世界中，以数据流动的自动化化解复杂系统的不确定性，对外部的环境变化作出高效响应，最终目的在于提高资源配置的效率。

数字化转型的最大难点：集成应用困境

数字化集成的本质，是不同业务系统之间的数据能够实现互联、互通、互 *** 作。集成是智能制造的核心概念，德国工业40提出三个集成（横向集成、纵向集成、端到端集成），中国工业和信息化部提出两化融合的四个阶段（基础建设、单向应用、综合集成、创新引领），都在强调将单向应用系统打通。集成之所以对银行数字化转型同样重要，是因为银行信息化的投入和收益并不是线性相关的，收益只有在投入跨越了某一临界点之后才会呈现指数化增长。因此，银行数字化转型从单向应用、企业级集成、产业金融链集成到产业金融生态集成，只有在集成跨越了某一拐点之后，数字化转型的效益才能体现出来。如果说，工业互联网所要解决的核心问题是在产业链和产业生态层面上构建一个新的数字化转型的体系，那么当前银行核心系统下移与分布式系统上行所要解决的核心问题是在金融交易服务与金融生态服务上构建一个新的数字化转型体系。遗憾的是，当前所能提供的商业银行数字化转型的解决方案，更多针对的是单向应用。

正如“中等收入陷阱”一样，从单向应用迁移到集成应用将面临诸多挑战，我们称之为“集成应用陷阱”或“集成应用困境”。无论是在智能制造领域还是金融科技领域，真正实现内部集成是非常困难的。基于对国内十多万家企业集成水平的评估，能够在产品设计、工艺设计、生产制造、生产过程控制、产品测试、产品维护等环节打通的领先企业数量非常有限。基于对国内外一万多家商业银行集成水平的评估，能在金融产品需求、研发、测试、上线、营销、风控、反欺诈、API对接、ISV等环节打通的领先银行数量同样非常有限。但是国内一些互联网银行，如网商银行、微众银行，已经成为商业银行数字化转型的标杆企业。互联网银行能够跨越集成应用困境，主要因为天生具备互联网生态基因，在建设产品体系时有集成的意识，且多以C-Bank模式从零开始建设，集成难度相对较小。

集成应用困境的核心矛盾是企业全局优化的需求和碎片化的IT供给之间的矛盾。当前商业银行竞争的核心是资源优化配置效率的竞争，需要在更大的范围、更广的领域、全流程、全生命周期、全场景推动数字化转型，只有实现全局集成、全局优化，才能创造更多的价值。但是当前商业银行的IT供给依然是碎片化的，这源于过去60年里碎片化的IT供给史，无论是核心系统研发，还是金融产品研发，解决问题的基本思路都是先解决局部问题，再把一个点的问题拓展为一个线的问题。碎片化供给的思路延续至今，导致当前商业银行往往出现几百套相互孤立的“烟囱式”产品系统，能够实现开放式的银行体系只是凤毛麟角。商业银行数字化转型，不仅需要点、面的解决方案，更需要一个生态级别的解决方案。

“数字化转型20”商业模式解决方案

当前商业银行的核心系统、产品系统已经变得越来越复杂，而传统IT技术架构解决方案与支撑复杂产品系统的要求差距越来越大。为解决企业全局优化的需求和碎片化IT供给的基本矛盾，商业银行必须在边缘计算、云计算、移动端架构体系之上构建一套新的商业模式解决方案，即“数字化转型20”。如果说“数字化转型10”是基于传统IT架构和桌面端，那么“数字化转型20”是基于边缘计算、云计算、移动端为代表的IoT的新技术渠道。

“数字化转型20”可以划分为需求端、供给端、供需端、数据价值四个层面。在需求端，银行不再基于相对确定的需求来实现低成本、高效率，而是基于更加个性化定制、碎片化的不确定性需求，进行商业模式创新（包括业务创新、产品创新、商业模式创新、组织创新）。在供给端，面向流程、面向局部的封闭技术体系已不够，需要构建一个面向角色、面向场景、面向需求、全局优化的开放技术体系。在供需端，交付软硬件不再是全部任务的结束、而是运营工作的开始，和客户一起运营为客户的客户提供更有价值的解决方案。在数据端，围绕数据价值实现层面，包括业务数据化和数据业务化两个层次，即在数据底座之上，基于客户实时需求，利用基于云的技术中台、业务中台、数据中台快速构建与迭代解决方案。

商业银行原有技术体系复杂，在实现“数字化转型20”时，必须解决原有架构体系向新架构体系迁移的问题。以工业互联网为参照，工业互联网把工业的技术、经验、知识、最佳实践等封装为各种各样的组件，通过提高共性技术知识的沉淀与复用水平，重构工业知识创造、传播和应用的新体系，降低了创新的成本和风险，提高了研发生产服务的效率。商业银行将传统架构体系向“数字化转型20”迁移，可以按照以下四个步骤执行：一是解构数据，不断地用软件去解构和分解当前产品系统的数据；二是构建微服务池，基于数据组件，构建新的微服务池；三是链接平台，针对金融产品解决方案，调用和链接相关微服务；四是重新构建一个面向角色、面向场景的APP。“解构—微服务池—调用—面向场景APP”体系也将员工从重复性工作解放出来，使其可以投入精力和时间从事创造性的工作。

“数字化转型20”的未来，是构建一个虚拟的数字“孪生世界”。在虚拟世界里，商业银行可以更加高效、低成本、精准地模拟现实世界，智能地作出决策，并将决策结果反馈到现实世界，最终迈向零成本试错之路，最优化地响应不确定性环境。

作者罗勇「中国民生银行」

文章《中国金融》2022年第1期

本文源自中国金融

我国经济的发展和房地产的关系犹如“鱼儿离不开水”。回顾过去的10年，我国GDP总量从全球第三到第二、人均GDP从几千美元到破万，北上广急速发展的同时，房价也在背后悄然上涨，2017年的厦门房价已经破4万，在房价如此居高不下的情况下，地方经济想穷也没办法穷！

2008年-2019年，房产经济推动地方经济高速发展房产经济确实能推动GDP的高速发展，但是甜蜜的房产经济对经济结构的冲击和造成的危害也是显而易见的。在过去10年的房产经济黄金十年里，房地产商深陷房产热难以自拔，甚至之前与房地产一点关系都没有的企业都开始涉足房地产。

以我们城市为例，之前酿酒的企业开始拿地开发住宅、国企也涉足房地产、干贸易的也归拢资金涉足房地产，一时间往日繁忙的工厂开始削减产能，工厂烟囱不冒烟了，反而各个工地的塔吊越来越多。

在过去的几年里，从相关数据的披露来看，很多城市的财政收入中有60%都来自于房地产。相对于发展实体经济和发展创新型经济，显然卖地对于地方政府更得心应手一些，毕竟卖卖地、披披手续就能使财政收入有较大增收，何必绞尽脑汁发展实体经济？

（各省对房地产经济的依赖度排行）但是房价过度上涨，过度依赖房产经济显然是对经济增速的过度透支，在房产经济繁荣的背后，其实牺牲的是一代人的幸福。这种依赖房地产作为经济引擎的局面亟待作出改变和调整。未来5年，中国经济的增长需要依靠什么？“只有房地产才能拯救中国经济”？其实不见得。

在2018年，受楼市的严厉调控政策的影响，从上到下贯彻“房子是用来住的，不是用来炒的”，在这么严格的房价控制措施之下，我国GDP增速依然高达66%，地方上不断出现土地流拍和炒房客被套住的现象，这就说明我国经济并不是离不开房地产，在房产经济被弱化被边缘化的过程中，我国经济有其他的“增长点”。

那么未来5年，我国经济增长需要依靠什么呢？首先，严格意义上来讲，消费、出口、投资才是拉动经济增长的三驾马车，今年是疫情之年，全球需求萎靡不振，加上贸易保护主义在不断抬头和泛滥，实际上出口这驾马车已经严重动力不足。所以我们需要重新分析和审视经济增长动力，其实中国经济的增长主要依赖的还是投资。投资的大方向有三种，一是新基建，二是制造业，三是房地产。

房地产在上文已经说过了，从上到下的政策都在对其进行限制，不可能再有很大的作为了；而制造业同样受疫情的影响较大，加上最近几年国家正在对低端制造业去产能，加快产业升级，那些没有技术含量的劳动密集型制造业正在逐步被抛弃。

这样说来，疫情之年对经济的冲击，加上从年初的政策来看，未来5年新基建是最大规模的投资方向。从另一方面讲，国家目前提倡的人工智能、大数据、互联网经济、物联网等新经济引擎依然需要基础建设的加持，所以投资绝对是未来5年我国经济增长最为重要的依靠所在。

房地产经济是一个逐步退出的过程，未来依然对我国经济的发展有所加持，不会出现“一刀切”的情况上文我们说到未来5年“投资”将会是经济发展的最大推动力，但是实际上房地产经济也“一刀切”式的退出市场，为了防止经济断崖式放缓，房产经济依然会对经济增长保持加持的作用。

其实在一点我们从国家统计局在月初公布的开发投资数据中就能看出，数据中显示，2020年8月房地产投资金额仍有88454的投资巨量，同比增长46%，说明房地产行业正在恢复元气，给疫情后的经济注入动力。

结语未来5年，中国经济将更注重质量和结构，这也是为了以后在全球经济发展中打下一个有力的竞争基础。此外，除了投资的拉动作用，消费和拉动内需也是一个重要的点，中国的14亿人口是拉动消费、拉动内需的保障，市场活力和市场能量会超乎我们的想象。对此，大家怎么看？欢迎留言交流。码字不易，给点个赞、点个关注吧。

未来大数据应用的六大趋势：
1、区块链技术
区块链是计算机技术的新应用模式，包括分布式数据存储、共识机制、点对点传输、加密算法等等。区块链技术是指全民参与记账的方式。所有系统后面都有数据库。可以将数据库看作是一个大账簿。现在各自记着自己的账。
2、智慧城市
智能城市是利用信息和通信技术手段检测、分析、集成城市运营核心系统的关键信息，智能地应对包括民生、环境保护、公共安全、城市服务、工商业活动在内的各种需求。其本质是利用先进的信息技术为城市人民创造更好的生活，促进城市的和谐和可持续发展。
随着社会的发展，未来城市承载人口也会越来越多。目前我国正处于城市化加速时期，部分地区的“城市病”问题日益严重。建设智慧城市已成为当今世界城市发展一个新的趋势。
3、虚拟现实(VR)和增强现实(AR)技术
拟现实技术是一种可以体验虚拟世界的仿真系统，它利用计算机生成模拟环境，使用户沉浸在环境中。比起VR，AR它不是单纯被创造出来的。现实是我们肉眼能看到的东西，耳朵能听到的东西，皮肤能识别的东西，所在的世界。从广义上说，在现实基础技术上，添加相关、附加内容，就可以说是增强现实。
4、物联网
物联网就是所有物品都可以通过信息传感设备连接到互联网上，进行信息交换，物品与物品紧密相连，实现智能识别和管理。物联网是新一代信息技术的重要一部分，也是信息时代的一个重要发展阶段。
5、语音识别技术
语音识别是一门跨学科的学问。近些年来，语音识别技术有了明显的发展，开始从实验室进入市场。语音识别技术将进入产业、通信、家电、医疗、汽车、电子、家庭服务、消费电子产品等多种领域。语音识别技术包括信号处理、模式识别、概率论和信息论、发声系统和听觉机理、人工智能等。
语音识别是一种通用的无屏幕接口，可以快速集成到各种工具中，在智能设备和手机中非常有用。
6、人工智能(AI)
人工智能，英文缩写为AI。是研究、开发、开发用于模拟、扩展和扩展的智能的理论、方法、技术和应用系统的新技术科学。
更懂消费者的数字营销服务
点亮工场
查看
人工智能需要接受教育，需要输入大量信息才能进化，从而产生意想不到的结果。AI有很大的影响，比如媒体行业，现在电脑和机器人可以生产好文章，一个小时几百篇，成本也很低。AI可以对经济发展产生很大影响，很多知识产业和白领职业也可以被机器人取代。
大数据已经成为时代发展的必然产物，大数据正在迅速渗透到我们的日常生活中，在衣食住行的方方面面都有体现。大数据时代，所有的可量化，所有的可分析。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/dianzi/10396548.html

你所了解的大数据，是真正的大数据吗

发表评论

评论列表（0条）