如何让数据流动起来,让数据拥抱数据

如何让数据流动起来,让数据拥抱数据,第1张

围墙里的大数据注定成为死数据。大数据需要开放式创新,从数据的开放、共享和交易,到价值提取能力的开放,再到基础处理和分析平台的开放,让数据如同血液在数据社会的躯体中长流,滋润数据经济,让更多的长尾企业和数据思维创新者产生多姿多彩的化学作用,才能创造大数据的黄金时代。
我的大数据研究轨迹
我做了4-5年的移动架构和Java虚拟机,4-5年的众核架构和并行编程系统,最近4-5年也在追时髦,先是投入物联网,最近几年一直在做大数据。我们团队的大数据研究轨迹如下图所示:
2010-2012年,主要关注数据和机器的关系:水平扩展、容错、一致性、软硬件协同设计,同时厘清各种计算模式,从批处理(MapReduce)到流处理、Big SQL/ad hoc query、图计算、机器学习等等。事实上,我们的团队只是英特尔大数据研发力量的一部分,上海的团队是英特尔Hadoop发行版的主力军,现在英特尔成了Cloudera的最大股东,自己不做发行版了,但是平台优化、开源支持和垂直领域的解决方案仍然是英特尔大数据研发的重心。
从2013年开始关注数据与人的关系:对于数据科学家怎么做好分布式机器学习、特征工程与非监督学习,对于领域专家来说怎么做好交互式分析工具,对于终端用户怎么做好交互式可视化工具。英特尔研究院在美国卡内基梅隆大学支持的科研中心做了GraphLab、Stale Synchronous Parallelism,在MIT的科研中心做了交互式可视化和SciDB上的大数据分析,而中国主要做了Spark SQL和MLlib(机器学习库),现在也涉及到深度学习算法和基础设施。
2014年重点分析数据和数据的关系:我们原来的工作重心是开源,后来发现开源只是开放式创新的一个部分,做大数据的开放式创新还要做数据的开放、大数据基础设施的开放以及价值提取能力的开放。
数据的暗黑之海与外部效应
下面是一张非常有意思的图,部分是化石级的,即没有联网、没有数字化的数据,而绝大多数的数据是在这片海里面。只有海平面的这些数据(有人把它称作Surface Web)才是真正大家能访问到的数据,爬虫能爬到、搜索引擎能检索到的数据,而绝大多数的数据是在暗黑之海里面(相应地叫做Dark Web),据说这一部分占数据总量的85%以上,它们在一些孤岛里面,在一些企业、政府里面躺在地板上睡大觉。
数据之于数据社会,就如同水之于城市或者血液之于身体一样。城市因为河流而诞生也受其滋养,血液一旦停滞身体也就危在旦夕。所以,对于号称数据化生存的社会来说,我们一定要让数据流动起来,不然这个社会将会丧失诸多重要功能。
所以,我们希望数据能够像“金风玉露一相逢”那样产生化学作用。马化腾先生提出了一个internet+的概念,英特尔也有一个大数据X,相当于大数据乘以各行各业。如下图所示,乘法效应之外,数据有个非常奇妙的效应叫做外部效应(externality),比如这个数据对我没用但对TA很有用,所谓我之毒药彼之蜜糖。
比如,金融数据和电商数据碰撞在一起,就产生了像小微贷款那样的互联网金融;电信数据和政府数据相遇,可以产生人口统计学方面的价值,帮助城市规划人们居住、工作、娱乐的场所;金融数据和医学数据在一起,麦肯锡列举了很多应用,比如可以发现骗保;物流数据和电商数据凑在一块,可以了解各个经济子领域的运行情况;物流数据和金融数据产生供应链金融,而金融数据和农业数据也能发生一些化学作用。比如Google analytics出来的几个人,利用美国开放气象数据,在每一块农田上建立微气象模型,可以预测灾害,帮助农民保险和理赔。
所以,要走数据开放之路,让不同领域的数据真正流动起来、融合起来,才能释放大数据的价值。
三个关于开放的概念
1、数据开放
首先是狭义的数据开放。数据开放的主体是政府和科研机构,把非涉密的政府数据及科研数据开放出来。现在也有一些企业愿意开放数据,像Netflix和一些电信运营商,来帮助他们的数据价值化,建构生态系统。但是数据开放不等于信息公开。首先,数据不等于信息,信息是从数据里面提炼出来的东西。我们希望,首先要开放原始的数据(raw data),其次,它是一种主动和免费的开放,我们现在经常听说要申请信息公开,那是被动的开放。
Tim Berners Lee提出了数据开放的五星标准,以保证数据质量:一星是开放授权的格式,比如说PDF;其次是结构化,把数据从文件变成了像excel这样的表;三星是开放格式,如CSV;四星是能够通过URI找到每一个数据项;五星代表能够和其它数据链接,形成一个开放的数据图谱。
现在主流的数据开放门户,像datadov或datagovuk,都是基于开源软件。英特尔在MIT的大数据科研中心也做了一种形态,叫Datahub:吉祥物很有趣,一半是大象,代表数据库技术,一半是章鱼,取自github的吉祥物章鱼猫。它提供更多的功能比如易管理性,提供结构化数据服务和访问控制,对数据共享进行管理,同时可以在原地做可视化和分析。
广义的数据开放还有数据的共享及交易,比如点对点进行数据共享或在多边平台上做数据交易。马克思说生产资料所有制是经济的基础,但是现在大家可以发现,生产资料的租赁制变成了一种主流(参考《Lean Startup》),在数据的场景下,我不一定拥有数据,甚至不用整个数据集,但可以租赁。租赁的过程中要保证数据的权利。
首先,我可以做到数据给你用,但不可以给你看见。姚期智老先生82年提出“millionaires’ dilemma(百万富翁的窘境)”,两个百万富翁比富谁都不愿意说出自己有多少钱,这就是典型的“可用但不可见”场景。在实际生活中的例子很多,比如美国国土安全部有恐怖分子名单(数据1),航空公司有乘客飞行记录(数据2),国土安全部向航空公司要乘客飞行记录,航空公司不给,因为涉及隐私,他反过来向国土安全部要恐怖分子名单,也不行,因为是国家机密。双方都有发现恐怖分子的意愿,但都不愿给出数据,有没有办法让数据1和数据2放一起扫一下,但又保障数据安全呢?
其次,在数据使用过程中要有审计,万一那个扫描程序偷偷把数据藏起来送回去怎么办?再者,需要数据定价机制,双方数据的价值一定不对等,产生的洞察对各方的用途也不一样,因此要有个定价机制,比大锅饭式的数据共享更有激励性。
从点对点的共享,走到多边的数据交易,从一对多的数据服务到多对多的数据市场,再到数据交易所。如果说现在的数据市场更多是对数据集进行买卖的话,那么数据交易所就是一个基于市场进行价值发现和定价的,像股票交易所那样的、小批量、高频率的数据交易。
我们支持了不少研究来实现刚才所说的这些功能,比如说可用而不可见。案例一是通过加密数据库CryptDB/Monomi实现,在数据拥有方甲方这边的数据库是完全加密的,这事实上也防止了现在出现的很多数据泄露问题,大家已经听到,比如说某互联网服务提供商的员工偷偷把数据拿出来卖,你的数据一旦加密了他拿出来也没用。其次,这个加密数据库可以运行乙方的普通SQL程序,因为它采用了同态加密技术和洋葱加密法,SQL的一些语义在密文上也可以执行。
针对“百万富翁的窘境”,我们做了另一种可用但不可见的技术,叫做数据咖啡馆。大家知道咖啡馆是让人和人进行思想碰撞的地方,这个数据咖啡馆就是让数据和数据能够碰撞而产生新的价值。
比如两个电商,一个是卖衣服的,一个是卖化妆品的,他们对于客户的洞察都是相对有限的,如果两边的数据放在一起做一次分析,那么就能够获得全面的用户画像。再如,癌症是一类长尾病症,有太多的基因突变,每个研究机构的基因组样本都相对有限,这在某种程度上解释了为什么过去50年癌症的治愈率仅仅提升了8%。那么,多个研究机构的数据在咖啡馆碰一碰,也能够加速癌症的研究。
在咖啡馆的底层是多方安全计算的技术,基于英特尔和伯克利的一个联合研究。在上面是安全、可信的Spark,基于“data lineage”的使用审计,根据各方数据对结果的贡献进行定价。
2、大数据基础设施的开放
现在有的是有大数据思维的人,但他们很捉急,玩不起、玩不会大数据,他不懂怎么存储、怎么处理这些大数据,这就需要云计算。基础设施的开放还是传统的Platform as a Service,比如Amazon AWS里有MapReduce,Google有Big Query。这些大数据的基础处理和分析平台可以降低数据思维者的门槛,释放他们的创造力。
比如decidecom,每天爬几十万的数据,对价格信息(结构化的和非结构化的)进行分析,然后告诉你买什么牌子、什么时候买最好。只有四个PhD搞算法,其他的靠AWS。另一家公司Prismatic,也利用了AWS,这是一家做个性化阅读推荐的,我专门研究过它的计算图、存储和高性能库,用LISP的一个变种Clojure写的非常漂亮,真正做技术的只有三个学生。
所以当这些基础设施社会化以后,大数据思维者的春天很快就要到来。
3、价值提取能力的开放
现在的模式一般是一大一小或一对多。比如Tesco和Dunnhumby,后者刚开始是很小的公司,找到Tesco给它做客户忠诚度计划,一做就做了几十年,这样的长期战略合作优于短期的数据分析服务,决策更注重长期性。当然,Dunnhumby现在已经不是小公司了,也为其他大公司提供数据分析服务。再如沃尔玛和另外一家小公司合作,做数据分析,最后他把这家小公司买下来了,成了它的Walmart Labs。
一对多的模式,典型的是Palantir——Peter Thiel和斯坦福的几个教授成立的公司,目前还是私有的,但估值近百亿了,它很擅长给各类政府和金融机构提供数据价值提取服务。真正把这种能力开放的是Kaggle,它的双边,一边是10多万的分析师,另一边是需求方企业,企业在Kaggle上发标,分析师竞标,获得业务。这可能是真正解决长尾公司价值提取能力的办法。当然,如果能和我们的数据咖啡馆结合,就更好了。

三、产业发展规模

随着4G网络的全面部署及智能手机广泛普及,移动上网网速大幅提高,网速瓶颈限制基本得到破除,极大优化了用户体验,移动应用场景亦得到极大丰富,促进了移动互联网快速发展。数据显示,2019年,中国移动互联网市场规模高达1421万亿元;2021年我国移动互联网市场规模达到约1981万亿元,同比增长1905%

随着信息网络技术迅猛发展和移动智能终端广泛普及,移动互联网以其泛在、连接、智能、普惠等突出优势,有力推动了互联网和实体经济深度融合,已经成为创新发展新领域、公共服务新平台、信息分享新渠道。近年来,国家相继出台了一系列政策支持本行业发展。

移动互联网领域持续不断的创新热潮推动市场上涌现出许多受到用户欢迎的移动应用及服务,吸引越来越多的网民接入移动互联网,智能手机普及以及移动网络的发展为有线网络接入受限的人群和地区提供了使用互联网的可能性,进一步扩大互联网使用群体。

四、5G时代移动互联网行业业务的延伸

以数字阅读、移动视频、综合资讯等为代表的内容平台,在生态流量这件事上做了许多尝试,其中不乏像秒拍、QQ阅读、汽车大全这样典型依靠生态流量的实现高速增长的产品。这些生态流量的发展模式也会给其他细分行业带来启示,依靠轻量级内容的分享和传播,占据尽可能多的用户场景;未来的竞争,不仅在于保持独立APP的稳定及成长性,也在于打造更多样的流量入口,将流量变现为更大的商业价值。

五、5G在移动互联网中的应用场景

随着5G标准的落地应用,未来移动互联网一定会得到进一步的发展,相关的生态也会进一步完善,主要将体现在以下几个方面:


第一:移动互联网与物联网的全面融合。5G标准的推出恰逢产业互联网发展的关键期,产业互联网的建设以物联网的建设为重要基础,而5G标准给了物联网充分的支持,从这个角度来看,未来移动互联网将与物联网进行深度融合,将构建出更多传统行业的应用场景。

第二:大数据将逐渐落地。随着大数据技术的不断发展和成熟,大数据将作为产业互联网赋能传统行业的利器,将在传统行业发挥巨大的作用,而5G标准的落地将进一步促进大数据的落地应用进程。大数据的落地应用也将进一步促进物联网的发展,同时大数据也是智能化的重要基础。


第三:智能化程度进一步提升。物联网和大数据的落地应用必将带来智能化程度的提升,万物互联的结果必然是万物智能。目前随着大数据的发展,机器学习(包括深度学习)、自然语言处理、计算机视觉、机器人学等领域有了前所未有的发展契机,在很多特定场景下,已经有一些智能体开始参与到生产环境中了,相信随着产业互联网的发展,未来人工智能产品将进一步普及到传统行业。


随着5G标准的落地,车联网、农业物联网、工业物联网等领域将迎来新的发展机遇,智慧城市、智慧医疗、智慧教育等一系列概念将得到推进和落地,这些领域同时也会释放出大量的就业机会。

六、移动互联网各领域对5G需求的规模及紧迫性

1网上零售、直播带货赋予消费新活力。新冠肺炎疫情在一定程度上“重塑”了人们的消费方式,推动了网上零售、直播带货等新模式全面爆发。截至2021年12月,我国网络购物用户规模达842亿,较2020年12月增长5968万,占网民整体的816%。2021年,网上零售额达131万亿元,同比增长141%,其中实物商品网上零售额占社会消费品零售总额比重达245%。网络零售的蓬勃发展推动各地复工复产与经济复苏。不少地方领导干部参与直播带货,获得舆论与市场的积极反馈。不少地区制定直播发展计划,抢占直播经济这一新风口。

2“宅经济”催生经济增长新动能。2020年新冠肺炎疫情让许多线下消费转移至线上,在线办公、远程医疗、在线教育、外卖闪送等移动生活服务呈现爆发式增长,由此催生的“宅经济”成为拉动经济增长的一个重要引擎。数据显示,截至2021年12月,我国在线办公用户规模达469亿,较2020年12月增长123亿,占网民整体的454%。在线文档协作编辑、在线任务管理与流程审批的使用率上升较为显著,较2020年12月分别上升81、34个百分点,网民使用率分别达293%与150%。

3“云旅游”、网络视频创新消费新业态。2020年,基于移动互联网的“云上游”“云看展”等旅游新业态、新模式迅速发展。全国有超过100个城市的500多个景点“上云”,可利用手机参观游览,“云游故宫”等活动给游客带来了全新的体验。截至2021年12月,我国网络游戏用户规模达554亿,较2020年12月增加3561万,占网民整体的536%。各大短视频平台也积极发力布局直播带货模式,引领了新型消费方式。

电子商务未来发展可分为五步:

第一,电子商务的深度将进一步拓展。目前受限于技术创新和应用水平,企业发展电子商务仍处于起步阶段。随着这两方面水平的提高以及其它相关技术的发展,电子商务将向纵深挺进,新一代的电子商务将浮出水面,取代目前简单地依托“网站+电子邮件"的方式。

电子商务企业将从网上商店和门户的初级形态,过渡到将企业的核心业务流程、客户关系管理等都延伸到Internet上,使产品和服务更贴近用户需求。互动、实时成为企业信息交流的共同特点,网络成为企业资源计划、客户关系管理及供应链管理的中枢神经。

企业将创建、形成新的价值链,把新老上下游利益相关者联合起来,形成更高效的战略联盟,共同谋求更大的利益。

第二,中国电子商务将面临严峻挑战。电子商务是国际贸易发展的必然趋势,随着国际电子商务环境的规范和完善,中国电子商务企业必然走向世界,这也是进一步扩大对外经贸合作和适应经济全球化、提升中国企业国际竞争力的需要。

而随着中国加入WTO,国外的电子商务企业也将渗透到国内,对中国电子商务构成严峻挑战。

第三,电子商务网站将会出现兼并热潮。首先是同类兼并。目前中国为数不少的网站属于重复建设之列,定位相同或相近,业务内容趋同。由于资源有限,并且在Internet“赢家通吃” 原则下,最终胜出的只是名列前茅的网站;其次是互补性兼并。

那些处于领先地位的电子商务企业在资源、品牌、客户规模等诸方面具有很大的优势,但与国外著名电子商务企业相比还有很大差距。这些具备良好基础和发展前景的网站要发展,必然采取互补性收购策略,结成战略联盟。

由于个性化、专业化是电子商务发展的两大趋势,而且每个网站在资源方面总是有限的,客户的需求又是全方位的,所以不同类型的网站以战略联盟的形式进行相互协作将成为必然趋势。

第四,行业电子商务将成为下一代电子商务发展主流。中国电子商务进入迅猛发展时期的典型特征是风险资金、网站定位等将从以往的“大而全”模式转向专业细分的行业商务门户。

第一代的电子商务专注于内容,第二代专注于综合性电子商务,而下一代的行业电子商务将增值内容和商务平台紧密集成,充分发挥 Internet在信息服务方面的优势,使电子商务真正进入实用阶段。

第五,电子商务将催生新行当eASP——电子商务应用服务商。电子商务是将来的主要商务交易模式,但对于国内为数众多的中小型企业来说,将面临如建设投入大、运营成本高、见效周期长、效果不理想、缺乏标准化的应用系统、软硬件需不断升级等一系列难题。

扩展资料:

电子商务是以信息网络技术为手段,以商品交换为中心的商务活动。

也可理解为在互联网(Internet)、企业内部网(Intranet)和增值网(VAN,Value Added Network)上以电子交易方式进行交易活动和相关服务的活动,是传统商业活动各环节的电子化、网络化、信息化;以互联网为媒介的商业行为均属于电子商务的范畴。

电子商务通常是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付。

各国政府、学者、企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同,给出了许多不同的定义。电子商务分为:ABC、B2B、B2C、C2C、B2M、M2C、B2A(即B2G)、C2A(即C2G)、O2O 等。

参考资料:

电子商务

兔踞龙盘今胜昔 花得鸟语旧更新
人民气魄如龙兔 祖国江山似画图
唯大英雄能伏兔 是真俊杰敢擒龙
英雄气概如龙兔 祖国江山似画图
丙部琳琅春馥郁 寅宾璀灿日光华
赤县奔腾如兔跃 神州崛起似龙飞
丑旧寅新宏图展 牛归兔跃春意浓
丑去寅来千里锦 牛奔兔啸九州春
春风浩荡神州绿 兔气升腾岳麓雄
春风着意随人愿 兔气生威壮国魂
春光春色源春意 兔将兔年扬兔威
春节乍闻春有喜 兔年乐见兔生风
春晓寅回人起舞 岁祯兔啸物昭苏
憨厚忠诚牛品德 高昂奋勇兔精神
兔步奔腾开胜景 春风浩荡展鸿图
兔年赢得春风意 喜讯唤来燕子情
兔气顿生年属兔 春风常驻户迎春
兔气频催翻旧景 春风浩荡著新篇
兔添双翼前程远 国展宏图事业新
兔啸大山山献宝 龙腾祖国国扬威
兔啸青山千里锦 风拂绿柳万家春
兔啸一声山海动 龙腾三界吉祥来
兔跃龙腾生紫气 风调雨顺兆丰年
兔跃龙腾兴骏业 莺歌燕舞羡鹏程
兔跃神州千业旺 春临盛世万民欢
花事才逢花好日 兔年更有兔威风
黄牛虽去精神在 猛兔初来气象新
江山秀丽春增色 事业辉煌兔更威
江山一统腾龙日 岁月三春入兔年
金牛昂首高歌去 玉兔迎春敛福来
金牛辞岁寒风尽 白兔迎春喜气来
金牛辞岁千仓满 玉兔迎春百业兴
金牛奋蹄奔大道 乳兔添翼舞新春
金牛奋蹄开锦绣 乳兔添翼会风云
金牛送旧千家乐 玉兔迎新万户欢
门庭兔踞平安岁 柳浪莺歌锦绣春
门浴春风梅吐艳 户生兔气鸟争鸣
年逢寅兔群情奋 岁别丑牛大地春
牛肥马壮丰收岁 兔跃龙腾大有年
牛肥马壮家家富 兔跃龙腾处处春
牛奋千程荣盛世 兔驮五福贺新春
牛奋四蹄开锦绣 兔添双翼会风云
牛耕绿野千仓满 兔啸青山万木荣
牛耕沃野扬长去 兔啸群山大步来
乾元启运三阳泰 斗丙回寅万户春
人逢盛世精神壮 兔跃奇峰气势雄
人间喜庆康平世 兔岁承欢幸福春
人入兔年鼓兔劲 门添春色发春辉
人添志气兔添翼 雪舞丰年燕舞春
人效黄牛心自贵 岁朝寅兔劲更高
山明水秀风光丽 兔跃龙腾日月新
四海龙腾抒壮志 千山兔啸振雄风
四海三江春气息 千家万户兔精神
四海笙歌迎兔岁 九州英杰跃鹏程
新年捷报兔添翼 大路朝阳马奋蹄
兴伟业仍须牛劲 展宏图更壮兔威
一代英豪生兔气 三春杨柳动莺歌
英雄时代英雄业 龙兔精神龙兔年
莺歌燕舞新春日 兔跃龙腾大治年
迎春节莺歌遍地 兴中华兔劲冲天
宅后青山金兔踞 门前绿水玉龙盘
春风浩荡花香鸟语 岁月峥嵘兔跃龙腾
兔跃龙腾九州焕彩 风调雨顺五谷丰登
牛奔福地普天献瑞 兔卧华堂满院生辉
势如破竹人欢马叫 安若泰山兔踞龙盘
紫气东来江山如画 红旗招展龙兔扬威
白兔替青牛招财进宝 黄莺鸣翠柳辞旧迎新
兔跃龙腾创人间奇迹 莺歌燕舞描大地春光
兔跃龙腾有天皆丽日 花香鸟语无地不春风
花团锦簇江山添异彩 兔啸龙吟华夏壮神威
金牛辞旧携凯歌而去 乳兔迎春带捷报新来
瑞雪兆丰年年年大吉 丑牛接寅兔兔兔生威
岁月逢春山河添锦绣 人民思治龙兔振精神
效兔豪吟放怀歌富岁 闻鸡起舞挥笔颂春光
祖国腾飞大鹏振羽翼 宏图再展乳兔显神通
迎兔年敢逐改革拦路兔 送牛岁勇当奉献老黄牛
丹凤呈祥龙献瑞 红桃贺岁杏迎春 横批:福满人间 汗马绝尘安外振中标青史 锦羊开泰富民清政展新篇 横批:春满人间
黄莺鸣翠柳 紫燕剪春风 横批:莺歌燕舞 冬去山明水秀 春来鸟语花香
玉兔归时深慕人间春色美 金龙起处喜看华夏蓝图新
南疆雨北国风风调雨顺 东海龙西山凤凤舞龙飞
雷鸣龙起蛰 泥暖燕含春
凤鸣莺啭,三通两制促和平 节逢岁首,日暖风和万水欢


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/dianzi/10564375.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-09
下一篇2023-05-09

发表评论

登录后才能评论

评论列表(0条)

    保存