如何让数据流动起来,让数据拥抱数据

如何让数据流动起来,让数据拥抱数据,第1张

围墙里的大数据注定成为死数据。大数据需要开放式创新,从数据的开放、共享和交易,到价值提取能力的开放,再到基础处理和分析平台的开放,让数据如同血液在数据社会的躯体中长流,滋润数据经济,让更多的长尾企业和数据思维创新者产生多姿多彩的化学作用,才能创造大数据的黄金时代。
我的大数据研究轨迹
我做了4-5年的移动架构和Java虚拟机,4-5年的众核架构和并行编程系统,最近4-5年也在追时髦,先是投入物联网,最近几年一直在做大数据。我们团队的大数据研究轨迹如下图所示:
2010-2012年,主要关注数据和机器的关系:水平扩展、容错、一致性、软硬件协同设计,同时厘清各种计算模式,从批处理(MapReduce)到流处理、Big SQL/ad hoc query、图计算、机器学习等等。事实上,我们的团队只是英特尔大数据研发力量的一部分,上海的团队是英特尔Hadoop发行版的主力军,现在英特尔成了Cloudera的最大股东,自己不做发行版了,但是平台优化、开源支持和垂直领域的解决方案仍然是英特尔大数据研发的重心。
从2013年开始关注数据与人的关系:对于数据科学家怎么做好分布式机器学习、特征工程与非监督学习,对于领域专家来说怎么做好交互式分析工具,对于终端用户怎么做好交互式可视化工具。英特尔研究院在美国卡内基梅隆大学支持的科研中心做了GraphLab、Stale Synchronous Parallelism,在MIT的科研中心做了交互式可视化和SciDB上的大数据分析,而中国主要做了Spark SQL和MLlib(机器学习库),现在也涉及到深度学习算法和基础设施。
2014年重点分析数据和数据的关系:我们原来的工作重心是开源,后来发现开源只是开放式创新的一个部分,做大数据的开放式创新还要做数据的开放、大数据基础设施的开放以及价值提取能力的开放。
数据的暗黑之海与外部效应
下面是一张非常有意思的图,部分是化石级的,即没有联网、没有数字化的数据,而绝大多数的数据是在这片海里面。只有海平面的这些数据(有人把它称作Surface Web)才是真正大家能访问到的数据,爬虫能爬到、搜索引擎能检索到的数据,而绝大多数的数据是在暗黑之海里面(相应地叫做Dark Web),据说这一部分占数据总量的85%以上,它们在一些孤岛里面,在一些企业、政府里面躺在地板上睡大觉。
数据之于数据社会,就如同水之于城市或者血液之于身体一样。城市因为河流而诞生也受其滋养,血液一旦停滞身体也就危在旦夕。所以,对于号称数据化生存的社会来说,我们一定要让数据流动起来,不然这个社会将会丧失诸多重要功能。
所以,我们希望数据能够像“金风玉露一相逢”那样产生化学作用。马化腾先生提出了一个internet+的概念,英特尔也有一个大数据X,相当于大数据乘以各行各业。如下图所示,乘法效应之外,数据有个非常奇妙的效应叫做外部效应(externality),比如这个数据对我没用但对TA很有用,所谓我之毒药彼之蜜糖。
比如,金融数据和电商数据碰撞在一起,就产生了像小微贷款那样的互联网金融;电信数据和政府数据相遇,可以产生人口统计学方面的价值,帮助城市规划人们居住、工作、娱乐的场所;金融数据和医学数据在一起,麦肯锡列举了很多应用,比如可以发现骗保;物流数据和电商数据凑在一块,可以了解各个经济子领域的运行情况;物流数据和金融数据产生供应链金融,而金融数据和农业数据也能发生一些化学作用。比如Google analytics出来的几个人,利用美国开放气象数据,在每一块农田上建立微气象模型,可以预测灾害,帮助农民保险和理赔。
所以,要走数据开放之路,让不同领域的数据真正流动起来、融合起来,才能释放大数据的价值。
三个关于开放的概念
1、数据开放
首先是狭义的数据开放。数据开放的主体是政府和科研机构,把非涉密的政府数据及科研数据开放出来。现在也有一些企业愿意开放数据,像Netflix和一些电信运营商,来帮助他们的数据价值化,建构生态系统。但是数据开放不等于信息公开。首先,数据不等于信息,信息是从数据里面提炼出来的东西。我们希望,首先要开放原始的数据(raw data),其次,它是一种主动和免费的开放,我们现在经常听说要申请信息公开,那是被动的开放。
Tim Berners Lee提出了数据开放的五星标准,以保证数据质量:一星是开放授权的格式,比如说PDF;其次是结构化,把数据从文件变成了像excel这样的表;三星是开放格式,如CSV;四星是能够通过URI找到每一个数据项;五星代表能够和其它数据链接,形成一个开放的数据图谱。
现在主流的数据开放门户,像datadov或datagovuk,都是基于开源软件。英特尔在MIT的大数据科研中心也做了一种形态,叫Datahub:吉祥物很有趣,一半是大象,代表数据库技术,一半是章鱼,取自github的吉祥物章鱼猫。它提供更多的功能比如易管理性,提供结构化数据服务和访问控制,对数据共享进行管理,同时可以在原地做可视化和分析。
广义的数据开放还有数据的共享及交易,比如点对点进行数据共享或在多边平台上做数据交易。马克思说生产资料所有制是经济的基础,但是现在大家可以发现,生产资料的租赁制变成了一种主流(参考《Lean Startup》),在数据的场景下,我不一定拥有数据,甚至不用整个数据集,但可以租赁。租赁的过程中要保证数据的权利。
首先,我可以做到数据给你用,但不可以给你看见。姚期智老先生82年提出“millionaires’ dilemma(百万富翁的窘境)”,两个百万富翁比富谁都不愿意说出自己有多少钱,这就是典型的“可用但不可见”场景。在实际生活中的例子很多,比如美国国土安全部有恐怖分子名单(数据1),航空公司有乘客飞行记录(数据2),国土安全部向航空公司要乘客飞行记录,航空公司不给,因为涉及隐私,他反过来向国土安全部要恐怖分子名单,也不行,因为是国家机密。双方都有发现恐怖分子的意愿,但都不愿给出数据,有没有办法让数据1和数据2放一起扫一下,但又保障数据安全呢?
其次,在数据使用过程中要有审计,万一那个扫描程序偷偷把数据藏起来送回去怎么办?再者,需要数据定价机制,双方数据的价值一定不对等,产生的洞察对各方的用途也不一样,因此要有个定价机制,比大锅饭式的数据共享更有激励性。
从点对点的共享,走到多边的数据交易,从一对多的数据服务到多对多的数据市场,再到数据交易所。如果说现在的数据市场更多是对数据集进行买卖的话,那么数据交易所就是一个基于市场进行价值发现和定价的,像股票交易所那样的、小批量、高频率的数据交易。
我们支持了不少研究来实现刚才所说的这些功能,比如说可用而不可见。案例一是通过加密数据库CryptDB/Monomi实现,在数据拥有方甲方这边的数据库是完全加密的,这事实上也防止了现在出现的很多数据泄露问题,大家已经听到,比如说某互联网服务提供商的员工偷偷把数据拿出来卖,你的数据一旦加密了他拿出来也没用。其次,这个加密数据库可以运行乙方的普通SQL程序,因为它采用了同态加密技术和洋葱加密法,SQL的一些语义在密文上也可以执行。
针对“百万富翁的窘境”,我们做了另一种可用但不可见的技术,叫做数据咖啡馆。大家知道咖啡馆是让人和人进行思想碰撞的地方,这个数据咖啡馆就是让数据和数据能够碰撞而产生新的价值。
比如两个电商,一个是卖衣服的,一个是卖化妆品的,他们对于客户的洞察都是相对有限的,如果两边的数据放在一起做一次分析,那么就能够获得全面的用户画像。再如,癌症是一类长尾病症,有太多的基因突变,每个研究机构的基因组样本都相对有限,这在某种程度上解释了为什么过去50年癌症的治愈率仅仅提升了8%。那么,多个研究机构的数据在咖啡馆碰一碰,也能够加速癌症的研究。
在咖啡馆的底层是多方安全计算的技术,基于英特尔和伯克利的一个联合研究。在上面是安全、可信的Spark,基于“data lineage”的使用审计,根据各方数据对结果的贡献进行定价。
2、大数据基础设施的开放
现在有的是有大数据思维的人,但他们很捉急,玩不起、玩不会大数据,他不懂怎么存储、怎么处理这些大数据,这就需要云计算。基础设施的开放还是传统的Platform as a Service,比如Amazon AWS里有MapReduce,Google有Big Query。这些大数据的基础处理和分析平台可以降低数据思维者的门槛,释放他们的创造力。
比如decidecom,每天爬几十万的数据,对价格信息(结构化的和非结构化的)进行分析,然后告诉你买什么牌子、什么时候买最好。只有四个PhD搞算法,其他的靠AWS。另一家公司Prismatic,也利用了AWS,这是一家做个性化阅读推荐的,我专门研究过它的计算图、存储和高性能库,用LISP的一个变种Clojure写的非常漂亮,真正做技术的只有三个学生。
所以当这些基础设施社会化以后,大数据思维者的春天很快就要到来。
3、价值提取能力的开放
现在的模式一般是一大一小或一对多。比如Tesco和Dunnhumby,后者刚开始是很小的公司,找到Tesco给它做客户忠诚度计划,一做就做了几十年,这样的长期战略合作优于短期的数据分析服务,决策更注重长期性。当然,Dunnhumby现在已经不是小公司了,也为其他大公司提供数据分析服务。再如沃尔玛和另外一家小公司合作,做数据分析,最后他把这家小公司买下来了,成了它的Walmart Labs。
一对多的模式,典型的是Palantir——Peter Thiel和斯坦福的几个教授成立的公司,目前还是私有的,但估值近百亿了,它很擅长给各类政府和金融机构提供数据价值提取服务。真正把这种能力开放的是Kaggle,它的双边,一边是10多万的分析师,另一边是需求方企业,企业在Kaggle上发标,分析师竞标,获得业务。这可能是真正解决长尾公司价值提取能力的办法。当然,如果能和我们的数据咖啡馆结合,就更好了。

物联网是互联网基础上的延伸和扩展的网络。
将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。物联网的基本特征可概括为整体感知、可靠传输和智能处理。
物联网的应用领域涉及到方方面面,在工业、农业、环境、交通、物流、安保等基础设施领域的应用,有效推动了智能化发展,使得有限的资源更加合理的使用分配,从而提高了行业效率、效益。在家居、医疗健康、教育、金融与服务业、旅游业等与生活息息相关的领域的应用,从服务范围、服务方式到服务的质量等方面都有了极大的改进,大大提高了人们的生活质量。

物联网就是通过信息传感设备,按照约定的协议,把任何物品与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。
通俗地讲,物联网就是“物物相连的互联网”,它包含两层含义:
第一,物联网是互联网的延伸和扩展,其核心和基础仍然是互联网;
第二,物联网的用户端不仅包括人,还包括物品,物联网实现了人与物品及物品之间信息的交换和通信。
物联网作为新一代信息技术的高度集成和综合运用,具有渗透性强、带动作用大、综合效益好的特点,是继计算机、互联网、移动通信网之后信息产业发展的又一推动者。

物联网的发展前景很不错,具体如下:
1更安全的保护措施。在新技术出现之初,它的技术力量几乎都集中在创新上,导致监管水平低下,这就使业界的兴奋、激进和政策、监管的滞后常常形成鲜明的对比。由于物联网设备和基础设施的价格下降,企业在物联网设备上的应用也越来越普遍,这种创新和应用一旦普及,各种新技术的风险也突显出来。
2更普遍使用智能消费品设备。IoT所覆盖的行业人群广泛,从智慧交通、智能物流、医疗、农业、能源等行业应用,到私人智能家居、个人、智能汽车等应用,无论是降低成本,还是提高中国居民的生活质量,都将是中国居民生活质量的巨大提升。

10月27日,从无锡机场到湖滨饭店的轿车频繁穿梭,湖滨饭店及周围的宾馆入住率暴增,全国各地都来赶一场物联网的大集。28日,由工业和信息化部、国家发改委、科技部、中科院和江苏省人民政府共同举办的“2010中国国际物联网(传感网)大会”在无锡盛大开幕,同时举行的还有博览会和技术及商业应用高峰论坛,为期三天。八位部长级官员、三位院士、四十多位司局长和五十多位跨国公司高层及大型央企高层出席此次会议,是近年来中国物联网产业规模最大、层次最高、影响力最深远的行业盛会。这不仅是一次对物联网产业的检阅,也是一次集体思考,为下一步发展理清思路。

用战略性眼光
务实布局

“物联网的‘泡泡糖’(PPT)时代已经过去,现在要演示的是真q实d。”张伟(某物联网公司CEO,化名)想起一年前跟用户交流时如是感叹,以前多数公司都是停留在方案构思和宣讲阶段,只能靠PPT(幻灯片)来展示物联网,而现在,用户不再满足于PPT了,要看实际案例。如果说,去年来到无锡,每次参观者接触到的示范项目都是“太湖鱼”,那么今年的无锡,则呈现出更多物联网的应用。
本届博览会就是一次大秀场。以传感器、RFID、网络设备、嵌入式终端制造等为代表的物联网制造业,以通信网络为代表的物联网基础设施服务业,和以软件集成、应用开发等为代表的物联网服务业等产业链条上的各个环节都参与了此次博览会。
无锡,整个城市都散发着浓郁的物联网氛围,从2009年8月以来,物联网概念的公司比肩接踵地成立,分布在无锡新区、滨湖区等地。新区设立了10亿元产业培育专项基金,主要用于重点支柱产业促进和新兴产业培育,尤其是包括物联网在内的战略性产业,核心企业入驻园区,新区都给予3年贷贴息或一定比例的注册资本金配套;滨湖区位于长江三角洲腹地,也在集聚各类资源,已累计引进物联网及相关企业200家以上,其中注册资本1000万元以上的企业35家。
无锡市市长毛小平介绍说,2009年8月7日温总理在视察无锡时提到建立感知中国中心,同年10月13日国务院批准同意建设无锡传感网实验区,无锡迅速开始创建物联网、传感网的示范区,技术研发事业培育、人才引进等配套技术相继出台。到今天,有156个物联网项目已经签约,即将开工建设。
去年11月12日,江苏省人民政府、中国科学院、无锡市人民政府签署了共建中国物联网研究发展中心协议,先期以江苏物联网研究发展中心和中国科学院物联网发展中心为运作载体,总部设在无锡。发展中心第一任主任为叶甜春。据叶甜春介绍,发展中心采用了市场化的运作方式,吸纳社会资本,与工业界紧密合作,推进科技成果产业化。发展中心目前设立了综合协调部、战略规划部、应用总体部和技术服务部四个部门。
叶甜春认为,物联网与现有传感网和信息化技术的差异是:更大规模的节点覆盖、更综合的系统集成和更智能的信息处理。“物联网作为‘战略性新兴产业’,更需要‘战略性眼光’,物联网的培育和发展不可能一蹴而就,而是需要一个相当长的过程,这其中核心技术的培育和掌握是关键中的关键。”叶甜春发自肺腑地说,如果没有重点地一哄而上、遍地开花,可以推进信息化,但做不成物联网,或者成为又一个缺乏核心竞争力的“打工产业”。
中国科学院在知识创新工程中,对传感网/物联网领域进行了战略性的前瞻布局,已开展了近10年工作。包括传感器与芯片、信息网络与传输技术、信息处理与存储、软件等,传感器与芯片方面包括声学、振动、压力、温度、湿度、生物、化学等传感器。

借力运营商

物联网与互联网经常被相提并论,虽然两者的本质、内涵及应用模式都有差别,但发展路线却是可以作一定借鉴的。启明创投董事总经理邝子平认为,互联网发展初期,要感谢运营商,因为他们在互联网还没有明确形态时,就大力投入组建了骨干网,进行了一系列改造和完善,促进了互联网的快速发展。如今,物联网来了,运营商又开始摩拳擦掌。
中国电信所关注的领域包括节能减排、民生工程、防灾减灾等。中国电信副总工程师靳东滨透露,中国电信已经在着手建立物联网的企业标准。“因为国家物联网标准组有一些标准并没有出来,在这种情况下,中国电信建立了企业标准。目前,中国电信已经出台了七个关于M2M的标准,包括终端、平台设备和服务协议等。”
中国移动通信研究院副院长杨志强认为,TD-SCDMA的独特优势为物联网的规模发展提供了网络平台,TD的优势是:国家自主知识产权标准保障了通信的安全可靠;频谱效率更高、客户为每比特数据传输支付费用低;根据网络需求,可自行配置上下行资源,特别适合监控等非对称性数据传输业务。杨志强指出,物联网与TD结合有利于我国两大基础创新技术发挥协调作用。“TD与物联网都属于产业链形态的集群性创新模式,由于这种集群性和链条性,使得这两大基础创新在芯片、终端、测试、系统及应用等各个环节具有高度的重合和协同性,将会充分发挥基础协调作用。”杨志强介绍说。
据悉,中国移动M2M业务已经超过了500万终端,2009年,M2M业务收入超过7个亿,2010年,M2M终端用户超过500万,年增长率66%。M2M产业从分布上来看,电力行业占终端总数的35%多,主要应用为电力远程抄表、电力输配变设备监控;交通行业占终端总数的30%,主要应用为车辆定位管理。
中国移动在无锡物联网研究院建设完善了研发试验环境,拥有总面积达1050平米的基础实验室和支持2G和3G的应用开发测试系统;并建立了中国移动物联网体系架构。其目标是把每一个人、每一辆车、每一个家庭、每一个城市接入物联网。
事实上,物联网产业应该借力于运营商及大企业的投入,给物联网一个初始推动,逐步渗透入行业。

从集中走向分布

运营商所擅长的基础设施是一个方面,物联网最后落地,必然是在行业应用中。物联网应用的一个最普遍特点是从集中走向分布,突出表现在智能安防和制造业等领域。
本土著名安防企业博康集团总裁李璞认为,物联网可实现分布式的智能,分布于全系统内的智能化使人与物、物与物得以通信对话,从而自动获取物的动态特征、关联特征,实现所有物征动态信息互通共享。物联网为智能安防带来了一套完整可参照的“技术体系框架”,改变了现在安防领域局部智能、局部互通的限制。经过海量数据存储、处理及多传输通信技术,实现事前的分析预警、事发的实时报警和事后的侦查取证。
西门子中国研究院院长徐亚丁也认为物联网技术为自动化领域带来了更好的分布式解决方案。“制造业面临的大趋势是个性化定制需求、全球化的采购和生产。发达国家的现状是机器密集型,发展中国家的现状是劳动力密集型,两者都向大机器分布式模块化制造转变。”徐亚丁介绍说,采用物联网技术可以使生产自动化从集中走向分布,能够自动调整工序、灵活增减工序。物联网架构使模块可重用性得以提高,可进行重新配置组合以适应生产需要,减少资源浪费,还可以调整就业人口,使受良好教育的劳动力从事高附加值的模块设计维护。“分布式模块化生产系统的关键技术就是物联网,物联网技术使每个模块智能化,能够承担灵活多样的生产任务;使模块内部集成,实现机电/人机一体化。”可见,要深化物联网的应用,必须吃透其技术特性和优势,才能找准应用切入点。

资本市场冷静观望

在中国国际物联网(传感网)大会的投融资高峰论坛上,来自德同资本、红杉资本、启明创投、美国风投协会等风险投资领域的专家,围绕“风险资本如何孵化伟大企业”这一焦点话题畅所欲言。面对火热的物联网概念,资本市场的态度显得很冷静。
邝子平认为,物联网重点在B2B的市场,物联网早期的发展,更多仍然还是给集团客户解决其所需要解决的一些问题,而不是给最终用户提供一个娱乐或者个性化的平台。“不同于互联网,互联网更多关注B2C市场,物联网的商业模式跟互联网将非常不一样,进入的门槛不一样,它的销售周期也会不一样。”邝子平分析说,B2B业务在中国所面临的不确定性非常大,例如为行业用户或政府部门服务的物联网企业,要有能力协调好各方的关系。旷子平认为第一批成功的物联网企业很可能是做系统集成的,即整合各方的物联网资源,提供综合物联网解决方案,而并非纯技术型企业。
中国科学院院士何积丰在谈到物联网时也提醒产业界,物联网刚刚起步,对其期望值不要太高,实际上产业界对物联网领域,从技术和体制上都还没完全做好准备。
何积丰建议,物联网产业在上项目的时候要考虑“先民生后重大基础设施”,在“十二五”规划中一个重要的元素是关注民生,他建议在无锡先做一些跟民生相关的项目,如教育、医疗试点等。
除了要撬动资本市场外,国家在整个物联网产业的发展中也起着重要的作用,包括早期的示范及推动、行业标准及法则法规的确定,特别是在营造良性竞争环境、降低产品成本方面,从国家层面的协调与布局将起到很大的作用。

今年8月,中国传感网国际创新园在太湖国际科技园内建成启用,中国物联网研究发展中心等多个研发中心成为首批入驻单位。
“2010中国国际物联网(传感网)博览会”掠影
2010中国国际物联网(传感网)博览会以“感知科技、感知未来”为主题,围绕信息的感知、传输、处理、应用四大核心领域,集中展示物联网产业链各个关键环节的国内外新技术、新产品、新装备、新工艺和新的解决方案,突出展示物联网在工业、农业、电力、交通、物流、环保、水利、安保、家居、教育、医疗、园区等12个领域应用所带来的高品质生活、高效率管理和高科技网络。博览会展示总面积15000平方米,参展及出席单位包括中国移动、中国联通、中国电信、IBM、微软、华为、航天信息、清华同方、大唐电信、CETC、东软集团、国网信通、美新半导体、长电科技、华润微电子等众多业内知名企业,共200多家来自世界各地的物联网产业链企业参加了展览。参展企业涵盖了产业链上游的芯片和传感器制造商,中游的应用设备提供商、软件与系统集成商、软件与应用开发商,以及下游的海量数据处理和信息管理服务提供商。

物联网疫苗冷链运输车。要使民众用上放心安全的疫苗,疫苗冷链运输环节至关重要。近期,宁波凯福莱特种汽车有限公司正式推出了历时三年研发的我国首款物联网疫苗冷链运输车。在疫苗运输前能预先了解冷藏车状态,对运输的整个过程实时监控、记录,避免车辆内冷冻机组、箱体密封问题引起的故障。该特种车实现了疫苗运输工具的智能化、感知化、网络化,使传统的冷藏车变成了具有物联网功能的专业网络信息终端。

平安城市。联通结合WCDMA网络和视频终端采集系统,利用现代信息通信技术,提供公共场所以及重要场所的视频监控、移动执法等多种综合管理信息服务,系统前端数据通过视频监控系统采集并传输到市、区监督指挥调度中心,实时监控并对紧急事件做出快速响应和应对,防范和处理危害城市公共安全的行为。

食品溯源。消费者只要用手机拍摄食品包装标签上的二维码,就可查询到相关食品的原材料和生产程序等,这种产品可溯源功能大大方便了消费者,为消费者放心消费提供了保障。

感知健康。无锡矽丰展示的基于物联网和云服务技术的感知健康体验中心及健康管理服务平台,用以达到提高人们健康水平的目的。

瑞孚特感知停车。车辆电子标签技术为保安、停车及进出管理提供独立、不间断的系统设备,可以实现对商业区及社区的方便管理,确保只有经过许可的车辆进入。系统还可以提供车辆定期出入及停车费用管理数据。掌握车辆动态情况,分析车辆运行规律,采取有效防范措施,实现车辆调度派遣无纸化、进出场区识别自动化。

物联网比特实验室。无锡爱睿芯电子有限公司把目光放在了物联网教育市场。实验室主要面向青少年开展物联网方面的宣传、培训和体验等活动。通过数字化的实验、积木化的游戏、个性化的作业和整合化的展示等方式,使学生在互动式、体验式的快乐氛围中,找到适合自己特点的发展方向,更快地接受最新的科技知识,锻炼自主学习的能力。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/dianzi/12971809.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2025-08-29
下一篇2025-08-29

发表评论

登录后才能评论

评论列表(0条)

    保存