
一、唯品会大
数据平台规划和现状这是唯品会大数据平台一个中长期的规划。目标很明确,我们希望从技术上能把整个大数据做成一个包含离线计算平台、流式计算平台、模型训练平台、VRE、 DMP和多种应用的完整生态链,并且希望通过这个平台,让我们公司的分析师、开发人员可以很简易地运用起来。这是唯品会大数据平台的现状,总体和上面的规划图类似,重点在于离线平台的搭建,目前离线计算平台也已经做得差不多了。我们现在有一套很完整的数据开发平台,可以让公司的分析人员在不需要任何培训的情况下,方便地利用这个系统去挖掘大数据中的各种知识,为业务服务。除此之外,我们也有很多产品,看到图中数据产品一块,有情报中心、比价、选品、数读、魔方罗盘、仪表盘等。二、大数据中的资源管理大数据管理本身是一个很广的概念,涵盖了很多知识面。但资源管理是今年让唯品会特别难受的一个点,很多工作人员经过长时间的不眠不休,才最终把它解决掉。所以今天我会把资源管理作为重点,单独拿出来分享。这里的“数据平台使用申请”打了引号,我想说的是这个“平台使用申请”在初创公司或者建设数据平台的初期,一般是很难做到这么完善的。因为我们需要用户提交很多要求,而且这些要求是明确的,包含了比如我需要什么样的资源,HDFS的存储、数据库、计算都需要多少,资源的数目是多少,要通过什么方式去访问。拿到这个申请以后,管理员会负责去分配同样的资源,比如HDFS中分配多少资源给你使用,Hive也是,如果我想要这样一个资源分配队列,需要明确分配给你的最大/最小资源是多少。当然,这是一个理想的情况,现实却很骨感。因为这个行业的发展非常快,相信很多做大数据的同学,很多时候你是被业务和领导推着向上的,所以这时你的思考可能不是很完善,你会发现,你的理想状态是系统很强大、数据规范、流程规范、技术成熟、业务成熟,但现实呢?唯品会在半年前也是这种现状:模型的变更非常迅速,线上的那些代码实际上是我们的人员按小时为单位去做变更的。用户的能力参差不齐。有很多的历史包袱,唯品会的数据平台其实四年前就开始搭建了,其中有三年的历史包袱。同时,有大量的技术包袱,而且平台非常不稳定,掌控力差,有各种各样的瓶颈。整个大数据平台的分层也不是很明确。这是我们面临的现实。那么,这种情况下,维护人员或者像我们这样的技术架构人员就会经常接到用户各种各样的投诉和问题。这里我列了一些用户经常会抱怨的问题:这个任务昨天还好好的,为什么今天跑不出来了?2-10倍的数据量,能撑得住吗?怎么几千个任务都慢了?最近磁盘使用率急剧增加,谁在用?这个表好像不用了,我能删除掉吗?集群要扩容吗?扩多少?当你在没有足够能力应付的情况下,面对这些问题,你是一筹莫展的。而由此也引申出今天的核心议题——资源管控。三、资源管控中的存储资源和计算资源做运维、DBA,或者大数据管理人员,都需要了解一个核心,那就是资源管控。做资源管控,其实和分田到户是同样的道理。当把一块田交给你,那你就在这块田里自己玩,不要到别人的田里去掺和。通过资源管控,可以实现很多目的:从乱序到有序。申请和分配有据可查。规则公开透明。数据公开透明。有多少资源,干多少事。有合理的KPI和惩罚机制。ROI,资源倾斜给回报率高的项目。以Hadoop为例。Hadoop平台是大家都在用的一个技术框架,它有哪些资源呢?总的来说,有四个模块:计算资源、存储资源、权限资源、业务资源。今天我会重点讲右侧的计算资源和存储资源。为什么存储和计算需要关注?首先是NameNode。NameNode在Hadoop中相当于一个技术的管理节点,我们平台目前已经存储2亿的文件超过2亿的blocks,现在NameNode的内存使用在100G左右。在这么大的一个集群规模情况下,会遇到很多问题。standby namenode updateCountForQuota缓慢影响主从一致性,进而影响切换(HDFS-6763)standby checkpoint缓慢导致增量blockreport汇报被skip, 影响主从一致性,进而影响切换(HDFS-7097)standby checkpoint GC导致transfer Fsimage超时失败这里列了几个问题点,都在社区被不少人提出来,我们也确实受到了影响。其中,最重要的是集群启动时,规模越大,你的启动时间可能越慢,除非你把这部分的代码全部进行重构。举个例子,可能我们的集群重启需要30分钟,因为需要每个block去上报。另外,第二个瓶颈就是资源管理,叫做ResourceManager,这也是Hadoop中的一个技术组件。唯品会现在的规模并行度是高峰期可以有一千个任务在跑,每天有将近40万的任务提交到Hadoop集群里,基本24小时内时时刻刻都有人在运行。因为现在的电商,包括现在的大数据已经不是以前那种玩法,不是你晚上跑个批处理,事情就做完了。现在大家的要求是,你能不能5分钟内跑出来,所以我的批处理在上面可能是5分钟一个力度去提交的,所以这个集群对我们来说已经不是夜间作业的集群,而是24小时专机,永远不能宕机的一个服务。https://issues.apache.org/jira/browse/YARN-3547部分解决问题https://issues.apache.org/jira/browse/YARN-518our patch for fairscheduler这里也列了两个问题,就不展开讲了,关键是第二个,我们提交给社区的补丁。这些问题社区还没有解决,我们这个补丁也还没有打到任何社区的版本里去,但是如果当你的集群规模非常大,运行HDFS时肯定会遇到和我们同样的问题——分配能力有瓶颈。目前我们通过这个补丁,分配能力提升到了近10-15倍。这其实很夸张,我们一直考虑的是,现在已经有几百台节点了,那能不能变到几千台?如果分配这个问题不解决,你的瓶颈永远卡在那,即使再加机器,管理也会因为瓶颈上不去,无法提升到几千台这样的规模。前面讲到了很多问题,怎么解决呢?开源节流。分两块,一块要提升各方面主机的性能,图中列出来的,包括了NameNode RPC性能、yarn的container assign性能,以及加机器。另外一块,就是要做各种优化管理。大家想,原先你就有几百个用户在用,当开放出去后,随着大数据应用的发展,不断有人去用,久而久之就会变成上万个用户在用。这时,你的存储是否被有效地利用呢?是否都是有价值的数据放在上面呢?你的计算是否都是有效的计算呢?还有人在用这样的一个任务吗?管理数据化成果给大家看一下我们在这一块的成果。理念很简单,就是做一个闭环。把整个数据仓库和Hadoop做成一个闭环,大家可以看到内圈,其实就是正常开发的一个数据仓库,你会建立任务、执行、下线,这是一个循环。而外循环是从整个任务建立时就开始对它进行管理,当你任务申请好之后,你会分配到一个队列,查看你的每一个日志。存储和计算会告诉你用了多少,同时还可以做一些智能的分析。在你的任务执行完之后,可以在系统里面看到任务的整个生命周期运行情况。基本上我们就是把整个大数据分到项目,分到人,分到数据库,分到几个任务,所有的指标都可以可视化地让你看到,也就是说,即使你只是简单地在系统里提交了一个SQL,可实际上你得到的是一个可视化、数据化的成果。你可以知道,今天我提交了多少个SQL,占用了多少资源,剩下多少文件,所有这些东西在系统里都可以看到。这样数据分析师也能主动跟你讲,今天慢了可能是因为提交的任务太多,今天提交的任务比上周多了一倍。你也能主动地在系统里找,为什么多了一倍?什么样的任务最占用资源?整个架构闭环大大降低基本架构技术人员的工作量。而当我们所有的数据都开放给数据分析师时,他们又能通过这些数据去做一些自己的分析,这也是一个闭环的形成。对很多公司来说,通过构建闭环,这一块的工作效率将会得到很大的提升。接下来重点讲两块资源的管理。一块是存储的资源,一块是计算的资源。存储资源管理一般情况下,大家在Hadoop中都是用Hive这个数据库,它对应的是后端的一些一二三级目录等数据库和表的目录。我们要怎样获取这些数据呢?从我们的角度来说,我们也是数据分析人员,我们要做的东西和其他的分析师其实是一样的,只不过我们分析的对象是系统的性能数据。我们会想要获取各种各样的性能数据,同时,我们需要去计算这些性能数据,做多维度的各种计算,然后把它推出去给用户看。存储资源基本上就是通过这几大块来收集,左边是获取到的各种存储的信息,文件、表、数据仓库、ETL、Hadoop的日志……第二步是把它转化为Hive里计算的文件元数据信息、表元数据信息、调度任务元数据信息、路径访问信息,最后得到的产出通过各种维度的计算,可以得到:维度:包括分区、表、数据库、任务、业务、人、目录层级、时间等所有维度;指标:全量、增量、趋势、平均文件大小、最大文件大小、最小文件大小、文件数目、占比等;热度:哪些表被频繁访问?哪些表3个月没人访问,是否可以下线了?安全:有没有敏感信息被非法访问。通过这一系列的存储资源管理,可以把所有的关键信息收集起来。下面,讲一下这些数据的使用,这也是我们公司目前正在践行的:容量计费通过计费来控制资源,使存储数据完整透明。消费预警,会提前知会用户。空间管理自动配置生命周期管理规则;存储格式,压缩格式选择(orc+gzip);文件管理自动配置生命周期管理规则;小文件har归档。控制存储的价值:一方面可以解决NN“单点”瓶颈,控制服务器的数量,降低成本。如果没有加以控制,很快你的规模就会变成几百、几千,逐渐失控。另一方面,规范数据生命周期管理,统计冷热数据的使用,区别哪些数据是能删的、哪些是能归档的、哪些是被频繁使用的,都可以通过这个手段反馈给ETL生命周期管理。计算资源管理这是yarn的一个架构图。大家都知道yarn是Hadoop的一个统一的调度管理。但yarn好像把所有资源管理的事情都搞定了,我们还需要管理什么呢?实际上,还有很多没有解决的问题。数据精准
营销的七个关键要素说到大数据精准营销,不得不先提个性化的用户画像,我们针对每一类数据实体,进一步分解可落地的数据维度,刻画TA的每一个特征,在聚集起来形成人群画像。 01用户画像用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。具体包含以下几个维度:用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件如何生成用户精准画像大致分成三步。1.采集和清理数据:用已知预测未知首先得掌握繁杂的数据源。包括用户数据、各式活动数据、电子邮件订阅数、线上或线下数据库及
客户服务信息等。这个是累积数据库;这里面最基础的就是如何收集网站/APP用户行为数据。比如当你登陆某网站,其Cookie就一直驻留在浏览器中,当用户触及的动作,点击的位置,按钮,点赞,评论,粉丝,还有访问的路径,可以识别并记录他/她的所有浏览行为,然后持续分析浏览过的关键词和页面,分析出他的短期需求和长期兴趣。还可以通过分析朋友圈,获得非常清晰获得对方的工作,爱好,教育等方面,这比个人填写的表单,还要更全面和真实。我们用已知的数据寻找线索,不断挖掘素材,不但可以巩固老会员,也可以分析出未知的顾客与需求,进一步开发市场。2.用户分群:分门别类贴标签描述分析是最基本的分析统计方法,描述统计分为两大部分:数据描述和指标统计。数据描述:用来对数据进行基本情况的刻画,包括数据总数,范围,数据来源。指标统计:把分布,对比,预测指标进行建模。这里常常是Data mining的一些数学模型,像响应率分析模型,客户倾向性模型,这类分群使用Lift图,用打分的方法告诉你哪一类客户有较高的接触和转化的价值。在分析阶段,数据会转换为影响指数,进而可以做"一对一"的精准营销。举个例子,一个80后客户喜欢在生鲜网站上早上10点下单买菜,晚上6点回家做饭,周末喜欢去附近吃日本料理,经过搜集与转换,就会产生一些标签,包括"80后""生鲜""做饭""日本料理"等等,贴在消费者身上。3.制定策略:优化再调整有了用户画像之后,便能清楚了解需求,在实际 *** 作上,能深度经营顾客关系,甚至找到扩散口碑的机会。例如上面例子中,若有生鲜的打折券,日本餐馆最新推荐,营销人员就会把适合产品的相关信息,精准推送这个消费者的手机中;针对不同产品发送推荐信息,同时也不断通过满意度调查,跟踪码确认等方式,掌握顾客各方面的行为与偏好。除了顾客分群之外,营销人员也在不同时间阶段观察成长率和成功率,前后期对照,确认整体经营策略与方向是否正确;若效果不佳,又该用什么策略应对。反复试错并调整模型,做到循环优化。这个阶段的目的是提炼价值,再根据客户需求精准营销,最后追踪客户反馈的信息,完成闭环优化。我们从数据整合导入开始,聚合数据,在进行数据的分析挖掘。数据分析和挖掘还是有一些区别。数据分析重点是观察数据,单纯的统计,看KPI的升降原因。而数据挖掘从细微和模型角度去研究数据,从学习集、训练集发现知识规则,除了一些比较商业化的软件SAS,WEKA功能强大的数据分析挖掘软件,这边还是更推荐使用R,Python,因为SAS,SPSS本身比较昂贵,也很难做页面和服务级别的API,而Python和R有丰富的库,可以类似WEKA的模块,无缝交互其他API和程序,这里还需要熟悉数据库,Hadoop等。02数据细分受众“颠覆营销”书中提到一个例子,可以引述一下,大家思考一个问题:如果你打算搜集200份有效问卷,依照以往的经验,你需要发多少份问卷,才能达到这个目标?预计用多少预算和时间来执行?以往的方法是这样的:评估网络问卷大约是5%的回收率,想要保证收到200份的问卷,就必须有20倍的发送量,也就是发出4000份问卷,一个月内如果可以回收,就是不错的表现。但现在不一样了,在执行大数据分析的3小时内,就可以轻松完成以下的目标:精准挑选出1%的VIP顾客发送390份问卷,全部回收问卷寄出3小时内回收35%的问卷5天内就回收了超过目标数86%的问卷数所需时间和预算都在以往的10%以下这是怎么做到在问卷发送后的3个小时就回收35%?那是因为数据做到了发送时间的"一对一定制化",利用数据得出,A先生最可能在什么时间打开邮件就在那个时间点发送问卷。举例来说,有的人在上班路上会打开邮件,但如果是开车族,并没有时间填写答案,而搭乘公共交通工具的人,上班路上的时间会玩手机,填写答案的概率就高,这些都是数据细分受众的好处。03预 测“预测”能够让你专注于一小群客户,而这群客户却能代表特定产品的大多数潜在买家。当我们采集和分析用户画像时,可以实现精准营销。这是最直接和最有价值的应用,广告主可以通过用户标签来发布广告给所要触达的用户,这里面又可以通过上图提到的搜索广告,展示社交广告,移动广告等多渠道的营销策略,营销分析,营销优化以及后端CRM/供应链系统打通的一站式营销优化,全面提升ROI。我们再说一说营销时代的变迁,传统的企业大多还停留在“营销1.0”时代,以产品为中心,满足传统的消费者需求,而进入“营销2.0”,以社会价值与品牌为使命,也不能完全精准对接个性化需求。进入营销3.0的数据时代,我们要对每个消费者进行个性化匹配,一对一营销,甚至精确算清楚成交转化率,提高投资回报比。 大数据下的营销颠覆经典的营销4P理论,Product,Price,Place,Promotion,取而代之的是新的4P,People,Performance,Process,Prediction。在大数据时代,线下地理的竞争边界早就不存在,比的是早一步的先知能力,利用大数据,从顾客真实交易数据中,预测下一次的购买时间。 营销3.0时代关键词就是“预测”。预测营销能够让你专注于一小群客户,而这群客户却能代表特定产品的大多数潜在买家。以上图为例,你可以将营销活动的目标受众锁定为20万潜在客户或现有客户,其中包括特定产品的大多数买家(4万人)。你还可以拨出部分预算用于吸引更小的客户群(比如20% 的客户),而不是整个客户群,进而优化你的支出。过去我们看数据可能是被动的方式,但预测营销强调是决策价值,比如购买时间,你该看的不是她最后的购买日期,而是下次购买的时间,看未来的存活概率,最后生成客户终身价值(CLV)。预测营销催生了一种新的数据驱动营销方式,就是以客户为中心,核心在于帮助公司完成从以产品或渠道为中心到以客户为中心的转变。04精准推荐大数据最大的价值不是事后分析,而是预测和推荐,我就拿电商举例,"精准推荐"成为大数据改变零售业的核心功能。譬如服装网站Stitch fix例子,在个性化推荐机制方面,大多数服装订购网站采用的都是用户提交身形、风格数据+编辑人工推荐的模式,Stitch Fix不一样的地方在于它还结合了机器算法推荐。这些顾客提供的身材比例,主观数据,加上销售记录的交叉核对,挖掘每个人专属的服装推荐模型。 这种一对一营销是最好的服务。数据整合改变了企业的营销方式,现在经验已经不是累积在人的身上,而是完全依赖消费者的行为数据去做推荐。未来,销售人员不再只是销售人员,而能以专业的数据预测,搭配人性的亲切互动推荐商品,升级成为顾问型销售。05技术工具关于预测营销的技术能力,有几种选择方案:1、使用预测分析工作平台,然后以某种方法将模型输入活动管理工具;2、以分析为动力的预测性活动外包给市场服务提供商;3、评估并购买一个预测营销的解决方案,比如预测性营销云和多渠道的活动管理工具。但无论哪条路,都要确定三项基本能力:1)连接不同来源的客户数据,包括线上,线下,为预测分析准备好数据 ;2)分析客户数据,使用系统和定制预测模型,做高级分析 ;3)在正确时间,正确客户,正确的场景出发正确行为,可能做交叉销售,跨不同营销系统。06预测模型预测客户购买可能性的行业标准是RFM模型(最近一次消费R,消费频率F,消费金额M),但模型应用有限,本质是一个试探性方案,没有统计和预测依据。“过去的成绩不能保证未来的表现”,RFM只关注过去,不去将客户当前行为和其他客户当前行为做对比。这样就无法在购买产品之前识别高价值客户。我们聚焦的预测模型,就是为了在最短时间内对客户价值产生最大影响。这里列举一些其他模型参考:参与倾向模型,预测客户参与一个品牌的可能性,参与定义可以多元,比如参加一个活动,打开电子邮件,点击,访问某页面。可以通过模型来确定EDM的发送频率。并对趋势做预测,是增加还是减少活动。钱包模型,就是为每个客户预测最大可能的支出,定义为单个客户购买产品的最大年度支出。然后看增长模型,如果当前的总目标市场比较小,但未来可能很大,就需要去发现这些市场。价格优化模型,就是能够去最大限度提升销售,销量或利润的架构,通过价格优化模型为每个客户来定价,这里需要对你想要的产品开发不同的模型,或者开发通用,可预测的客户价格敏感度的模型,确定哪一块报价时对客户有最大的影响。关键字推荐模型,关键字推荐模型可以基于一个客户网络行为和购买记录来预测对某个内容的喜爱程度,预测客户对什么热点,爆款感兴趣,营销者使用这种预测结果为特定客户决定内容营销主题。预测聚集模型,预测聚集模型就是预测客户会归为哪一类。07AI在营销领域的应用去年人工智能特别火,特别是深度学习在机器视觉,语言识别,游戏AI上的突飞猛进,以至于人们开始恐慌人工智能是不是已经可以接管人类工作,我个人是对新技术有着强烈的兴趣,也非常看好新科技,数据与现实的关联。我以前在国外零售店买单的时候经常被询问“你有没有购物卡”,当我说没有收银员会赶紧劝我免费开通,有打折优惠,只需要填个手机号和邮箱,后面就可以针对我的购买记录做营销活动,而当我下次进来,他们就让我报出电话号码做消费者识别,当时我想如果做到人脸识别,岂不是更方便,刷脸就可以买单。而这个场景在去年也有了实验,蚂蚁金服研发出了一个生物识别机器人,叫蚂可Mark,据说其认脸能力已经超越了人类肉眼的能力。还有VR购物,Amazon推出的无收银员商店Amazon Go,通过手势识别,物联网和后续数据挖掘等技术实现购物体验。针对营销领域,主要有以下三种预测营销技术:1、无监督的学习技术无监督学习技术能识别数据中的隐藏模式,也无须明确预测一种结果。比如在一群客户中发现兴趣小组,也许是滑雪,也许是长跑,一般是放在聚类算法,揭示数据集合中 真实的潜在客户。所谓聚类,就是自动发现重要的客户属性,并据此做分类。2、 有监督的学习技术通过案例训练机器,学习并识别数据,得到目标结果,这个一般是给定输入数据情况下预测,比如预测客户生命周期价值,客户与品牌互动的可能性,未来购买的可能性。3、强化学习技术这种是利用数据中的潜质模式,精准预测最佳的选择结果,比如对某用户做促销应该提供哪些产品。这个跟监督学习不同,强化学习算法无须仅需输入和输出训练,学习过程通过试错完成。从技术角度看,推荐模型应用了协同过滤,贝叶斯网络等算法模型。强化学习是被Google Brain团队的负责人Jeff Dean认为是最有前途的AI研究方向之一。最近Google的一个AI团队DeepMind发表了一篇名为《学会强化学习》的论文。按团队的话来说,叫做“学会学习”的能力,或者叫做能解决类似相关问题的归纳能力。除了强化学习,还在迁移学习。迁移学习就是把一个通用模型迁移到一个小数据上,使它个性化,在新的领域也能产生效果,类似于人的举一反三、触类旁通。强化学习加上迁移学习,能够把小数据也用起来,我认为是很激动人心的,通过AI来创造AI,数据科学家的部分工作也可以让机器来实现了。
大数据营销的精准获客,你真的懂吗?
数字化转型的大趋势下,大数据的作用越来越凸显出来。当大数据的概念被引入营销领域后,大数据营销应运而生。大数据营销需要帮助销售单位及销售人员锁定潜在客户、对销售内容、方式、时机进行预判和调整,并实现转化交易。
那么,大数据营销要如何实现以上功能呢?小编为您细细道来。
01大数据营销的特点
大数据营销具有多平台数据采集、强调时效性、个性化营销、性价比高、关联性等特点。
多平台数据采集指的是通过互联网、广电网、智能电视等多样化的平台收集用户数据,由此,可以对用户行为进行更全面而精准的刻画。
强调时效性是指在互联网时代,用户的消费行为很容易在短时间内发生改变。因此,针对用户需求点,进行时机恰当的营销是尤为重要的。对此,大数据手段可以充分理解用户需求,及时提出营销方案。
个性化营销是指通过大数据手段,让不同的用户接收到差异化的信息,实现营销的私人订制。
性价比高是指大数据营销最大程度地节约了成本,并根据实时效果及时调整策略。
关联性是指大数据营销建立了用户和营销内容直接的关联性,实现与用户的深度互动。
02大数据营销的优势
精准获客。大数据营销可以精准描述用户画像,详尽分析用户特征、消费行为、需求特点,将产品更好地触达用户。
收获更全面的客户。受众更加全面。大数据对所有数据进行分析处理,制定精准的营销方案,使客户面扩大,促动非意向客户向意向客户转化。
提高转化率。大数据营销筛选出的客户更加精准,对此类客户进行广告投放,既节约了成本,也可以显著提高转化率。
03如何用好大数据营销
精准锁定客户。通过大数据分析用户偏好、兴趣、习惯等特征,挖掘用户深层需求,实现对潜在客户的精准锁定,并供给他们最合适的产品与服务。
个性化产品定制。客户的需求多种多样,通过大数据分析,可以将客户与产品建立关联,针对客户的偏好进行个性化定制,为客户匹配出最合适的产品。
充分挖掘营销渠道潜力。在大数据的背景下,企业与各渠道之前应建立系统的大数据营销平台。通过各营销渠道对产品的推广,激发客户的消费欲望。
寻找新市场和新趋势。基于大数据的分析能力,把握市场趋势。
数据支持决策。根据大数据的梳理,对市场进行预测和分析,由此制定营销决策。
总而言之,大数据营销是大势所趋,抓紧利用起来吧。
图片来源:Pexels
评论列表(0条)