基于大数据的用户标签体系建设思路和应用_工具

基于大数据的用户标签体系建设思路和应用

在大数据时代，数据在呈现出海量化、多样化和价值化变化的同时，也改变了传统IT行业的市场竞争环境、营销策略和服务模式。

如何在ZB级的海量数据中获取并筛选有价值的信息，是对IT企业的一大挑战。通过构建客户标签，支撑精准营销服务，是应对上述挑战的有效解决方案。

但是怎么设计一个完善的用户标签体系？怎么打标签？打哪些标签？谁来打？怎么使用用户标签创建商业价值？

这些都是产品设计层面需要解决的问题。

掌上医讯一直以来都致力于打造医生的今日头条和智能化的学习平台，通过大数据技术实现医生学习的智能化和个性化，而要构建这样一个学习平台，最基础的就是要建立用户的标签体系。

经过长时间的学习、思考、借鉴和实践，现在已经有了自己的标签构建思路，并且也已经提取出了符合自身业务的标签。我们十分重视用户行为日志的收集，现在已经有了亿万级别的日志数据，正在搭建数据处理和标签计算平台，以下是我们整理的建设思想。

标签系统的结构

标签系统可以分为三个部分：数据加工层、数据服务层和数据应用层。

每个层面向的用户对象不一样，处理事务有所不同。层级越往下，与业务的耦合度就越小。层级越往上，业务关联性就越强。

数据加工层

数据加工层收集、清洗和提取数据。掌上医讯有诸多的学习模块，同时又有网站、APP、小程序等多个产品形式，每个产品模块和产品端都会产生大量的业务数据和行为数据，这些数据极为相似又各不相同，为了搭建完善的用户标签体系，需要尽可能汇总最大范围的数据。收集了所有数据之后，需要经过清洗、去重、去无效、去异常等等。

数据业务层

数据加工层为业务层提供最基础的数据能力，提供数据原材料。业务层属于公共资源层，并不归属某个产品或业务线。它主要用来维护整个标签体系，集中在一个地方来进行管理。

在这一层，运营人员和产品能够参与进来，提出业务要求：将原材料进行切割。

主要完成以下核心任务：

定义业务方需要的标签。创建标签实例。执行业务标签实例，提供相应数据。数据应用层

应用层的任务是赋予产品和运营人员标签的工具能力，聚合业务数据，构建具体的数据应用场景。

（1）标签的类型

从数据提取维度来看，标签可分为：事实标签、模型标签和预测标签。

（2）事实标签

从生产系统获取数据，定性或定量描述用户的自然属性、产品属性、消费属性、资源属性等，以及根据工作人员经验积累的业务规则进行筛选、分析生产的标签，如是否活跃用户、是否是考生等。

（3）模型标签

对用户属性及行为等属性的抽象和聚类，通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数，标签代表用户的兴趣、偏好、需求等，指数代表用户的兴趣程度、需求程度、购买概率等。

（4）预测标签

基于用户的属性、行为、信令、位置和特征，挖掘用户潜在需求，针对这些潜在需求配合营销策略、规则进行打标，实现营销适时、适机、适景推送给用户。

从数据的时效性来看，标签可分为：静态属性标签和动态属性标签。

（5）静态属性标签

长期甚至永远都不会发生改变。比如性别，出生日期，这些数据都是既定的事实，几乎不会改变。

（6）动态属性标签

存在有效期，需要定期地更新，保证标签的有效性。比如：用户的购买力，用户的活跃情况。

标签的定义

给用户打标签，建立用户画像，最终都是为了去应用，所以我们要站在应用场景上去定义用户的标签体系，每个标签都有最终的用途。比如：我们做考试培训服务，我们需要建立“是否考生”的标签。

另外，不同的行业他们的用户特征也是有显著区别的，比如：医生用户相比普通用户来说，就多了像“科室”、“职称”、“所在医院等级”等特殊含义的标签。

而标签是有层级关系的，既是为了管理，更好的理解，又是为了控制粗细力度，方便最终的应用。标签深度一般控制在四级比较合适，到了第四级就是具体的标签实例。

我们根据公司的业务首先划分了人口属性、行为属性、用户分类和商业属性四个大的分类，下面又分了上网习惯、学习惯、人群属性、消费能力、消费习惯等分类，最末级精确到用户的活跃等级、阅读来源、考试偏好等具体的标签。

标签的维护

每个标签都不会凭空产生的，也不会一成不变，更不会凭空消失。标签的维护需要生成规则，需要定义权重，需要更新策略。

生成规则

如第一部分所说，标签分为事实标签，模型标签和预测标签三大类。对于这三类的标签，生成规则的难度和复杂性也是逐级递增的。事实标签只需要考虑从什么地方提取即可，它即包含明确的标签定义，又包含无法穷举的标签集，比如：关注的病种。

而模型标签需要进行数据的关联和逻辑关系的设计，通过一定的模型对数据进行计算得来。而预测标签相对就非常的复杂，无法从原始数据提取标签，标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。

定义权重

一个标签会在多个场景下出现，比如：一个疾病标签，它极可能在浏览过程中生成，也有可能在搜索场景下产生，但是对于这两个场景所对应的同一个标签，他们的权重是不同的。浏览相比搜索，权重要小得多，因为搜索的主动需求更大。

更新策略

上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签，对于静态属性标签的处理相对比较简单，就不停的累加即可。但是对于动态属性标签，需要对过期标签进行降权甚至删除处理，比如：医生考试前和考试后，会影响“是否考生”这个标签的，这就需要制定更新策略。

标签建设的技术架构

标签体系的建设涉及很多环节，数据量也十分巨大，需要有一个健壮且高效的技术架构来支持数据的存储及计算，掌上医讯采用了sql数据库和no-sql数据库来满足结构化数据和非结构化数据的存储。

使用hadoop的分布式存储技术及hive和hbase组件作为数据仓库，使用MapReduce和spark分布式计算来提高计算速度，使用kylin进行多维分析，通过BI工具和接口对外提供应用，使用sqoop和kettle进行数据的抽取及流程的调用。

更多的应用场景

用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中，但随着标签的完善以及智能化处理的提升，这套标签体系将有更广阔的应用场景。

（1）智能化学习场景的构建

通过用户学习需求的标签的分析进行用户分群，针对不同的用户群在APP的功能和内容上进行个性化展示，满足不同学习需求的用户个性化的学习服务。

（2）精准营销推广的建立

更细粒度的对用户进行筛选，同时能够精准预测可能存在的目标用户进行推广，从而扩大医生覆盖，提升推广的转化率。

（3）KOL用户画像的描绘

基于该标签模型，增加对外部数据的采集分析，更加完整的生成医生360度的用户画像，帮助企业寻找潜在的KOL用户，实现用户洞察，辅助市场决策。

标签的建设是一个看似高大上，其实很繁琐、纠结的过程，需要对业务抽丝剥茧，还要应对运营需求的各种变化，不过对公司发展的影响也是深远的。

本文主要包含以下几个部分

互联网大数据时代，消费者的一切行为都是“可视化”。

企业聚焦于怎样 利用大数据 来精准营销。于是“用户画像”

概念也就应运而生。

1数据真实

用户画像必须建立在真实的数据之上。比如你的理财产品的注册用户有很多垃圾用户，都不怎么投资，做用户画像的时候就要把这部分人清洗掉。

2标签化（标签要言简意赅：易理解、短）

按产品需要，给不同的 用户特征 贴上合适的标签。如地域标签“北京”等等。

3低交叉率（完整性、独立性）

4优先级（多个用户画像需要进行优先级排序）

一个产品的用户画像 不能超过三个 ，当有多个用户画像时，需要考虑优先级，否则产品设计时会无所适从。

5不断修正

刚开始做产品可以通过 调研+竞品分析 的方式猜测用户是什么样的人群，实际做出来可能有点偏差，然后修正，当产品数据更丰富的时候，可能用户画像又需要修正。

用户画像就是用户信息标签化，所以我们可以通过以下步骤进行用户画像。

1数据挖掘

以电商为例，为了抓取用户的 人口属性 和 行为轨迹 ，先预设用户购物时的可能行为。包括访问首页、注册登录、搜索商品、浏览商品、价格对比、加入购物车、收藏商品、提交订单、支付订单、使用优惠券、查看订单详情、取消订单、商品评价等。

2筛选标签

根据用户画像的目的，筛选静态标签、动态标签。

静态标签主要从用户 基本信息 进行用户划分。静态属性是用户画像建立的基础。如性别、年龄、学历、角色、收入、地域、婚否、性格等。

动态标签指用户在互联网环境下的 上网行为 。如访问行为（搜索、注册、登录）社交行为（邀请、添加、取关好友、加入群、新建群）信息发布行为（添加、发布、删除、留言、分享）等。动态标签能更好的记录用户日常的上网偏好。

3数据建模

数据建模就是给用户的行为标签 赋予权重 。

用户的行为，我们可以用4W表示：Who、When、Where、What。谁在什么时候在哪里做了什么。

数据建模实例：华为用户

A用户今天在华为官网购买了华为手机

B用户7天前在京东浏览了华为手机

这篇文章较为完整、清晰的讲述了数仓建模分层理论，要点如下：

1、分层的意义：清晰结构体系、数据血缘跟踪、减少重复开发、复杂问题简单化及统一数据口径

2、ODS：用作缓冲，可以存一周左右，跟DWD大多重复，留存的目的还在于保持跟源端一致，方便追溯

3、DWD：针对ODS做数据的清洗和整合，在DWD层会根据维度模型，设计事实表和维度表，DWD层是一个非常规范的、高质量的、可信的数据明细层

4、DWS：基于DWD层形成某一主题的轻度汇总表或分析宽表，DWS形成大量维度退化的事实表以提高易用性，DWS层应覆盖80%的应用场景

5、TDM：标签层，通过统一的ID-Mapping 把各个业务板块，各个业务过程中同一对象的数据打通，形成对象的全域数据标签体系，方便深度分析、挖掘、应用，大家注意，这个ID不仅仅指客户或用户ID，也包括其它的主数据ID，其是全流程分析的基础

6、ADS：数据应用层ApplicationDataService面向业务定制的应用数据，主要提供给数据产品和数据分析使用的数据，一般会放在ES，MYSQL，Redis等前端系统供线上系统使用，也可以放在Hive中供数据分析和数据挖掘使用

7、DM：主要是提供数据产品和数据分析的数据，主要解决部门用户报表和分析需求而建立数据库，数据集市就代表数据仓库的主题域。DM 是面向单个主题的，所以它不会从全局考虑进行建设。

强烈推荐阅读！

正文开始

简单点儿，直接ODS+DM就可以了，将所有数据同步过来，然后直接开发些应用层的报表，这是最简单的了；当DM层的内容多了以后，想要重用，就会再拆分一个公共层出来，变成3层架构,这个过程有点类似代码重构，就是在实践中不断的进行抽象、总结。

数仓的建模或者分层，其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话，所有的划分都是为了更好的管理。小到JVM 内存区域的划分，JVM 中堆空间的划分(年轻代、老年代、方法区等)，大到国家的省市区的划分，无一例外的都是为了更好的组织管理。

所以数仓分层是数据仓库设计中十分重要的一个环节， 优秀的分层设计能够让整个数据体系更容易理解和使用 。

这一节，我们主要是从整体上出发进行分析和介绍，就和上一节数仓建模方法论一样，进度对比分析，更多细节的东西我们后面会单独拆分出来，用案例进行演示，例如维度建模，维度表的设计，事实表的设计、以及如何设计标签、如何管理标签等等。

每一个数据分层都有它的作用域，这样在使用表的时候能更方便的定位和理解。

由于最终给业务呈现的是一个能直接使用的业务表，但是表的数据来源有很多，如果有一张来源表出问题了，我们希望能够 快速准确的定位到问题，并清楚它的影响范围，从而及时给到业务方反馈，从而将损失降到最低 。

将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。

过数据分层提供统一的数据出口，统一对外输出的数据口径，这往往就是我们说的数据应用层。

前面我们说到分层其实是为了更好更快更准的组织管理，但是这个是从宏观上来说的，接下来我们从微观上也来看一下分层。

越靠上的层次，对应用越友好,比如ADS层，基本是完全为应用设计,从数据聚合程度来讲，越上层的聚合程度越高，当然聚合程度越高可理解程度就越低。

数仓层内部的划分不是为了分层而分层， 分层是为了解决 ETL 任务及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题 ，当然我们常说的分层也是面向行业而言的，也是我们常用分层方法，但是你需要注意的是分层仅仅是手段而已。

ODS 全称是 OperationalDataStore， *** 作数据层存储的是面向业务系统的数据，也是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。

本层的数据，总体上大多是 按照源头业务系统的分类方式而分类的 ，前面我们说到为什么在数仓主要用维度建模的情况下，我们依然要学习范式建模呢，因为我们的数据源是范式建模的，所以学习范式建模可以帮助我们更好的理解业务系统，理解业务数据，所以你可以认为我们的ODS 层其实就是用的实范式建模。

这里的数据处理，并不涉及业务逻辑，仅仅是针对数据完整性以及重复值和空值的处理，其实就是做的是数据规约，数据清洗，但是为了考虑后续可能追溯数据源问题，因此 对这一层不建议做过多的数据清洗工作 ，原封不动接入源数据即可，至于数据的去噪，去重，异常值处理等过程可以放在后面的DW层

表名的设计 ODS_业务系统_表名_标记，这样的设计可以保持与业务表名一致，又可以有清晰的层次，还可以区分来源。标记一般指的是其他数仓特有的属性，例如表是天级的还是小时的，是全量的还是增量的。

ods 的设计可以保证所有的数据按照统一的规范进行存储。

DW是数据仓库的核心，从ODS层中获得的数据按照主题建立各种数据模型。DW又细分数据明细层DWD 和轻度汇总层DWS

这一层和维度建模会有比较深的联系，业务数据是按照 业务流程方便 *** 作的角度 来组织数据的，而统一数仓层是 按照业务易理解的角度或者是业务分析的角度 进行数据组织的，定义了一致的指标、维度，各业务板块、数据域都是按照统一的规范来建设，从而形成统一规范的 标准业务数据体系 ，它们通常都是基于Kimball的维度建模理论来构建的， 并通过一致性维度和数据总线来保证各个子主题的维度一致性 。

公共层的维度表中相同维度属性在不同物理表中的字段名称、数据类型、数据内容必须保持一致，因为这样可以降低我们在使用过程中犯错误的概率，例如使用了不正确的字段，或者因为数据类型的原因导致了一些奇怪的错误

将维度所描述业务相关性强的字段在一个物理维表实现。相关性强是指经常需要一起查询或进行报表展现、两个维度属性间是否存在天然的关系等。例如，商品基本属性和所属品牌。

公告明细数据层，可以说是我们数仓建设的核心了。

DWD层要做的就是将 数据清理、整合、规范化、脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不规范的数据都会被处理 。然后加工成面向数仓的基础明细表，这个时候可以加工一些面向分析的大宽表。

DWD层应该是覆盖所有系统的、完整的、干净的、具有一致性的数据层。在DWD层会根据维度模型，设计事实表和维度表，也就是说DWD层是一个非常规范的、高质量的、可信的数据明细层。

DWS层为 公共汇总层 ，这一层会进行轻度汇总，粒度比明细数据稍粗， 基于DWD层上的基础数据，整合汇总成分析某一个主题域的服务数据 ，一般是也是面向分析宽表或者是面向某个注意的汇总表。DWS层应覆盖80%的应用场景，这样我们才能快速响应数据需求，否则的话，如果很多需求都要从ods开始做的话，那说明我们的数仓建设是不完善的。

例如按照业务划分，例如流量，订单，用户等，生成字段比较多的宽表，用于后续的业务查询，OLAP分析，数据分析等。

一般采用维度模型方法作为理论基础，更多的采用一些维度退化手法，将维度退化至事实表中，减少维度表与事实表的关联，提高明细数据表的易用性；同时在汇总数据层要加强指标的维度退化，采用更多的宽表化手段构建公共指标数据层，提升公共指标的复用性，减少重复加工。

维表层，所以其实维度层就是大量维表构成的，为了统一管理这些维度表，所以我们就建设维度层，维度表本身也有很多类型，例如稳定维度维表，渐变维度维表。

维度指的是观察事物的角度，提供某一业务过程事件涉及用什么过滤和分类的描述属性 ，"谁、什么时候、什么地点、为什么、如何"干了什么，维度表示维度建模的基础和灵魂。

所以可以看出，维度表包含了业务过程记录的业务过程度量的上下文和环境。维度表都包含单一的主键列， 维度表设计的核心是确定维度字段，维度字段是查询约束条件(where)、分组条件(group)、排序(order)，与报表标签的基本来源 。

维度表一般为 单一主键 ，在ER模型中，实体为客观存在的事务，会带有自己的描述性属性，属性一般为文本性、描述性的，这些描述被称为维度。维度建模的核心是 数据可以抽象为事实和维度 ，维度即观察事物的角度，事实某一粒度下的度量词， 维度一定是针对实体而言的 。

每个维度表都 包含单一的主键列 。维度表的主键可以作为与之关联的任何事实表的外键，当然，维度表行的描述环境应与事实表行完全对应。维度表通常比较宽，是扁平型非规范表，包含大量的低粒度的文本属性。例如customer（客户表）、goods(商品表)、d_time(时间表)这些都属于维度表，这些表都有一个唯一的主键，然后在表中存放了详细的数据信息。

维度表通常比较宽 ，包含多个属性、是扁平的规范表 ，实际应用中包含几十个或者上百个属性的维度并不少见，所以 维度表应该包括一些有意义的描述，方便下游使用 。

维度表的维度属性，应该尽可能的丰富，所以维度表中，经常出现一些反范式的设计，把其他维度属性并到主维度属性中， 达到易用少关联的效果。

维度表的设计包括维度选择，主维表的确定，梳理关联维度，定义维度属性的过程。

维度的选择一般从报表需求和从业务人员的交谈中发现，主要用于过滤、分组、排序，主维度表一般从业务库直接同步，比如用户表，但是数仓的本身也会有自己的维度，这是因为数仓是面向分析的，所以会有很多从分析的角度出发的维度。

关联维度主要是不同业务系统或者同一业务系统的表之间存在关联性(范式建模)，根据对业务表的梳理，确定哪些表和主维度表之间存在关联关系，并选择其中的某些表用于生成维度属性。

随着互联网的普及，获客成本越来越高，这也使得公司对用户运营提出了更高的要求，不仅需要精细化更需要个性化。解决这一问题的办法之一就是建立相对完备的标签系统，而数仓的标签层对于标签系统而言就像数据仓库对于数据系统一样，有着举足轻重的地位，这样的标签系统需要与业务进行紧密结合， 从业务中获取养分—用户标签，同时也要服务于业务—给用户提供更加精准和个性的服务 。

底层的标签系统就像一个索引，层层展示大千世界，而用户就从这大千世界中不断选择一些东西表明自己的身份和喜好，也不断反哺，使得这个大千世界更加丰富多彩。其实到最后用户就是一些标签的集合。

对跨业务板块、跨数据域的特定对象进行数据整合，通过统一的ID-Mapping 把各个业务板块，各个业务过程中 同一对象的数据打通 ，形成对象的全域数据标签体系，方便深度分析、挖掘、应用。ID-Mapping 可以认为是通过对象的标识对不同数据体系下相同对象进行关联和识别。对象的标识可以标识一个对象，一般是对象的ID,比如手机号，身份z，登录账号

完成对象的ID 打通需要给对象设置一个超级ID,需要根据对象当前业务体系的ID和获取得到或者计算得到超级ID,进而完成所有业务标识的ID打通一般来说ID打通是建设标签体系的前提，如果没有ID打通就无法收集到一个对象的全面信息，也就无法对这个对象进行全面的标签刻画。

传统的计算方法要有 ID-ID之间的两两关系，例如邮箱和手机号可以打通，手机号和身份z号可以打通，那么邮箱就和身份z号可以打通，但是当数据量非常大，且业务板块非常多的时候，例如有上一个对象，每个对象有数十种ID,这个时候打通就需要非常漫长的计算

那么什么是标签呢，利用原始数据，通过一定的逻辑加工产出直接能被业务所直接使用的、可阅读的，有价值的数据。标签类目，是标签的分类组织方式，是标签信息的一种结构化描述，目的是管理、查找，一般采用多级类目，一般当一个对象的标签个数超过50个的时候，业务人员查找标签就会变得非常麻烦，这个时候我们往往会通过标签类目进行组织管理

标签按照产生和计算方式的不同可分为属性标签，统计标签，算法标签，关联标签。

对象本身的性质就是属性标签，例如用户画像的时候打到用户身上的标签。

对象在业务过程中产生的原子指标，通过不同的计算方法可以生成统计标签。

对象在多个业务过程中的特征规律通过一定的算法产出的标签。

对象在特定的业务过程会和其他对象关联，关联对象的标签也可以打在主对象上。

我们的标签一定是针对用户的，而不是一些虚假、高大上、无用的标签，一定要真实反映用户行为喜好的，所以我们不能只依赖人工智能算法的分析，来完成对一个用户标签的建立与定期维护，我们需要走出去和用户交互，引导用户使用，要抓住用户痛点，及时获取用户反馈，形成闭环。

如何引导使用呢？这个方式有很多我们就不再这里介绍了，后面我们会专门介绍这一层的建设细节。

数据应用层ApplicationDataService面向业务定制的应用数据，主要提供给数据产品和数据分析使用的数据，一般会放在ES，MYSQL，Redis等系统供线上系统使用，也可以放在Hive中供数据分析和数据挖掘使用，或者使用一下其他的大数据工具进行存储和使用。

数仓层，DIM 层，TDM 层是相对稳定的，所以无法满足灵活多变业务需求 ，所以这和数仓层的规范和划分相矛盾，所以我们在此基础上建立了另外一个层，这就是ADS 层，解决了规划稳定和灵活多变之间的矛盾。其实到这里你也就慢慢的看明白了，分层和分类其实没多大差别，其实就是相似的放在一起，有点代码重构的意味啊。

数据应用层，按照业务的需要，然后从统一数仓层和DIM进行取数，并面向业务的特殊需求对数据进行加工,以满足业务和性能的需求。ADS 层因为面向的实众多的需求，所以这一层没有太多的规范，只需要按照命名规范来进行就可以了。

前面也说了，ADS 层因为面向的实众多的需求，所以这一层没有太多的规范，但是ADS 层的建设是强业务推动的，业务部门需要参与到ADS 的建设中来，至少我们得了解用户的痛点才能对症施药啊。

理清需求，了解业务方对数据内容、使用方式(怎么交互的，报表、接口、即席查询、在线查询、指标查询、搜索)、性能的要求。

盘点现有的数仓表是否可以支持，看以前有没有类似的需求，有没有可以复用的接口、报表什么的。

代码实现，选择合适的存储引擎和查询引擎，配置线上监控然后交付。

主要是提供数据产品和数据分析的数据，一般会存放在ES、Mysql、也可能直接存储在hive中或者druid供数据分析和数据挖掘使用。主要 解决部门用户报表和分析需求 而建立数据库，数据集市就代表数据仓库的主题域。

DM 是面向单个主题的，所以它不会从全局考虑进行建设，只专注于自己的数据、往往是某个业务线，例如流量主题、社交主题、电商主题等等。

对于互联网从业者，经常会提到一个词——用户画像。作为一名刚主要做用户画像DMP的数据PM，工作中总是会被需求方问到——

我要查看XXX的用户画像或是能否能够XXXX类用户的画像。抑或是有别的产品会问到：你们是怎么做用户画像的？

然而在沟通的过程中，我发现，不同的人对用户画像的理解差异还是非常大的。有的人认为用户画像就是包含了用户的详细的信息，有的人认为用户画像是能够反映出一个群体的统计学特性，有的人认为用户画像可以做用户研究这些想法或多或少有一些片面的，本文就用户画像的基础知识进行说明，并结合一些DMP产品进行分析，同时对用户画像在K12产品中的应用做一说明。

1、当我们谈论DMP和用户画像时，我们在谈论什么？

此部分结合常见DMP&用户画像定义和我工作中对DMP&用户画像的定义进行说明

用户画像是DMP中非常重要的一个环节，因此将DMP和用户画像拆开进行说明

11DMP

111 DMP是什么？

DMP即 datamanagement system,数据管理平台，单从名称上来看，这个定义还是非常宽泛的，所以国内很多企业或者个人会将dmp的核心功能理解错。

结合我的理解，DMP其实是一个全面的数据收集，加工，整合的平台，吸收各种数据源的数据，以用户为基本单位，清洗，整理形成结构化的数据表，并进行用户标签的计算，以期能够精准的描述各种用户。

纯碎的DMP平台是指小型的、定制能力极强、中立性好的DMP技术服务商。美国DMP市场是极度细分的，中国市场是高整合的，往往DMP的需求是和DSP、SSP紧密联系在一起的，目前还很难有纯粹的DMP平台。

112 DMP可以做什么

精准营销，广告投放，个性化推荐，其他应用

113 DMP的基础架构及数据加工流程

DMP的基础架构：

DMP的数据加工流程：

115 DMP的实际应用（市面上能够看到的产品）

DMP广告平台：腾讯广点通、阿里妈妈达摩盘；

独立第三方DMP：talkingdata、神策数据；

个性化推荐：今日头条、一点资讯、淘宝、京东等；

说明：个性化推荐的应用我们能够感受到，但是背后的逻辑我们是看不到的

其他应用

12用户画像

121 用户画像是什么

关于用户画像，有两类定义：User Persona 和User Profile

User Persona：是产品设计、运营人员从用户群体中抽象出来的典型用户。例如，在用户调研阶段，产品经理经过调查问卷、客户访谈了解用户的共性与差异，汇总成不同的虚拟用户；

经典案例——《用户体验要素》中提到的用户画像

UserProfile：根据每个人在产品中的用户行为数据，产出描述用户的标签的集合。例如猜测这个用户是男是女，生活工作所在地，喜欢哪个明星，要买什么东西等。

本文所提到的用户画像，指的是User Profile

122 用户画像怎么做

基础数据收集：收集用户在网站内外的静态数据和动态数据；

行为建模：基于用户的基础数据，通过技术手段进行行为建模；

构建画像：通过行为建模，可以输出一系列的用户标签，每个用户的标签都可以形成一个集合，这个标签的集合可以表示出这个用户的特点。

123 用户画像的常见应用

个性化推荐（电商、资讯类产品）、风控、预测等

124 用户画像与DMP的关系

DMP是数据管理平台，可以简单理解为，把数据提供到DMP平台，DMP平台输出一系列标签，或其他想要的结果。

用户画像是输入用户数据到DMP，DMP输出了用户标签。

DMP不只可以输出用户标签，也可以输出其他的标签，比如输入文章，输出文章标签。

因此，用户画像是DMP的一个应用方向。

2 相关产品介绍

由于用户画像主要是作为底层应用，因此它的很多应用都是能感知，但不可见。比如电商平台的个性化推荐页面，资讯类App首页的个性化推荐背后，就是用户画像在发挥着作用，用户标签和内容标签/商品标签进行智能组合。

由于本人从事K12教育行业，所以只选取了两类竞品：开放DMP平台、教育类产品，其中以开放DMP平台为主。

3 竞品分析

31 开放DMP平台

311 产品说明

312 功能对比

达摩盘

广点通

神策数据

说明：神策数据看起来更像是一个数据分析工具，但是其底层的搭建、对数据的管理与DMP有类似的地方，并且我们可见的部分即类似BI的功能，可看作DMP在应用层的表现，因此也把它列为竞品

313界面对比

说明：由于这三个产品均需付费才可体验全部产品功能，界面主要来自于说明文档，可能与真实节面有一定出入

达摩盘-标签

达摩盘-新建标签

达摩盘-人群报表

达摩盘-人群明细

达摩盘-整体报表

广点通 *** 作界面

广点通-创建广告

广点通-创建广告2

神策数据-用户分析-事件分析

神策数据-用户分析-用户属性

314产品底层技术架构思考对比

说明：

1）此部分内容为通过产品体验和阅读说明文档，思考抽象出可能的底层架构，并非真实情况；

2）产品底层技术架构：我们所看到的功能模块，都是由不同的技术模块相互协作实现的。产品底层技术架构描述了产品对应的底层技术模块、以及模块之间的关系。

达摩盘

神策数据

315总结

总结来看，达摩盘和广点通是DMP在互联网广告中的典型应用。DMP是定向广告投放最核心的大脑，DMP提供的用户画像，是进行定向广告投放的最核心最关键的一步。达摩盘和广点通最重要的目标是，把对的广告在对的时机，展示给对的人。

而对于神策数据，这一类数据分析工具，DMP在数据分析、数据可视化的过程中也发挥着非常重要的作用，哪类用户的哪类行为比较突出，哪类用户在未来会产生什么样的行为。

32教育类产品

用户画像DMP在教育类产品中的应用——

（1）洋葱数据个性化课程制定（类似自适应学习）；

用户在学习前，先进行测试，根据测试情况为用户制定个性化课程包，如下图1；

图1

用户完成学习，根据用户学习测试结果，展示可视化学习分析报告，如下图2

图2

4 用户画像怎么用？

用户画像是一个的底层产品，用户画像的应用通常难以看到。那么，用户画像该怎么用呢？结合对DMP产品和教育类产品的分析，用户画像的应用总结如下：

（1）用户标签可视化——

相关产品的功能：广点通和达摩盘将用户标签直接展示出来，用户可直接选择标签，并且对标签进行组合，选出目标用户，然后投放广告。

可借鉴场景举例：比如说，我想对今年刚报课程并且消费能力比较高且学习认真的这批学员发送一条推送消息，希望他们能够参加一场直播，促进其对知识的掌握。那么可以直接选中：新用户+消费能力高+学习认真这几个标签，然后对这部分用户发送短信。

好处：精细化运营，提高ROI；简化 *** 作

（2）用户标签关联分析：

相关产品功能-广点通lookalike：（1）提供种子用户；（2）筛选种子用户特征；（3）将种子用户与腾讯用户进行匹配，进行人群扩展

可借鉴场景：一批用户购买了商品A，我想要找出与购买这一商品相似度比较高的用户。那么可以将这批用户的信息导入到DMP，计算出这批用户的标签，再通过关联分析，找到和这批用户相似度比较高的用户

（3）个性化推荐：

相关产品功能：个性化课程制定

可借鉴场景（以K12教育为例）：

（1）针对未注册用户，根据其访问行为，为其推荐个性化课程页面，提高购买转化率；如果是通过互联网广告进来的用户，则可以为其制定个性化落地页，提高注册和购买转化；

（2）针对注册未购课，根据其浏览行为，为其推荐个性化课程页面，提高购课率；

（3）根据用户学习行为（主要是做题情况），为其制定个性化试题和学习建议。

用户画像就是把用户贴上各种的标签，方便计算机识别，CDP客户数据平台是建立在用户画像上的客户数据管理平台。通过用户画像，CDP可以将客户精准分群，从而进行针对性的营销、运营及客户体验的优化。创略科技正在CDP产品，很有优势。

是的，客户画像属于智慧化管理。智慧化管理是一种基于数据分析的管理方法，它可以帮助企业更好地了解客户，提高客户满意度，提高企业的效率和利润。客户画像是智慧化管理的一个重要组成部分，它可以帮助企业更好地了解客户，更好地满足客户的需求，提高客户满意度。

客户画像的解决方法和做法步骤主要包括：1收集客户数据，包括客户的基本信息、购买行为、消费习惯等；2对客户数据进行分析，构建客户画像；3根据客户画像，制定客户满意度提升策略；4实施客户满意度提升策略，提高客户满意度。

客户画像的实施需要企业掌握一定的数据分析技术，如数据挖掘、机器学习等，以及一定的数据库管理技术，如数据库设计、数据库管理等。此外，企业还需要建立一套完善的客户满意度提升策略，以更好地满足客户的需求，提高客户满意度。

用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。

通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。

标签的分类方法比较多样，可以按标签的产出方式分，也可以按实际业务分，也可以组合起来分类。

按产出方式来分的话：

1）事实统计类标签例如近7日活跃时长、近7日活跃次数等等

2）事实规则类标签例如消费活跃：近30天交易次数>=2

3）模型类标签例如RFM模型，AARRR模型

4）算法类标签例如根据用户购买的商品判断其购物性别、对某商品的偏好程度

按实际业务来分的话：

1）用户属性标签

2）用户消费标签

3）用户行为标签

4）风险控制标签

。。。

在互联网、电商领域用户画像常用来作为精准营销、推荐系统的基础性工作，其作用总体包括：

1）精准营销：根据历史用户特征，分析产品的潜在用户和用户的潜在需求，针对特定群体，利用短信、邮件等方式进行营销，提升营销效率和营销效果。

2）用户统计：根据用户的属性、行为特征对用户进行分类后，统计不同特征下的用户数量、分布；分析不同用户画像群体的分布特征。

3）数据挖掘：以用户画像为基础构建推荐系统、搜索引擎、广告投放系统，提升服务精准度。

4）服务产品：对产品进行用户画像，对产品进行受众分析，更透彻地理解用户使用产品的心理动机和行为习惯，完善产品运营，提升服务质量。

5）行业报告&用户研究：通过用户画像分析可以了解行业动态，比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析

6）ABtest：用于创建ABtest实验，和实验效果分析

用户画像必须从实际业务场景出发，解决实际的业务问题，之所以进行用户画像，要么是获取新用户，要么是提升用户体验、或者挽回流失用户等具有明确的业务目标。

数据源的数据是标签构建的最底层，来源于各个业务端的数据，主要有离线和实时两大数据来源，一般的大数据架构会有流批处理的链路分别处理，也有流批一体的架构，数据产品可不重点关注。

数据层开始数据产品会比较关注，数据产品在设计标签时需要关注标签的生产在数据仓库的流转口径，特别是在定义原子标签的时候，需要深入理解业务，了解用户的来源，状态，订单的渠道，线上线下，订单状态等等。

标签层一般的，会按照上面说的实际业务分类进行标签的建设，一般构建原子标签就足够了，在服务层的标签工厂可以个性化的创建新的派生标签。

服务层主要包含两块，一个是画像平台的应用，一个是画像数据的统一API服务，给前台的营销系统、广告系统等提供标签分群数据支持。

以上是用户画像系统的基础概念，下一节我们了解下画像系统的难点之一：如何构建oneid？

以上就是关于基于大数据的用户标签体系建设思路和应用全部的内容，包括:基于大数据的用户标签体系建设思路和应用、用户画像总结、数仓建模分层理论等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9835988.html

基于大数据的用户标签体系建设思路和应用

发表评论

评论列表（0条）