产品运营 | 常用的数据获取方式及特征_框架

提出任何一个产品的idea或者解决某个需求，都离不开用户，用户是需求之源，而了解用户的需求，提高使用体验的第一步，必定离不开对用户的研究。而与用户接触的过程就是需求采集的过程。

首先最常见的就是直接面向用户的。例如，用户访谈，用户调研，用户的主动触达。CPO（call per order）是衡量一个电子商务网站流程是否合理，是否将服务贯彻全面的一个指标，CPO的降低将直接代表了运营策略的正确，可以逐渐推广学习。当然这些指标还有多种叫法，比如feedback，客服进线之类的。

这样直接面向用户的，对于客户的需求采集虽然可以帮助我们直接定位到用户目前的需求，以及他们使用我们产品发现的badcase，可以帮助我们快速的止损，但是这种采集方式，在整合用户的反馈，过滤清洗掉用户的无效需求的时候，必然将耗费大量人力资源，而对于互联网行业来说，这显然是不太划算的。

相对于典型的传统行业来说，互联网产品的研发生命周期更短，研发管理更精简。例如一款新型汽车的研发过程中，评审点是以百来计数的，而互联网行业的一个典型的产品研发，一般只有几十个不到的评审点。而且盈利模式也更为多元化。互联网、软件产品大多是为使用产品的终端用户所做，通常是面对的是海量的用户，所以就产生了下一种用户需求的数据获取方式“直接面向大数据”。

例如app中常用的“埋点统计”，埋点是网站分析的一种常用的数据采集方法，数据埋点是一种良好的私有化部署数据采集方式，埋点统计的数据采集，可以简化理解为对于某个 *** 作的标记累加。用微博来理解，可以在用户对内容点赞的时候进行一个标记，再在用户对微博转发的时候进行一个标记，通过对两种数据指标的对比，根据两个数据的匹配度来判断出哪一中类型的优质内容的传播更广一点，用户群体更活跃。但“手动埋点”工程量极大，极容易出错误，对于工程师来说是个很难过的事情。

在运营策划中常用的方法的还有ABtest和灰度，根据数据来判断新策略是否值得深化推广。对同一个群体制定两种策略，通过两种策略的不同表现数据来对比判断哪个策略更优。例如B站为了让我们更好的投入视频内容中，可以根据使用app的平均使用时长来判断哪种策略更好。A组采用新策略，B组采用旧策略，对于两种策略的平均使用时长数据的采集，可以很明显的看出哪一种策略更为优化，而对于互联网软件行业这种DAU（日活跃用户数量）很大的产品。10%产出的数据就非常有代表性了，这10%就相当于与已经灰度上线了，找到了用户的核心需求，完成了新策略的灰度上线，再经过ABtest的数据，最后得到更好的一种策略，将10%进行逐步的放量，逐渐达到使用的覆盖率100%，最终实现整个策略的温水煮青蛙式上线，非常的稳定，这个过程可以称为灰度放量（阶段性放量）。

我了解到红鲤大数据是一家提供企业数据分析、行业趋势研究等服务的公司，其提供的数据来源包括全球知名数据库、互联网、政府公开数据、第三方数据等多个渠道。如果你需要获取特定领域的数据，可以向红鲤大数据发送数据需求，然后他们将会根据你的需求进行数据挖掘和整合，并提供相应的报告和数据分析结果。另外，如果你只是需要一些通用性的数据，也可以试着在其网站上搜寻相关信息或者直接咨询他们的客服。

我知道的数据采集方法有这几种：

第一种：软件接口方式

通过各软件厂商开放数据接口，实现不同软件数据的互联互通。这是目前最为常见的一种数据对接方式。

优势：接口对接方式的数据可靠性与价值较高，一般不存在数据重复的情况；数据可通过接口实时传输，满足数据实时应用要求。

缺点：①接口开发费用高；②需协调多个软件厂商，工作量大且容易烂尾；③可扩展性不高，如：由于新业务需要各软件系统开发出新的业务模块，其和大数据平台之间的数据接口也需做相应修改和变动，甚至要推翻以前的所有数据接口编码，工作量大、耗时长。

第二种：软件机器人采集

软件机器人是目前比较前沿的软件数据对接技术，即能采集客户端软件数据，也能采集网站网站中的软件数据。

常见的是博为小帮软件机器人，产品设计原则为“所见即所得”，即不需要软件厂商配合的情况下，采集软件界面上的数据，输出的结果是结构化的数据库或者excel表。

如果只需要界面上的业务数据，或者遇到软件厂商不配合/倒闭、数据库分析困难的情况下，利用软件机器人采集数据更可取，尤其是详情页数据的采集功能比较有特色。

技术特点如下：

①无需原软件厂商配合；②兼容性强，可采集汇聚Windows平台各种软件系统数据；③输出结构化数据；④即配即用，实施周期短、简单高效；⑤配置简单，不用编程，每个人都可以DIY一个软件机器人；⑥价格相对人工和接口，降低不少。

缺点：采集软件数据的实时性有一定限制。

第三种：网络爬虫

网络爬虫是模拟客户端发生网络请求，接收请求响应，一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

爬虫采集数据的缺点：①输出数据多为非结构化数据；②只能采集网站数据，容易受网站反爬机制影响；③使用人群狭窄，需要有专业编程知识才能玩转。

第四种：开放数据库方式

数据的采集融合，开放数据库是最直接的一种方式。

优势：开放数据库方式可以直接从目标数据库中获取需要的数据，准确性高，实时性也有保证，是最直接、便捷的一种方式。

缺点：开放数据库方式也需要协调各软件厂商开放数据库，这需要看对方的意愿，一般出于安全考虑，不会开放；一个平台如果同时连接多个软件厂商的数据库，并实时获取数据，这对平台性能也是巨大挑战。

以上便是常用的4种数据采集方式，各有优势，适合不同的应用场景。

数据收集的四种常见的方式包括问卷调查、查阅资料、实地考查、试验，几种方法各有各的又是和缺点，具体分析如下。

一是问卷调查。问卷调查是数据收集最常用的一种方式，因为它的成本比较低，而且得到的信息也会比较全面。但是问卷调查所得到的答案通常是没有针对性的，也就是说，对问卷调查所收集到的数据要进行进一步的分析。并且以前问卷调查推广的时间会比较慢，因为很耗人力。但是现在网上有很多问卷调查的网站，如果通过问卷调查网站收集数据的话，那么会更方便快速一些。所以问卷调查 *** 作方便，缺点是数据没有针对性，无法得到深层次的数据。

二是查阅资料。查阅资料是最古老的数据收集的方式，通过查阅书籍，记录等资料来得到自己想要的数据。在这个数据收集的过程中，本来就有筛选性和分析性，也就是说，查阅资料所得到的数据，相对而言，可能更接近你想要得到的结果。现在不管是图书馆还是网络查询，都是非常方便的，给查阅资料提供了很好的环境。查阅资料的缺点是对 *** 作者的要求很高，并且现在资料繁琐真假参半，需要有很高的判断力。

三是实地考查。实地考察就是到指定的地方去做研究。指为明白一个事物的真相，势态发展流程，而去实地进行直观的，局部进行详细的调查。在考察过程中，要随时对自己观察到的现象进行分析，努力把握住考察对象的特点。这种收集数据的方式就比较耗时耗力，并且也需要大家的配合。这种收集方式的优点是可以第一时间得到第一手的资料，缺点就是可能没有办法达到你想要的目标，因为考察过程中变数也是很大的。

四是实验。实验设计数据是四种方法中最耗时间的一种，因为它是通过各种各样的实验来得到一个统一的方向，也就是说，在这个过程中，可能有无数次的失败。但是实验得到的数据是最准确的，而且可能会推动某个行业的进步。所以，实验收集数据的优点是数据的准确性很高，而他的缺点就是未知性很大，不管实验的周期还是实验的结果都是不确定性的。

随着科技的发展和大数据时代的到来，收集数据越来越容易，而大家也应该更注重于保护和利用数据。

1基于历史的MBR分析

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute)，通常找寻最相似的案例来做比较。

MBR中有两个主要的要素，分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来，以供预测之用。

MBR的优点是它容许各种型态的数据，这些数据不需服从某些假设。另一个优点是其具备学习能力，它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据，有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时，不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2购物篮分析

购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品，找出相关的联想(association)规则，企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说，零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。

购物篮分析基本运作过程包含下列三点：

1 选择正确的品项：这里所指的正确乃是针对企业体而言，必须要在数以百计、千计品项中选择出真正有用的品项出来。

2 经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

3 克服实际上的限制：所选择的品项愈多，计算所耗费的资源与时间愈久(呈现指数递增)，此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上：针对xyk购物，能够预测未来顾客可能购买什么。对于电信与金融服务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3决策树

决策树(Decision Trees)在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

4遗传算法

遗传算法(Genetic Algorithm)学习细胞演化的过程，细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似，它必须预先建立好一个模式，再经由一连串类似产生新细胞过程的运作，利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合，最后仅有最吻合的结果能够存活，这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现，一般可用来辅助记忆基础推理法与类神经网络的应用。

5聚类分析

聚类分析(Cluster Detection)这个技术涵盖范围相当广泛，包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体，在许许多多的分析中，刚开始都运用到群集侦测技术，以作为研究的开端。

6连接分析

连接分析(Link Analysis)是以数学中之图形理论(graph theory)为基础，藉由记录之间的关系发展出一个模式，它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

7OLAP分析

严格说起来，OLAP(On-Line Analytic Processing;OLAP)分析并不算特别的一个数据挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8神经网络

神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出一足以区分的样式。若面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。

9判别分析

当所遭遇问题它的因变量为定性(categorical)，而自变量(预测变量)为定量(metric)时，判别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体 —判别分析 (Two-Group Discriminant Analysis);若由多个群体构成，则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。

a 找出预测变量的线性组合，使组间变异相对于组内变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。

b 检定各组的重心是否有差异。

c 找出哪些预测变量具有最大的区别能力。

d 根据新受试者的预测变量数值，将该受试者指派到某一群体。

10逻辑回归分析

当判别分析中群体不符合正态分布假设时，逻辑回归分析是一个很好的替代方法。逻辑回归分析并非预测事件(event)是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零;当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。

大数据不仅仅意味着数据大，更重要的是要对大数据进行分析，只有通过分析才能获取很多智能的、深入的、有价值的信息。下面霍营IT培训介绍大数据分析的五个基本方面。

1可视化分析

不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。

2数据挖掘算法

可视化是给人看的，数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。

3预测性分析能力

数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

4语义引擎

由于非结构化数据的多样性带来了数据分析的新的挑战，需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

5数据质量和数据管理

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

最常用的四种数据分析方法：描述型分析、诊断型分析、预测型分析和指令型分析。

描述型分析：发生了什么？

这是最常见的分析方法。在业务中，这种方法向数据分析师提供了重要指标和业务的衡量方法。

例如，每月的营收和损失账单。数据分析师可以通过这些账单，获取大量的客户数据。了解客户的地理信息，就是“描述型分析”方法之一。利用可视化工具，能够有效的增强描述型分析所提供的信息。

2 诊断型分析：为什么会发生？

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据，诊断分析工具能够让数据分析师深入地分析数据，钻取到数据的核心。

良好设计的BI dashboard能够整合：按照时间序列进行数据读入、特征过滤和钻取数据等功能，以便更好的分析数据。

3 预测型分析：可能发生什么？

预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值，或者是预估事情发生的时间点，这些都可以通过预测模型来完成。

预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

在充满不确定性的环境下，预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

4 指令型分析：需要做什么？

数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析，来帮助用户决定应该采取什么措施。通常情况下，指令型分析不是单独使用的方法，而是前面的所有方法都完成之后，最后需要完成的分析方法。

以上就是关于产品运营 | 常用的数据获取方式及特征全部的内容，包括:产品运营 | 常用的数据获取方式及特征、红鲤大数据怎么获取、大数据采集技术有哪些等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9339158.html

产品运营 | 常用的数据获取方式及特征

发表评论

评论列表（0条）