我的网站装了两个统计工具,51LA跟百度统计。为什么两个同的数据会有差异呢那个统计相对来说比较准确

我的网站装了两个统计工具,51LA跟百度统计。为什么两个同的数据会有差异呢那个统计相对来说比较准确,第1张

不同的流量统计软件实现原理可能存在差异,导致统计的数据结果有一定的区别。为更有效地利用各种网站流量统计软件,我们建议您更加关注各种统计软件获取的数据的整体趋势,而不是数据本身。

以下一些方面是各统计软件可能存在的不同点:

1 定义不同:不

同统计软件对各种关键指标的技术定义不同,这是最直接导致数据差异的原因。例如,在百度统计中,当访客在未关闭浏览器的情况下30分钟内N次

(N>1)进入您的网站,百度统计会视为1次访问,而很多其他统计软件会视为N次访问。由于30分钟访客的连续访问表示访客并没有意愿终止访问,因

此百度统计会视为1次访问,以帮助您更加客观地分析访客行为。百度统计中所有指标的定义都从您的角度出发,尽最大可能保证定义的合理性,旨在客观的提供统

计数据。

2跟踪技术:目前主要有两种跟踪方式。第一种基于COOKIE;另一种则基于IP+用户代理。两种方式各有优劣。

基于COOKIE的跟踪方式依赖于浏览器设置COOKIE,如果浏览器禁用了COOKIE,则相应的统计软件无法获取访问数据 ,但是基于COOKIE的跟踪方式可以排除蜘蛛程序等来源的点击量。

基于IP+用户代理的方式,一般是分析日志文件来获取数据,但无法排除蜘蛛程序等来源的点击量,通常会比基于COOKIE的跟踪方式获取的流量数据更高。

3 第一方COOKIE和第三方COOKIE:基于COOKIE跟踪技术的统计软件中,COOKIE本身也存

在差异。 COOKIE分为第一方COOKIE和第三方COOKIE,

第三方COOKIE中的域信息设置为被访网站之外的网站,因此通常会遇到浏览器和安全软件的拦截;而百度统计使用的是第一方COOKIE,从而能够尽量获

取更准确的数据。

4地域划分标准不统一:各统计软件采用的地域划分标准不一致。百度对IP地域的划分已经做到高精度更新,但众所周知,目前国际国内尚无权威的地域IP划分标准,且存在动态IP等情况,故可能导致您在查看流量分地域报告时存在数据差异。

5 时间差异:各种统计软件依赖的时间标准可能不一致,从而导致分时或分日的数据存在差异。

6 浏览器设置:浏览器需要启用 JavaScript、和 COOKIE,优化助手才能获取相关数据,其他统计软件可能不受这些限制。

7 部分来源的统计的支持方式:百度统计目前不支持统计来自手机WAP的访问统计,故如有访客通过手机上网访问您的网站,百度统计将暂时缺失这部分数据。但我们已有计划尽快完善统计来源。

8 规则的设置差异:很多统计软件都提供了流量数据过滤设置功能,根据不同的过滤规则,各种统计软件最终获取的流量数据会存在差异。

9 跟踪代码添加问题:所有跟踪代码仅能够获取已安装代码的页面流量数据,如果各种监控代码所安装的页面范围存在差异,则获取的流量数据也会存在差异。

10浏览器缓存问题:浏览器通常会缓存js文件:如果访问您网站的网民不手动去刷新一次页面,虽然百度统计的代码已经安装成功但网民的浏览器没有更新js文件,这样该更新后的js文件就不会被触发,从而不能统计到这类网民的点击。详情请见这里

该怎么做?

1)请您查看单个页面在各个统计软件的数据,比如首页,如果出现较大差异请检查代码安装是否正确;如果差异不大则进行下一步排查。

2) 在各个比较的统计软件报表中检查所有页面(已安装代码)的统计数据,以此来判断是否所有页面的百度统计代码都成功安装。

若上述检查都没问题(确认所有页面的代码都安装正确),请您咨询百度顾问。

更多问题,请到推广客户端帮助频道查询:>

认真阅读下面的文章,并思考文末互动提出的问题,严格按照 互动:你的答案 格式在评论区留言,就有机会获得由 机械工业出版 提供的优质科普书籍 《天才与算法》 一本。

单人蜘蛛接龙 (以下简称为“ 蜘蛛纸牌 ”)是人们经常在电脑上在线或者离线玩的一款很受欢迎的 游戏 。由名字可以看出,这个 游戏 是只有一个玩家的。 游戏 中一共有两套标准扑克牌,玩家需要按顺序把扑克牌排列成完整的八组(两套牌,各四种花色),从而进一步把它们从台面上消除。牌可以从牌组中提取或者按照特定规则从一列移动到另一列。我们这里不再详细地讨论 游戏 规则,假设我们的读者已经了解 游戏 的规则了。要是你需要回忆一下,可以看这里。在这里我们只讨论这个 游戏 的四组的版本。

蜘蛛纸牌中含有两套标准扑克牌

玩家们一直在抱怨说不同的软件存在偏差 。具体来讲,就是如果程序探测到了玩家的胜率很高,它可能就 暗中 *** 纵 后面的牌的次序来降低胜率。玩家本身也有可能被偏向从而发挥出最好水平。不过,通过一些基本的 统计学手段 ,我们有可能对这种“偏向的指控”进行证实或者驳斥。这一点也可以作为一个很好的练习,来看看 一个人是如何使用在现实世界观察到的数据并配合统计学手段来判断一个假说(比如“蜘蛛纸牌程序是有偏向性的”)是真的还是假的。

基础知识

从本文的角度出发,我们这 里假设玩家在玩蜘蛛纸牌的时候不使用“撤销”“重来”“加步”(把 游戏 削减为一个简陋的初始版本),这样玩家就不用考虑计分、花费的时间以及移动的步数了。 很多人都认为在这样的条件下 游戏 几乎赢不了,但是加州州立大学长滩分校的史蒂夫·布朗在他出色的著作《蜘蛛纸牌获胜策略》中给出了一些详细的策略,并且提到在306局 游戏 中可以取得487%的胜率。同时他也指出自己的玩法还不是完美的,那些专业玩家可以做得更好,甚至达到超过60%的胜率。我利用了布朗的这些策略进行了实验,结果表明确实能够达到超过487%的胜率。

理想情况下, 电脑端蜘蛛纸牌 游戏 能够模拟真实情况下且洗牌充分的纸牌 游戏 。如果在 游戏 的任何一个节点,有 N 张牌还没被看过,那么每张牌都有 1/N 的可能性作为下一张翻面的牌出现(为了叙述的方便,我们忽略了具有相同花色和大小的纸牌之间的等价性)。举个例子,在起始位置我们知道有 10 张牌被亮了出来。因为总共的 104 张牌里一共有 8 张 K,所以单张亮出来的牌是 K 的概率是 8/104=1/13,因此亮出来的牌是 K 的 期望张数是 10×1/13=10/13。如果在玩了相当多局数的 游戏 之后,我们发现亮出来K的数目平均下来接近 11/13,我们就有理由相信这款蜘蛛牌程序是有偏向性的。

测试数据

对于每一局 游戏 来说我们都希望记录一组能够反映牌运气好坏的数据,数值越高,证明获胜的几率越大。我们想到的一个方案是评估在一局绝对公平、无偏袒性的 游戏 里,这些测试数据的取值,再和我们怀疑可能存在偏向性的 游戏 中记录的数据值进行比较。

一旦最初的十张牌都确定下来,我们就能计算出 “保证轮数 (guaranteed turns,GT)”,即玩家在被迫更换至另一排之前能够确定亮出的牌的最少数目。无论何时,当新的一排的十张牌已经确定下来后,我们都可以做一个类似的计算,假装它是新的一局 游戏 的开始。 这样一来我们就可以计算出 GT的平均值(AGT) 。如果几轮下来GT的值很小,那么玩家就要有麻烦了 。要说明的是AGT和玩家本身无关,所以很容易通过进行很多次实验(即确定很多排)来模拟出AGT的概率分布。

经验来谈, 如果卡牌的整体分布比较糟糕的时候,玩家同样会陷入麻烦 。比如说有七张Q但是只有两张J没有打出来的时候,即使你有一列或者多列已经清空,仍然会有问题出现。因此在这里定义一个 整体方差(total square variation,TSV) ,取值为相邻大小的牌的数目的负的平方之和。在刚才的例子里,七张 Q 和两张 J 在求和时会贡献出 -(7-2) 2 =-25 一项。这里取负值是为了确保 TSV 的增减性与获胜概率的增减性一致,就和AGT一样。每亮出一张新牌我们就计算一下TSV,这样我们可以算出来单局 游戏 的 平均TSV(ATSV) 。要提起注意的是ATSV同样与玩家无关,我们假定玩 游戏 的玩家会按照一个随机顺序把所有扣着的牌都亮出来(尽管玩家可以选择先亮哪张牌,但是亮出的每张牌概率是一样的)。幸运的是这一点可以通过模拟很容易就做到。

蜘蛛纸牌的典型散点图(○=获胜,×=落败)

一个典型的散点图如上图,这里蓝色圆圈和红色叉叉依次表示获胜和落败。

模拟结果显示对于没有偏袒的 游戏 程序而言,在大量局数的 游戏 之后,AGT应该等于396而ATSV应该等于-3229。在下面这个示例的起始位置中,GT=1,TSV=-42,因为这局 游戏 还没结束,我们还不知道AGT和ATSV的值是多少。

示例,起始位置GT=1,TSV=-42

计算如下:

假设检验

为了检验一个蜘蛛纸牌 游戏 是不是有偏向性,我们采用一种叫 假设检验 的手段。我们 先制定一个零假设(意思就是我们怀疑的效应可能不存在),在我们这里是指“蜘蛛纸牌程序并不存在偏向性”,那互补的假设就是“蜘蛛纸牌程序故意使绊子使得玩家的胜率下降”。

首先选取一个较大的数N作为待检测的蜘蛛纸牌 游戏 的局数,然后每一局我们计算一次AGT和ATSV。接下来的总体思路是 求出我们要比对的观察结果的概率(即P值) ,或者更极端一点说, 零假设为真(即程序没有偏向性)的概率 。如果概率低于某一个阈值(即显著性水平),一个没有偏向性的程序就不太可能产生我们在N局 游戏 中观察到的这种AGT和ATSV值,那我们就 拒绝零假设 并且得到 “ 游戏 有偏向性”的结论。

那我们如何计算得到 p 值,即观察到我们已经观察到的AGT和ATSV值(这证明 游戏 没有偏向性)的概率呢?在模拟中我们已经得到了在无偏向性的 游戏 中AGT和ATSV的期望值,依次是396和-329。更有意思的是,概率论会告诉我们,在无偏向性的 游戏 中AGT和ATSV的值是如何分布的,换句话说,它可以帮助我们计算出观察到某一特定AGT和ATSV值的概率。所谓的“ 学生 t 检验 ”可以把所有这些数值考虑进去并得出我们想要的p值。详细内容这里略过,有兴趣的可以参照概率与统计的相关内容。

从本文的角度出发我们选择 N=100 作为我们玩这个待检验的 游戏 程序的局数,得到了显著性水平值为 005。

胜率估计

除了AGT和ATSV之外,我们也想评估一下 对于“无偏向性”的蜘蛛纸牌程序来讲,“真正的”获胜概率。 一个明显的困难在于胜率是和玩家有关的,所以很难验证“一个玩家能赢50%的 游戏 ”这种说法。另一个情况是我在不同的蜘蛛纸牌 游戏 程序中得到了从45%到60%的胜率,而且没有证据显示我在使用这些程序的过程中胜率有所提高(也就是说,我的胜率并不随着时间增加而呈现出正相关)。

一个比较有意思的免费在线纸牌 游戏 网站 Pipkin's Idiot's Delight Solitaire Server,这里面包含了许许多多的纸牌 游戏 。它允许玩家在从1到999999的数字中指定一个“种子数”。举例来说,如果种子数为142857,起始的10张牌就总是2J56J9JQ59这几张,但是组合方式会不同。要注意的是,要是玩家在 游戏 之前随机生成一长串种子数,那么程序就不能根据玩家的胜率来调整难度水平了。正是因为这个原因,可以选择这个网站来估计胜率。

在零假设为真的时候拒绝零假设被称为第一类错误,它出现的概率等于显著性水平。假说检验中的另一类错误被称为第二类错误,它是指在零假设为假的情况下接受零假设。

我在Idiot's Delight上玩了100局 游戏 ,使用了从1到100的种子数。最终我赢了59局,输了41局。所以我估计我在玩“无偏向性”的蜘蛛纸牌 游戏 的时候胜率会在59%左右。

估计值

我在Free Spider Solitaire上玩了100局蜘蛛纸牌 游戏 。虽然选择了在这里玩 游戏 但是试验之后,这里的 游戏 体验真的很“糟糕”:尽管可以赢,但是就算高手玩家玩起来也会很困难。每一局 游戏 记录下 游戏 的输赢结果以及AGT和ATSV数据。我观察到AGT和ATSV的p值依次是 0115 和 0201。这意味着AGT和ATSV的数据都要低于预期(也就是说,玩家会吃亏),但是因为这两个数值都高于我们的005的阈值,它们在统计上都不显著: 这可能是因为偶然变化导致了较低的值的出现

不幸的是我只赢了其中的46局,比预期少了13局。这说明可能 还需要进一步测试验证 。然而要知道每个玩家的胜率都不一样,我很有可能在这100局里还没有发挥出最佳状态。

从中我给出的结论是没有足够的证据证明Free Spider Solitaire上的程序是有偏向性的。 46局的胜局数是有一点让人沮丧,但是确实, 这次这个程序经受住了考验 。然而其他的蜘蛛纸牌程序可能就没这么幸运了。

作者:Trevor Tao

翻译:Dannis

审校:Nuor

原文链接:

>

以上就是关于我的网站装了两个统计工具,51LA跟百度统计。为什么两个同的数据会有差异呢那个统计相对来说比较准确全部的内容,包括:我的网站装了两个统计工具,51LA跟百度统计。为什么两个同的数据会有差异呢那个统计相对来说比较准确、百度统计后台可以统计到蜘蛛的ip吗、为了研究蜘蛛纸牌的规则,我玩了200局!等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/10163633.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存