怎么看密度计

怎么看密度计,第1张

刻度上面小,下面大

密度计根据重力和浮力平衡的变化上浮或下沉。

浮力

物体的重力将物体拉向地面,但是如果将物体放在液体中,一种名为浮力的力量将产生反方向的作用力。

浮力的大小等同于物体取代的液体的重量,或者说是排开的水的重量。

一个功能完好的密度计仅能处于漂浮状态,因此浮力向上推的力量要比重力向下拉的力量稍微大一点。

因为密度计的体积没有发生变化,

其排开水的体积相同*。但是,因为其中包含了更多的水而变得更重。

当重力大于浮力时,密度计会下沉。

密度计的重量小于相同体积水的重量,所以密度计重新浮起。

一般异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等,下面对这些方法进行相关的介绍。

1. 简单统计

如果使用pandas,我们可以直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,如下:

df.describe()

或者简单使用散点图也能很清晰的观察到异常值的存在。如下所示:

2. 3∂原则

这个原则有个条件:数据需要服从正态分布。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| >3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

红色箭头所指就是异常值。

3. 箱型图

这种方法是利用箱型图的四分位距(IQR)对异常值进行检测,也叫Tukey‘s test。箱型图的定义如下:

四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离的点为异常值。下面是Python中的代码实现,主要使用了numpy的percentile方法。

Percentile = np.percentile(df['length'],[0,25,50,75,100])

IQR = Percentile[3] - Percentile[1]

UpLimit = Percentile[3]+ageIQR*1.5

DownLimit = Percentile[1]-ageIQR*1.5

也可以使用seaborn的可视化方法boxplot来实现:

f,ax=plt.subplots(figsize=(10,8))

sns.boxplot(y='length',data=df,ax=ax)

plt.show()

红色箭头所指就是异常值。

以上是常用到的判断异常值的简单方法。下面来介绍一些较为复杂的检测异常值算法,由于涉及内容较多,仅介绍核心思想,感兴趣的朋友可自行深入研究。

4. 基于模型检测

这种方法一般会构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。如果模型是簇的集合,则异常是不显著属于任何簇的对象;如果模型是回归时,异常是相对远离预测值的对象。

离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。这种情况的前提是必须知道数据集服从什么分布,如果估计错误就造成了重尾分布。

比如特征工程中的RobustScaler方法,在做数据特征值缩放的时候,它会利用数据特征的分位数分布,将数据根据分位数划分为多段,只取中间段来做缩放,比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。

优缺点:(1)有坚实的统计学理论基础,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效;(2)对于多元数据,可用的选择少一些,并且对于高维数据,这些检测可能性很差。

5. 基于近邻度的离群点检测

统计方法是利用数据的分布来观察异常值,一些方法甚至需要一些分布条件,而在实际中数据的分布很难达到一些假设条件,在使用上有一定的局限性。

确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用,因为一个对象的离群点得分由到它的k-最近邻(KNN)的距离给定。

需要注意的是:离群点得分对k的取值高度敏感。如果k太小,则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。

优缺点:(1)简单;(2)缺点:基于邻近度的方法需要O(m2)时间,大数据集不适用;(3)该方法对参数的选择也是敏感的;(4)不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。

5. 基于密度的离群点检测

从基于密度的观点来说,离群点是在低密度区域中的对象。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。

优缺点:(1)给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;(2)与基于距离的方法一样,这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm);(3)参数选择是困难的。虽然LOF算法通过观察不同的k值,然后取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。

6. 基于聚类的方法来做异常点检测

基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇,那么该对象属于离群点。

离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。这也是k-means算法的缺点,对离群点敏感。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。

优缺点:(1)基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的;(2)簇的定义通常是离群点的补,因此可能同时发现簇和离群点;(3)产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性;(4)聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

7. 专门的离群点检测

其实以上说到聚类方法的本意是是无监督分类,并不是为了寻找离群点的,只是恰好它的功能可以实现离群点的检测,算是一个衍生的功能。


欢迎分享,转载请注明来源:优选云

原文地址:https://54852.com/hy/840911.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-26
下一篇2023-06-26

随机推荐

  • 兰芝精华液怎么样

    问题一:兰芝精华液怎么样? 10分 年轻时候用用还可以,保湿的 这个不管美白的好么问题二:兰芝精华露好用吗?用的能说下吗? 10分 想要知道兰芝精华露好用吗,就一定要先看看自己是属于什么肤质啊。兰芝精华露好用吗?对于这个问题,每

    2023-12-14
    39900
  • 去英国必买的面膜有哪些

    英国有哪些面膜是比较好用的呢,下面我为大家推荐几款去英国必买的面膜,欢迎大家阅读。 去英国必买的面膜有哪些Boots NO7 冰淇淋面膜100ml 保湿补水美白细致毛孔熬夜 超过150年历史的英国美容及护肤品牌 Boots

    2023-12-14
    23700
  • 玫琳凯怎么样

    东西还可以的,不过你用盈白前最好用经典的小套的调理一下皮肤,让你的皮肤适应玫琳凯的产品不过也有不适应的人,所有的化妆品都有不适合的人群,你要买的话,都先买小样试用一下还有买的话,没有必要去美容顾问那里去买,淘宝上很多 其实都是真的,你看一下

    2023-12-14
    23800
  • 雅诗兰黛粉底液哪款好

    1、雅诗兰黛沁水粉底液雅诗兰黛沁水粉底液的颜色是自然色,具有遮瑕以及提亮肤色的功效,呈现的妆容效果是哑光、雾面。这款粉底液非常适合干性皮肤使用,因为这是一款加入了玻尿酸的粉底液,83%的含量都是精华,这款粉底跟它的名字一样,是一款流动性很强

    2023-12-14
    24100
  • 古代人的化妆品有哪些

    1、螺子黛螺子黛亦省作“螺黛”。是隋唐时代妇女的画眉材料,制作精致。出产于波斯国,它是一种经过加工制造,已经成为各种规定形状的黛块。使用时只用蘸水即可,无需像回回青需要研磨,因此螺子黛受到当时女性的喜爱,到了宋代,画眉墨的使用更加广泛。2、

    2023-12-14
    20700
  • 3月30日燕郊进京的公交车正常运行

    大家在日常生活中。都知道现在的工作离不开电脑,而且,平时大家长时间地使用电脑,会造成辐射,长时间使用电脑会造成一定的危害,会导致眼睛干痒,而且还会造成干燥,大家需要注意这样的情况,那么,经常地使用电脑应该吃哪些食物可以防辐射。电脑辐射的危害

    2023-12-14
    23600
  • 网上买护肤品发货地是广东广州是正品吗

    不能单纯从发货地就可以判断出来是否真假,毕竟不同的店不同的仓库不同的货源,都会有不同的发货地,广州也好北京也好,哪怕火星发货的,也不可以就说明真假呀!最稳妥的鉴定是针对实物收到的护肤品,那样才是安全的。否则你就这个发货地点那个发货地点,都不

    2023-12-14
    23500
  • 曼秀雷敦薄荷唇膏好不好用 曼秀雷敦薄荷唇膏成分安全吗

    曼秀雷敦的薄荷唇膏和植物系列唇膏一样卖的都是很好的产品,最近也是想要有购买意图的,这个曼秀雷敦唇膏到底好不好用的?这款唇膏里面的成分安不安全呢?曼秀雷敦薄荷唇膏好不好用曼秀雷敦薄荷唇膏好用,这款唇膏上嘴非常滋润顺滑,不会黏黏的糊在嘴

    2023-12-13
    16300
  • 蔓菲姿为化妆品什么在网上买不到

    蔓菲姿这个牌子我在几年前用过,我是在当地的化妆品店买的,我记得前几年有一次我在网上买了一回比实体店便宜的多,但拿回来一看就是假的,后来退货还很麻烦,我还拿了运费,还用淘宝小二介入,好不容易把假货退了,所以蔓菲姿它这个牌子确实网上没有的卖。2

    2023-12-13
    14300

发表评论

登录后才能评论
保存