
清华彭岚教授:错觉,算法与权利转移的囚徒,
在数据与算法的时代
图片来源:百度站长工具应用的创造者:
彭岚来自:腾讯官方文化媒体omnimedia(ID:Quanmeii普遍性数据很可能成为后真相的又一个八卦掌。由于数据生产制造阶段的误差,很可能造成普遍性数据积累的假象,数据分析也很可能成为客观现实的影响因素。人性化的优化算法虽然带来了我的信息服务质量的提升,但也很可能在很多层面上包围了大家:一是包围了信息茧房;第二,优化算法中的偏见或歧视限制了每个人的社会资源和部分;第三,优化算法以快乐的名义无形中控制了所有人。个人在数据时代遇到的另一个风险是,控制权的维护受到很多挑战,特别是在个人隐私和被遗忘权层面。要抵御这种风险,必须完善数据层面的基础设施,包括数据质量的塑造、数据“基础设施建设”的基础建设、数据质量评价管理体系及其信息伦理标准的建立等。本期全媒体学堂(ID:Quanmeipai)带来了清华新闻与传播学院彭岚教授的代表作,深度剖析了数据时代新风的风险。这几年大家好像都进入了一个数据大跃进运动的时期。科技不断赋予你新的想象力和探索能力,也开辟了一些前人感官无法到达的新领域。各种基于数据的优化算法刚刚开始在你身边流行。然而,在这种大跃进运动中,潜伏着许多新的风险。对数据和优化算法的风险进行深入的分析和判别,可以帮助你了解新技术的应用有可能带来的新陷阱。“普遍性”数据:“后真理”的又一个八卦?“后真相”一词近年来进入中国学者的视线,很大程度上是因为它被牛津词典选为2016年度词汇。这个词里的“后”字是“超越”的意思,也
就是“真相”没那么关键。
根据《牛津词典》中的表述,后真理代表着,“对真理的客观阐述通常比诉诸感情和煽动信仰更不容易伤害人们的声音。”虽然牛津词典中的“后真相”一词侧重于心态等真相客观性的“超越”,但后真相成为显性基因的问题也与一些社会民意调查机构未能预测和分析2016年美国总统大选结果有关。因此,正如社会学家兰江所强调的,后真理时期是由于原本支撑真理的几个基础的崩溃,即作为一种普遍的客观标准(及其伴随的演绎推理逻辑,甚至哈贝马斯所倡导的商议和相处的客观性受到了质疑),以及作为一种经验数据收集、统计分析和分析的普遍结果。后真相的情况提醒大家,看似客观的数据和优化算法的方式,不一定带来很多真相,但很可能走向它的层面。为什么通用数据也容易带来错觉?数据通常被用作描述客观现实和展示真相的一种方式。然而,数据应用有一整套标准。如果你不遵循这个标准,或者数据应用上有系统性的漏洞找不到,你以后可能会被大量客观数据堆砌的假象包围。从数据生产制造的角度来看,每一个相关的过程都有可能包含一些造成错觉的元素。1.虽然数据样本偏差导致的“断章取义”早已进入“大数据”时期,而大数据产品的卖点之一就是“全样本版”,但事实上,想要获得“全样本版”并不是一件很容易的事情今天的数据,尤其是互联网技术数据,被少数服务平台垄断,这是因为维权等因素。考虑到服务平台通常不愿意彻底公布数据。当其他人从这个服务平台“刮”数据时,会受到技术能力和管理权限的限制,可能会在一定程度上危及数据的一致性。由于各种原因,服务本身可能无法保存完整版本的数据。比如在社交网络平台,删帖肯定会造成相关内容不详细。大数据分析往往依赖于专业数据,但在中国,因为里程碑,很多领域缺乏详细系统的软件数据积累,能产出的往往是不完整的数据。即使是传统的判别分析,样本板块的运算规模和符号质量也越来越令人担忧。虽然今天的历史、人文、人文学科会注重问卷调查等实证数据分析方法,今天的本科生、硕士生也经过一定方式的训练,但是,在 *** 作过程中,存在不规范、粗心的情况,尤其是在抽样层面。武汉大学学生会农民工科研中的问卷造假恶性事件,可能不是独立个案。客观性的障碍在于,现在的人已经对各种各样的调查问卷感到厌倦,他们对手机游戏的排斥、不配合或者心理状态都会危及调查问卷的进行。因此,无论是全样本数据、领域数据,还是传统抽样方法下的小数据,都很有可能存在样本不详细的问题,这必将对数据分析结果的一致性和象征性造成伤害。2.“脏数据”造成的环境污染不仅仅是样本版本的问题,各种方法获得的数据质量也很可能存在。一些缺失数据、重复数据、无效数据、虚假数据等。都被称为“脏数据”虽然在数据解析之前需要进行数据清洗,但可能无法完全消除脏数据带来的环境污染。一些数据分析师也很可能因为某些原因忽略脏数据的存在,甚至产生一些脏数据和假数据。3.数据分析实体模型错误导致的不正确特异性。详细可用的数据只是数据分析的前提。要用数据准确地描述或表达客观性,科学的研究和有效的分析方法是必要的。但是,根据数据的实证研究,一些可能创建的实体模型本身存在误差,一些数据使用者,甚至为了得到自己想要的结果,人为因素扭曲分析方法的设计方案,必然会造成结果的误差。4.有限的数据挖掘能力带来的“前瞻性”数据越多,数据类型就越丰富多彩,数据利用的总体目标也就越多样化,这就意味着对数据挖掘能力的要求也就越高。未知的是,当各种精力都会倾注到数据这个主要用途上,去争取各种数据商品的时候,他们未必都具备相对的数据挖掘能力。尤其是在新闻媒体领域,过去传统数据应用的缺失和技术能力的不足都限制了其数据挖掘能力。然而,环境压力正在推动新闻媒体走向数字化,因此数据应用大多流于表面,系统漏洞越来越多。作为一种构建“伪环境”的方式,新闻媒体所生产的过于
简单和肤浅的数据也可能会欺骗人们对社会现实的认识。5.数据解释错误。解释数据的能力是使用数据能力的另一个关键方面。没有良好的数据层面的训练,对数据的解释很可能会出现主观、随意、简单等诸多问题。比如把数据的相关性分析过度解读成逻辑关系,这是实践活动中的通病之一。数据的解释通常是横向或纵向进行的。如果缺乏参考信息,或者比较数据有问题,说明当然非常容易造成误差。数据描述和分析的错误不仅会导致我们对自然环境认识的欺诈,还会导致风险更高的管理决策错误。当大数据或其他数据分析方法越来越多地被用来指导公共管理决策和个人管理决策时,这种风险就会与日俱增。这类数据的误用、误用,一方面是因为缺乏数据利用能力;另一方面是数据使用者的价值取向和商业利益的难题。一些数据分析的落脚点,并不是为了得到真相的详细认知能力,而是为了更好地产生必要的“真相”或结果。带有不正确导向或商业利益的数据误用成为“后真相”地位更高的情况。数据会成为普遍性的另一个影响因素吗?2016年英国总统大选,多家民意调查机构不成功的预测和分析结果,让大家对数据的普适性和准确性产生了质疑。然而,在缺席两年后曝光的脸书数据门事件视频,在某种程度上是对民调结果无效的回应。由此,我们或许可以研究当时民调结果无效的一些原因,尽管我们无法确定剑桥分析对总统选举结果的干扰是否起了作用,或者起了多大的作用。这一恶性事件还有更深层的隐喻意义,它提醒我们一个挑战:一方面,数据分析的总体目标是追求对事物的完美客观叙述;另一方面,数据分析很可能成为对客观现实或客观过程的干扰能量。可以预期的是,未来彼此之间的博弈很可能会变得更加常态化。大数据的应用方向之一是辨别事物的发展趋势,然后尽早进行风险预警信息,对危险过程进行干预。但是,在实践中,实际干涉的边界应该在哪里?总统选举中利用大数据干扰网络投票是否有效?2012年,奥巴马赢得美国总统大选,一些学者惊叹于大数据在其中的运用。2016年特朗普赢得总统大选后,一些新闻媒体刚刚开始调查数据分析机构对选民心态的干扰。脸书数据门事件视频发布后,学者们似乎对“剑桥分析”的做法进行了大量批评。这可能与大家对特朗普的态度有关,但从另一个角度看,也说明大数据的应用推进到更深层次后,大家对其危害和应用的伦理性有了更深的认识。“剑桥分析”这样的机构,往往可以用数据分析来危害每个人的心态和观点,甚至是他们对客观性的全球理解。是因为他们能够根据数据分析准确识别不同群体的心理状态,也因此,设置消息推送信息, *** 纵大家认可的自然信息环境,利用有偏见的信息危害大家的心态,成为前提条件。社会学专家学者刘清强调:1/212下一页最后一页
评论列表(0条)