Fast.ai:指标是一把双刃剑,用不好就成了垃圾食品自助站

发布时间:2021-10-29 02:05:16

大数据文摘出品


来源:fast.ai


编译:China盼盼、曹培信


?


古德哈特定律指出,“当一个指标成为目标时,它就不再是一个好的指标。”在他们的心中,当前的人工智能方法所做的就是优化指标。优化指标对人工智能来说,既不新奇也不独特,但这样做可以让人工智能特别高效(甚至过份高效)。


这一点很重要,因为优化指标的风险会因人工智能的强大而增加,虽然指标在某些适当的地方是有用的,但如果不加思考地应用它们,则会带来危害。


一些算法造成的可怕案例都是由于过分强调指标造成的??比如谷歌的算法会出现种族歧视,还有教师被“算法”解雇,或文章评分软件给那些看着复杂却没有实质内容的文章打高分。我们必须了解这一动态趋势,以便理解我们正面临的由于滥用人工智能而导致的紧迫风险。



《哈佛商业评论》,《华盛顿邮报》和《全球青年文化之声》的头条报道了过度优化指标的一些后果:奖励垃圾文章、宣传富国银行的大规模欺诈以及算法解雇优秀教师。


最重要的事情我们反而无法用指标衡量


指标通常只是我们真正关心的事物的体现,有一篇论文提到一个非常有趣的例子:电子病历中哪些因素能预测未来患者的中风。


论文链接:


https://scholar.harvard.edu/files/sendhil/files/aer.p20171084.pdf


?


然而,研究人员发现,一些最具预测性的因素(如意外伤害、良性乳腺肿块或结肠镜检查)都不能作为中风的风险因素。因为研究表明,这个模型只是涵盖了那些经常使用医疗保健的人。研究人员实际上并未获取到所有中风患者的数据;他们掌握了有关谁可以获得医疗服务,选择去看医生,接受必要的检查的数据,并将这个代码添加到他们的图表中。


但有许多因素影响这一过程:影响病人能否得到准确诊断的还有性别和种族歧视因素、文化因素等等。因此,该模型主要是挑选使用医疗保健的人,而非那些不使用医疗保健的人。


还有一个常见的例子:若你想知道用户喜欢什么内容,你可以看他们点击的内容;若你想知道哪些老师的教学最有效果,你可以评估他们的学生考试成绩;若你想知道犯罪情况,所以你也可以通过警察的逮捕信息进行衡量。这些事情各不相同。很多我们关心的事情是无法测量计算的。尽管指标是有帮助的,但它们也只是我们所关心的事物的体现而已。


另一个例子是,谷歌把花在观看YouTube上的时间作为用户对内容的满意程度的体现,谷歌写道:“如果观众在YouTube上观看更多的时间,则表明他们对获得的内容更满意。”曾在谷歌/YouTube工作的人工智能工程师Guillaume Chaslot分享了如何这产生了阴谋论的结论,因为人们有时候看完这个视频只是为了确认剩下的视频也是在撒谎而不是,因为喜欢这个视频。


?


指标会被操纵、被玩弄


指标被操纵几乎是不可避免的,尤其是当它们被赋予了太多的权力时。举个例子,Chaslot从YouTube上收集了84695个视频,分析了视频的浏览量和推荐频道。


?



图表来自《穆勒报告》,显示《今日俄罗斯》视频在YouTube上被频道推荐数量很异常。


YouTube在你看完当前的视频就开始自动播放推荐内容,这占到用户在youtube上花费时间的70%,从图中可以看出国有媒体《今日俄罗斯》(Russia Today)是一个极端的异类,它获得了不寻常的推荐量。这也有力地表明,《今日俄罗斯》已经在某种程度上玩弄了youtube的算法。


再比如,文章自动评分软件主要关注句子长度、词汇、拼写和主谓一致性等指标,但无法评估难以量化的指标,如创造力。因此,由计算机程序随机生成的包含大量复杂单词的乱七八糟的文章得分会很高。来自中国大陆的学生的论文在文章长度和复杂的选词方面都做得很好,但普遍算法给出的得分高于人类专业评分者给出的得分,这表明这些学生可能在使用预先背记的文本。


还有随着美国教育政策开始过分强调学生考试成绩作为评价教师的主要方式,在乔治亚州、印第安纳州、马萨诸塞州、内华达州、弗吉尼亚州、得克萨斯州等地方,教师和校长通过改变学生成绩来作弊的丑闻普遍存在。这样做的一个后果是,不作弊的教师反而会受到惩罚,甚至被解雇,这体现了当指标被赋予不适当的重要性时,操纵、玩弄指标的做法就会变得很常见。


指标往往过分强调短期的关注


衡量短期量化指标很容易:点击率、逐月波动率、季度收益等,但许多长期趋势因为有着复杂的因素组合,难以量化。


简单地衡量用户点击的内容是一个短期关注点,并没有考虑到一些因素带来的潜在的长期影响,比如长篇形式的调查性文章可能需要几个月的时间来研究,可能有助于塑造读者对复杂问题的理解,甚至有重大的社会影响力。


《哈佛商业评论》最*的一篇文章将富国银行视为一个案例,研究让指标取代战略如何损害企业。在将交叉销售确定为长期客户关系的衡量标准后,富国银行过分强调了交叉销售的衡量标准,这给了员工的巨大压力和不健康的销售文化,导致350万个欺诈性存款和信用卡账户未经客户同意就被开立。与培养长期客户关系的崇高目标相比,交叉销售的衡量标准是一个更为短期的关注点。过分强调衡量标准会使我们的注意力从长期的关注点上转移,比如我们的价值观、信任和声誉,以及我们对社会和环境的影响,而只是目光短浅地关注短期目标。


相关报道:


https://hbr.org/2019/09/dont-let-metrics-undermine-your-business


指标数据来自用户高度成瘾的环境


在什么环境中收集哪些指标这个问题很重要,诸如用户点击什么,他们在网站上花费多少时间,以及“参与度”等指标,都被科技公司视为用户偏好的体现,并被用来驱动重要的商业决策。不幸的是,这些指标是在高度上瘾的环境中收集的,这大大限制了选项的范围。


?



我们的网络环境就像是垃圾食品自助餐厅


北卡罗来纳大学教授、《纽约时报》定期撰稿人Zeynep Tufekci将推荐算法与自助餐厅向孩子们推荐垃圾食品类比。“这有点像学校里的自助餐厅,发现喜欢甜食的孩子,还喜欢高脂肪和咸的食物。因此算法建立了一条提供此类食物的流水线,只要年轻人面前的一袋薯条或糖果吃完,你就会自动提供下一份。”


这样一个人对食物的选择会变得越来越极端:“食物中糖,脂肪和盐的摄入量越来越高(人类的欲望),YouTube推荐和自动播放的视频就变得越来越离奇。”我们太多的在线环境都是这样的,有指标显示我们喜欢糖、脂肪和盐,却没有考虑到我们正处在一个数字化的食物沙漠中,公司也没有给他们提供的食物上贴上含多少营养的标签,这些指标让我们陷在了不健康的环境中。


指标在何时才有用?


以上所有这些并不是说我们应该完全抛弃指标,数据在帮助我们理解世界、验证假设、超越直觉方面是很有价值的。


当指标处于合适的上下文和位置时,它们会很有用,保持指标标准不变的一种方法是考虑将许多指标标准组合成一个更完整的系统(并避免将这些指标指标归结为单一分数)。


例如,了解科技公司低指标的群体中雇佣员工的比率是一个非常有限的数据点。为了评估技术公司的多样性和包容性,我们需要知道比较促进率、股权结构、保留率、被保密协议封口的受害者数量、低于标准的比率以及更多。即便如此,所有这些数据仍应与这些公司工作人员的主观经验相结合。


哥伦比亚大学教授、《纽约时报》首席数据科学家克里斯?威金斯(Chris Wiggins)写道:定量指标应始终与定性信息相结合,“因为我们无法提前知道用户经历的每一种现象,我们也无法提前知道哪些指标量化这些现象。为此,数据科学家和机器学*工程师必须与用户体验研究结合,或学*用户体验,让用户有发言权。”


将指标保持在适当位置的另一个关键则是让领域专家和那些将受到最大影响的人密切参与其开发和使用,比如说对教师的评价,显然大多数教师都可以预见,主要根据学生的标准化考试成绩来评价教师会导致许多负面后果,如果征求了他们的意见,这个系统根本不会被采用。


这篇文章并不反对指标,而是担心指标被过分强调会带来的危害,这是我们在人工智能领域的常见现象,它正对现实世界产生一定的负面影响。人工智能不受限制地运行并优化指标,已经导致了诸如谷歌/youtube大力推广种族歧视、论文评分软件给垃圾文章打高分等情况,而通过牢记指标可能带来的风险,我们可以尽量避免这些危害。


?


相关报道:


https://www.fast.ai/2019/09/24/metrics/#proxy

相关文档

  • 关于爱情的一句话经典语录
  • 小班宝宝睡前故事
  • 比单反体验更好,荣耀10拍照迎来AI功能进阶
  • 公共营养师考试中叶酸和烟酸的区别
  • 我累了,我痛了
  • 福利大放送!美团推出Spring源码进阶宝典:脑图+视频+文档
  • 乐器长号的发展历史及种类
  • 木兰围场骑马要注意些什么_注意事项
  • 女人补气补血吃什么中药
  • 描写家风家训初二作文
  • 有关挑战的优秀作文范文
  • Android开发之给你的Button加个背景
  • 小学数学老师心得体会范文
  • 让人感动又煽情的短句
  • opencv 模板匹配_opencv基于轮廓的模板匹配
  • 关于命运的伤感句子
  • 怎样缓解孕吐
  • 小孩要不要带太阳眼镜小孩太阳眼镜如何挑选
  • 职场中怎么做能获得同事的信任
  • 小米9运行内存多大
  • 高二第二学期班主任工作总结范文
  • ostelinvd滴剂怎么吃?ostelinvd滴剂用法用量
  • 镇中心小学班主任的工作计划
  • java包含 或不包含_java 选项不包含main
  • 【CSS】Table样式
  • 16g苹果6s能扩展吗
  • 春秋时期的历史典故
  • 物资采购渠道是什么
  • 给同学的赠言有关各同学的赠言,15句,急用!
  • 李庄镇哪家白肉好
  • 猜你喜欢

  • 欠发达地区经济开发区可持续发展掏关键问题——基于江苏省宿迁经济开发区的调研
  • 【40套试卷合集】山东省章丘市实验中学2019-2020学年数学七上期中模拟试卷含答案
  • 新部编人教版小学语文六年级下册第2单元《语文园地二》第2课时PPT课件
  • 班级红歌大赛活动主持词
  • HR人事年度工作总结
  • “铸剑为犁”雕像之感想
  • 顺铂联合恩度胸腔灌注治疗肺癌恶性胸腔积液的临床效果和不良反应观察
  • 高考阅读理解高频词汇101-200详解
  • 五灵肝复胶囊说明书及价格
  • 金融危机背景下大学生就业问题探讨
  • 运动会开幕式主持词合集多篇
  • 肠胃感冒的症状特征
  • 西方马克思主义的文化批判理论及其对建设社会主义文化强国的启示
  • 陕西腊八粥怎么做
  • 基于PLC控制的六层电梯控制系统设计
  • 高考化学人教版必修2同步教学PPT课件:1-2-3 元素周期表和元素周期律的应用
  • 苏州吉景建筑装潢有限公司(企业信用报告)- 天眼查
  • 火山岩基本概念PPT课件
  • DG172-dihydrochloride-DataSheet-MedChemExpress
  • 正规厂房租赁合同模板
  • 高校校院(系)两级办公室工作机制初探
  • 神曲法师技能加点小攻略心得
  • 中联易拓创业投资(上海)有限公司(企业信用报告)- 天眼查
  • 休闲农业--国外休闲农业发展经典案例
  • 谈数学中的美
  • 9 父母与孩子之间的爱
  • 广州市韵墨文化传媒有限公司(企业信用报告)- 天眼查
  • 重庆启乐体育文化传播有限公司企业信息报告-天眼查
  • 端午节安康发什么好端午节安康的句子
  • 【公司*管理制度】*管理制度
  • 叛逆的少年
  • 江西省人民政府关于印发“宽带中国”江西工程实施方案的通知
  • 对中学语文作文教学的策略-模板
  • 洪雅县吉祥三宝旅游管理有限公司企业信用报告-天眼查
  • 湘教九年级数学下册作业课件:2.1圆的对称性(共16张PPT)
  • 那一缕书香初三作文
  • 家电+服装+厨房+料理+浴室日语词汇
  • 镇党委换工作报告(初稿) 7500字
  • 2018-2019年吉林市龙潭区大口钦满族镇中心校一年级上册数学模拟练习题无答案
  • 更年期睡觉出汗怎么办4招帮你缓解
  • 《孤岛危机3》控制台秘籍
  • 小学想象作文:年后的学校51
  • 电脑版