为什么消除 AI 偏见需要使用“感知 AI”?

作者:Alba Guix
Why Fighting AI Bias Requires Mindful AI

企业如何消除人工智能 (AI) 带来的偏见?即使是 AI 应用开发经验丰富的成熟企业,也倍受这一问题的困扰。

例如:

这一问题并没有完美的答案,但如果企业决定依靠 AI 来改善人类的生活,那就需要提高警惕,并努力消除 AI 带来的偏见。然而,关于 AI 偏见的产生,人类“功不可没”,但要想解决这一问题,同样需要人类的努力。

AI 偏见并非无中生有。AI 应用行为失常也并非引起这一偏见的原因。之所以 AI 会产生偏见,是因为人们用自己固有的偏见来训练 AI 完成其任务。例如,亚马逊的招聘软件会将求职者按照一星到五星进行排名。该软件在开发时所设计的简历年限就为 10 年。其大多数简历都来自男性求职者。因此,正如路透社所称

其结果是,亚马逊的系统会指示自己,男性求职者优先。于是,该系统会对含有“女性”字样(例如“女子象棋俱乐部部长”)的简历罚分。据知情人士透露,该系统会对两所女校的毕业生进行降级处理,但并未透露这两所女校的名称。

另外,该招聘软件还会偏爱那些使用男性工程师简历中常见动词(例如“实施了”和“采集了”等)来描述自己的求职者。最终,亚马逊关闭了这一业务。

感知 AI

企业如何避免出现这类错误?我们认为,其答案就是让 AI 可信、有社会责任感并以人为本 - 即所谓的“感知 AI”框架。“感知 AI”具备三个要素:

1 以人为本

以人为本意味着,AI 解决方案需要围绕人类需求来设计。而要做到这一点,企业就必须依靠多元化的全球人才来训练 AI 应用,使其具有包容性和公平性。例如,Centific 会先利用以人为本的设计框架来了解 AI 应用的开发目的及其预期成果和影响。然后,我们会确保我们生成、监管和标注的数据符合这些要求,并做到贴合场景、有的放矢、不偏不倚。

而这一切的前提条件是找到一支多元化的团队。

我们拥有一支多元化的全球员工队伍,他们精通各种技能,来自全球社会的各个层面。我们的合作方涵盖不同种族、年龄段、性别、教育水平、社会经济背景和地理区域以及多元化社会具备的其他许多要素。

我们的多元化背景有助于确保为客户开发的 AI 应用开放包容、符合本土特点。例如,我们开发的语音应用会考虑到各种语言、方言和口音,我们搭建的面部识别系统适用于地球上的每一个人。我们的众包团队中有许多人并非我们的全职雇员,但他们会定期参与我们的各种项目并积累丰富的专业知识。我们开发的入职模块包括认证和能力测试,可作为职业发展培训工具。通过测试后,团队成员就会被引荐到实际项目中,在赚取收入的同时也会不断获得反馈和培训,使其技能得以不断提升。在我们社区的支持下,一批又一批人才得以成长并顺利入职 Centific 和其他各类企业。例如,我们的翻译入职模块和测试面向的就是那些未必接受过翻译相关教育或有翻译背景但具备一定的语言技能并对翻译工作有热情的人。这一模块可以让这些人有机会接触到数百万字的翻译,并以此开启新的事业。同时,随着他们日渐成熟,工作质量不断提高,还可以依次升级到更高的等级:青铜 → 白银 → 黄金,享受社区提供的新福利。这样一来,我们的客户也就能获得更优质的服务。

2 融入人类智慧,让 AI 更可信

我们对世界的认识基于主流社会群体编写的编年史。这样的历史不仅有失偏颇,而且不够包容。我们通过历史数据感知到的周围世界会受到种族主义和性别歧视等偏见的污染。如果在不对这些数据进行过滤的情况下开发 AI 应用,那么就可能产生源源不断的偏见,并且无法做到包容。在 AI 管理中融入人类智慧,能够从根本上防止 AI 产生偏见并使 AI 更加包容我们的多元化世界。我们必须依靠人类的力量建立一个“公平”的综合数据集,并对这些数据进行全面监管以确保数据的包容性,而不是从较为容易获得的数据集中进行数据采集,因为那些数据可能有失偏颇。人们可能会认为,“原始”数据可以充分代表现代社会的多元性,但事实并非如此,这完全是个悖论。

例如,假设某企业正在为一款客户服务应用开发配套的语音识别系统。为了有效地训练 AI 模型,该企业必须收集许多人的语音音频样本。由于该企业希望简化流程、提高流程效率,可能会倾向于使用某种主流形式(类似于本地化行业所说的“风格”)的语言,例如美国人或英国人的英语口语风格。但是,一旦选择这种做法,企业就无法采集到同一语言的其他“风格”,例如澳大利亚或印度等国家/地区的英语口语风格。最终会使 AI 模型缺少这些地区的英语口语“风格”。在这个例子中,企业需要借助人类的力量对数据进行细致的收集和精心的整理,以反映不同的语言“风格”。如果这些人本身可以代表 AI 模型应有效支持的不同受众,则效果会更好。

融入人类智慧还可以帮助机器为每一个特定受众群体创造更优质的 AI 体验。我们的 AI 数据项目团队分布在世界各地,深知不同的文化和背景可能会对 AI 训练数据的采集和整理产生哪些影响。他们会根据自己掌握的知识给出相关建议。而我们则会为我们的全球团队提供必要的工具来帮助他们标记和监测问题,并在我们开发的 AI 解决方案上线之前将这些问题解决掉。

人机环 AI 可将人类的优势(如创造力、从环境信息、历史和文化背景中获取的见解)与机器的优势(如准确性、速度以及处理人类不愿处理的重复性任务的能力)融合为一体。要让人类与 AI 协同工作,需要将人类操作、机器学习和用户体验设计无缝衔接起来。人类安全网络可以为模型训练提供额外反馈。Centific 可为客户提供全套工具来实现上述所有目标。例如,我们开发的 LoopTalk 作为一种语音 AI 数据生成应用,可以帮助我们的团队训练语音识别模型,更好地理解目标市场中某些词汇的地方口音/非典型发音。这样有利于提高客户 AI 应用的包容性。

3 有社会责任感

我们根据人口结构数据的多元化在数据项目中携手少数群体,共同提高 AI 技术的包容性,帮助客户构建更具包容性的 AI 产品,减少偏见。我们还经常与当地代表少数群体的组织和社区联系,邀请他们参与我们的 AI 数据计划。

需要一个统一的平台

我们的全球团队会使用一个统一的数据收集和监管平台 - OneForma - 来训练 AI 应用。该平台可通过以下方式减少偏见:

  • 时刻留意我们监管和解读数据源的方式。如无此功能,数据生成和算法开发过程中固有的偏见就会转移到 AI 应用中。
  • 确保数据抽样标准和训练数据预处理过程能够反映现有的社会和文化范式
  • 确保消除模型及潜在影响中的偏见是算法优化的核心要求之一。因此,需要时刻留意数据 DNA 并有意识地关注预期成果。

从数据生成、监管和标注开始就需要保持警惕,确保将数据用于训练 AI 算法之前纠正潜在的偏见;而这恰恰是 OneForma 的使命。

包容、公平、个性化

“感知 AI”的一个常见用途就是 AI 本地化。我们的 AI 本地化专业技能深厚,可以在考虑到当地语言和用户体验关键细微差别的前提下,帮助客户提高其 AI 应用的包容性和个性化程度,避免影响客户 AI 解决方案在不同国家/地区的信誉。我们在设计应用时会充分考虑其个性化和本地化背景,例如,我们会在设计语音应用时考虑到不同的语言、方言和口音等。这样一来,我们就可以通过一款应用细致入微地呈现出所有语言(无论是英语还是少数群体语言)本身具备的不同发音效果。在普及 AI 并提高其可信度方面,要打通的“最后一公里”就是为其内容和体验增添本地化和个性化的色彩。OneForma 便可让客户如愿以偿,在提高 AI 应用包容性和公平性的同时,加快行业转型。

如需了解更多信息,欢迎阅读我的同事 Ilia Shifrin 近期发表的文章:“AI 个性化的新战场:本地体验。”

联系 Centific

我们的 OneForma 平台和全球团队合二为一,已成为您训练 AI 模型的主力,能够让您的下一代产品更快、更好、更智能、更包容。如需了解更多信息,请联系我们