如今,人工智能(AI)正在帮助我们从数据中发现新见解并增强人类决策能力。例如,我们使用面部识别来登录手机,并使用语音理解和意图分析来获得帮助。电子商务零售商与AI共同预测并向消费者推荐新产品。银行使用对话式AI来减少欺诈并更好地管理客户体验。
当今使用的大多数AI是狭窄AI。通用AI更类似于人类的智能,可以涵盖范围广泛的决策,情感和判断力,因此不会很快出现。如今,窄人工智能实际上在某些特定任务上非常擅长,但是按照定义,“窄”会带来一些局限性,使其容易产生偏差。
偏差可能来自不完整的数据样本或不正确的数据集。互动中也存在偏见–随时间推移的互动会发生偏斜的学习。而且,有时业务的突然变化(例如新法律或业务规则)可能会导致偏差。最后,无效的训练算法可能会导致偏差。识别出偏差来自何处有助于缓解问题,并可以确保AI应用程序产生预期的业务成果。
数据偏差的最明显原因是用于训练AI系统的数据样本缺乏多样性。例如,我们定期通过AI算法运行飞机发动机的传感器数据,以预测零件更换并优化资产性能。但是,如果AI主要针对从美国飞往欧洲的航班(在寒冷的北半球上空飞行)进行了培训,然后再用于撒哈拉以南非洲的航班,则很容易看出数据集将落在经过训练的模型参数之外,并产生错误的结果。换句话说,该算法仅与放入其中的数据一样聪明。
现实情况是很难获得全面的数据来训练AI系统,因此许多系统仅使用容易获得的数据。有时,可能甚至不存在用于训练AI算法所有潜在用例的数据。例如,如果仅在历史上没有异类工作的人才库中进行培训,用于招聘的AI软件就难以推荐多样化的候选人。
偏见的另一大推动力是训练中的偏见,可以通过匆忙而又不完整的训练算法来解决。例如,一个旨在从对话中学习并变得更加聪明的AI聊天机器人可以选择一种政治上不正确的语言,只要它未经培训就可以暴露出来并开始使用它-如Microsoft从Tay那里学到的。同样,在刑事司法系统中可能会使用AI也很重要,因为我们尚不知道AI算法的培训是否正确完成。