南京CDA数据分析师培训学校

试听课 + 活动课
填写信息优先获取试听课

位置:学校首页 > 学校动态>南京AI工程师培训班哪里有

南京AI工程师培训班哪里有

随着人工智能系统和应用程序在我们日常生活中的广泛应用,人工智能已经成为了辅助人们决策的重要工具,例如,使用推荐系统算法做出电影推荐、购买产品推荐等,使用预测和分析系统用于贷款申请、约会和雇佣等高风险决策。美国法院使用了一款人工智能软件—「选择性制裁罪犯管理档案」(Correctional Offender Management Profiling for Alternative Sanctions,COMPAS),用于预测一个人再次犯罪的风险,辅助法官决定是释放罪犯,还是把罪犯关进监狱。对该软件的一项调查发现了对非洲裔美国人的一种偏见:相较于白人罪犯,COMPAS 更有可能给非洲裔美国人罪犯打出较高的潜在风险分数,从而不予以释放。


有偏的训练数据集一般被认为是影响机器学习公平公正的重要因素之一。大多数机器学习模型都是通过在大型有标记数据集上训练得到的。例如,在自然语言处理中,标准的算法是在包含数十亿单词的语料库上训练的。研究人员通常通过抓取网站 (如谷歌图像和谷歌新闻)、使用特定的查询术语,或通过聚合来自维基百科 (Wikipedia) 等来源的易于访问的信息来构建此类数据集。然后,由研究生或通过 Amazon Mechanical Turk 等众包平台对这些数据集进行注释和标记。

在医学领域,由于医疗数据的生成和标记成本非常高,机器学习特别容易受到有偏见训练数据集的影响。去年,研究人员利用深度学习从照片中识别皮肤癌。他们对 129,450 张图像的数据集进行训练,其中 60% 是从谷歌图像中提取的。在这个数据集中只有不到 5% 的图像是深肤色的个体,而且该算法没有在深肤色的人身上进行测试。因此,将该深度学习分类器应用在不同的种群中可能会存在巨大的差异。

用于图像分类的深度神经网络通常是在 ImageNet 上训练的,ImageNet 是一套包含 1400 多万张标记图像的集合。ImageNet 中 45% 以上的数据来自美国,而美国人口仅占世界人口的 4%。与此形成对比的是,尽管中国和印度的人口占世界人口的 36%,但两国在 ImageNet 的数据中只占 3%。

影响机器学习公平公正的另外一个重要因素是机器学习算法本身。一个经典机器学习的算法总是试图较大限度地提高在训练数据集中的总体预测精度。如果一组特定的个体在训练数据集中出现的频率高于其他个体,那么算法将会针对这些个体进行优化,从而提高算法整体准确度。在实验环境下,研究人员使用测试数据集进行评估以验证算法的有效性,但是测试集通常是原始训练数据集的随机子样本,因此可能包含相同的偏见。

为了确保机器学习的公平公正,研究人员认为主要有三种途径

一是提高用于训练机器学习算法的数据质量,公平、广泛的收集不同来源的数据,使用标准化的元数据系统地标注训练数据集的内容。

二是改进机器学习算法本身。整合约束条件,从本质上使得机器学习算法在不同的子群体和相似的个体之间实现公平的性能;改变学习算法,减少对敏感属性的依赖,比如种族、性别、收入——以及任何与这些属性相关的信息。

三是使用机器学习本身来识别和量化算法和数据中的偏见,即开展人工智能审计,其中审计人员是一个系统地探测原始机器学习模型的算法,以识别模型和训练数据中的偏见。

领取试听课
温馨提示:为不影响您的学业,来校区前请先电话或QQ咨询,方便我校安排相关的专业老师为您解答
版权所有:搜学搜课(www.soxsok.com) 技术支持:搜学搜课网