你社交网站上的照片,也许已经被用来训练人工智能了

欧美AV在线

您社交网站上的照片可能已用于培训人工智能

毫无疑问,这张全家福的照片非常可爱。这位棕色头发的母亲咧嘴笑着,头发很短,戴着无框眼镜的爸爸。他们正在和两个蹒跚学步的女儿一起玩冰淇淋。

4cd5becc27d44c86bdb4497c78f7ab60.jpeg

2013年West拍摄的这张照片包含在小发猫的面部多样性

然而,当这张照片在2013年上传到照片共享网站Flickr时,“可爱”以外的属性引发了争议。对于面部识别系统,此照片具有独特的含义。在照片中,脸部出现在屏幕上的不同位置。这些照片可以帮助训练人工智能识别照片和视频中的面孔。

小发猫开发了一个名为“Face of Faces”的新项目,并为此准备了数百万张图像。这是一张快乐的照片,旨在提高人脸识别的公平性和准确性。性别。

这张照片是佛蒙特州农村的一位名叫Jessam West的图书管理员拍摄的。当她发现这张照片被小发猫使用时,她既惊讶又生气。她将照片上传到Flickr并添加了知识共享协议,以便其他人可以使用。

她不知道的是,面部识别数据集中包含了十多张照片,包括她的自画像,让她感到非常沮丧。她说:“如果某人(使用我的照片)要求我的同意,我就不会那么生气和愤怒。”

多年来,研究人员通过互联网收集和注释各种物体的照片,以训练计算机,以便他们更好地了解周围的世界。通常,他们通过Google图片搜索,公共Instagram帐户以及其他一些方式(一些合法的,一些可能不合法)获得大量图像。得到的数据集通常用于学术研究,例如训练或测试人脸识别算法。但随着微软,亚马逊,Facebook和谷歌等公司投注人工智能,人脸识别工作即将从实验室走出,并进入大公司的视野。

随着消费者意识到他们在互联网上留下的数据的强大功能,人脸识别数据集加剧了对隐私和监控的担忧。因此,一些研究人员正在重新检查这些残酷的其他照片集。在互联网充满共享精神的情况下,使用他人的照片书应征得他人的同意。

照片来自哪里?

由于深度学习的普及,机器学习研究近年来蓬勃发展,人脸识别技术也得到了很大的提高。在典型的用例中,扫描,分析照片,视频或实时流中的面部,并将它们的特征与数据库中的注释面进行比较。

该技术被用于打击人口贩运和快速机场安全,并且还用于监控音乐会和体育赛事。

然而,面部识别的准确性仍然是一个问题。研究人员开始担心人工智能系统中的歧视和偏见。这项技术在正确识别有色人种和妇女方面仍存在重大缺陷。造成这一问题的原因之一是数据集中男性与女性和白人的差异。

数据多样性对于机器培训很重要,但数据的大小同样重要。人脸识别系统的培训和测试需要在数千万甚至数百万人的面孔上进行。

多年来,研究人员一直在研究小发猫的人脸识别数据集。这个包含图像链接的数据集是从Flickr和Yahoo的资源包中编译的,该资源包发布了一百万个图像。资源包名为YFCC100M,用于各种科学项目研究,包括研究没有地理坐标的照片和视频的拍摄地点。

许多公司,研究机构和个人已经编制了面部识别数据集,而小发猫只是其中之一。其中一些数据集由实际图像组成,而一些类似小发猫的数据集由图像链接组成。有时,也可以通过拍摄模型获得数据集。

a51449cd8c3f405daa51b2330d9da24b.jpeg

这些肖像属于NVIDIA用于训练GAN系统的数据集

通常,这些数据集是知识共享的,但它们必须用于非商业目的,例如算法研究。但CNN发现可以从Github等网站免费下载大量类似的数据集。

当他在雅虎实验室担任研究总监时,David A. Shamma帮助组织了Flickr数据集。他认为,近年来,学术界正试图从他们可以用于机器视觉和识别研究的任何地方收集数据。 “在这个学术领域,人们经常说,'没有伤害,没有犯规'”。

Shamma认为,他和他的同事发布的Flickr大数据集可以帮助学术界根据交给研究人员的大量授权图像进行研究。

件。

知识共享协议于2002年首次发布,远远超过了当前的人工智能热潮。

尽管研究人员在Flickr这样的网站上免费使用图像,但他们承认,许多上传这些照片的人可能会对这些照片用于训练人工智能的事实感到惊讶。

Shamma说:“我认为人们对他们的照片的使用有一些预测,但是当他们被告知特定的人工智能使用时,他们仍然感到惊讶。”

不满意升级

无论人工智能从业者如何解释它,韦斯特都惊讶地发现他的照片被用作机器学习。今年3月,在阅读NBC新闻报道后,她搜索了她的Flickr帐户。她发现她为朋友的家人拍摄的照片与其他照片一样令人沮丧,这些照片是数据集的一部分。她认为人工智能的未来是明确的,但她的照片用于在不知情的情况下训练人工智能。

Twitter上的相关帖子充满了普通网民的抗议。许多人也很沮丧地发现他们在网上共享的照片(通常是很久以前的照片)成为培训人工智能的材料。

West要求小发猫从数据集中删除她的照片,但这只能通过电子邮件完成。她还必须授权小发猫使用她的社交帐户,以便她可以查找和删除每张照片。

小发猫表示它“致力于保护隐私”,参与数据集的人可以随时选择退出。但是,它不提供帮助确认数据集包含特定图像的工具,因此人们必须通过NBC构建的搜索工具找到它。

与此同时,芯片制造商Nvidia的研究人员正在研究小发猫的课程并考虑改变他们的实践。

今年3月,Nvidia发布了一个在线工具,帮助人们了解他们的照片是否包含在用于训练StyleGAN的数据集中。 StyleGAN是NVIDIA今年2月宣布的人工智能系统。它擅长创造不存在的逼真面孔。其数据集包含70,000个高质量的Flickr授权图像。

在NBC透露私人图像被用作机器培训后,NVIDIA的在线工具出现在网络上。然而,Nvidia图形研究副总裁David Luebke认为该工具已经开发了一段时间。

他说:“当人们慢慢意识到这一点时,我们一直在为此努力。只要有些人(收集自己的照片)对象,我们也希望赢得他们的尊重。”

如果用户想要从数据集中删除他们的照片或避免将其用于未来的计算机视觉研究,该公司还列出了一系列预防措施来指导用户。

这些建议包括将照片设为私密,更改其附带的许可证,以及为照片添加标签以表明他们不想将其用于计算机视觉研究。

Luebke说:“我认为很多人都不关心,或者他们会很高兴他们的照片被用在像StyleGAN这样的研究中。但如果有人不喜欢这样,那么就有办法戒掉。”

d60a7f17eebb484fa8ffbbd379135b0e.jpeg

这个West的自拍照包含在小发猫的数据集中以及其他照片

一些研究人员认为,人们应该通过授权来决定它们是否可以用于计算机视觉或人工智能研究。

款,非营利组织的此许可协议不限制任何形式的人工智能开发。

知识共享首席执行官Ryan Merkley表示,“这些协议并非旨在保护隐私或研究道德。”

等待立法

近年来,人工智能发展如此迅速,以至于很难制定相关法规,更不用说实施了。从法律上讲,该公司在收集和使用图像进行面部识别时没有披露其义务。

目前还没有相关的联邦法规。在每个州,情况都不同。例如,伊利诺伊州有一项法律要求公司在收集生物识别信息之前获得客户同意;亚马逊和华盛顿州的国家所在地华盛顿州最近通过限制面对识别所使用的法案,该法案仍需要在州众议院通过。

Merkley和其他人认为应该考虑立法来规范数据收集。今年3月,参议院提出了一项法案,要求公司在收集和共享识别数据之前获得消费者的同意。它还要求公司进行外部测试,以确保算法在实施前是公平的。

数字前沿基金会技术政策主管Jeremy Gillula表示,即使没有对人工智能培训的私人照片进行严格的法律限制,公司和研究团队也应该了解道德规范。

在他看来,这意味着照片的使用需要照片中人物的明确同意。即使很难做到,这也是公司必须面对的现实。

(来源: CNN商业作者:Rachel Metz编译:Yi Li)

,看多了