加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

MIT再推出有名数据集ImageNet存在系统性Bug,祸端还是WordNet

发布时间:2021-06-04 17:43:05 所属栏目:创业 来源:互联网
导读:惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet 麻省理工研究团队之所以在ICML大会上介绍这项研究,是因为近期陷入的Tiny Images争议事

惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet

麻省理工研究团队之所以在ICML大会上介绍这项研究,是因为近期陷入的“Tiny Images”争议事件。

就在本月初,麻省理工学院(MIT)宣布永久删除了包含8000万张图像的Tiny Images数据集,并公开表示歉意。其原因是,有关研究人员发表了一篇论文指控Tiny ImageNet数据集存在多项危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。

论文中表明,ImageNet在语义结构分析上,使用的WordNet名词,它包含了种族歧视等危险内容,同时,由于图像过小,数据量过大,并未手动对图像标签进行逐一核对,由此导致了问题的出现。

众所周知,知名数据集ImageNet也使用了WordNet用于语义结构分析,那么,ImageNet数据集是否也存在同样的问题?对此,麻省理工研究团队给出了答案。

ImageNet基准测试与实际不符

大规模ImageNet数据集的出现,可以说意味着机器学习深度变革的一个新起点。2009年,李飞飞领衔的研究团队在计算机视觉与识别模式大会(CVPR)上首次推出ImageNet,ImageNet数据集包含10000个分类,超过一百万个图像,数据量之大是此从未有过的。

正是因数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。但是,麻省理工研究团队在最近的研究中却指出:

ImageNet存在明显的“系统标注问题”,导致其用作基准数据集时与实际情况并不一致。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读