创纪录!网易数帆夺冠CVPR 2023多模态竞赛
时间:2023-08-02 03:04:18

近日,由国际计算机视觉与模式识别会议(CVPR)主办的第19届多模态超光谱感知系列竞赛(PBVS 2023)结果公布,网易数帆AI团队在此次竞赛中击败了复旦大学、西安电子科技大学、中科院、韩国科技大学、印度大学、美国空军研究实验室等国内外105支知名队伍,以绝对优势夺得多模态赛道冠军,并在更严苛的评估规则下,将识别准确率大幅提升了29%,刷新了赛事纪录。

CVPR是计算机视觉和模式识别领域最重要和权威的国际顶级会议,由电气与电子工程师协会(IEEE)和计算机视觉基金会(CVF)共同主办。CVPR举办的多模态超光谱感知系列竞赛是计算机视觉和模式识别领域的重要赛事之一,自2004年以来已举办19届。多模态是指用不同类型的数据协同推理,结合数据融合技术,让结果更加准确。可以把它类比成人类用视觉、听觉、嗅觉和触觉等感官来感知事物。这项赛事的特点是鼓励参赛团队用创新的多模态方法,利用不同的光谱图像,比如SAR(合成孔径雷达)和EO,来检测、识别和跟踪复杂场景中的目标,让感知更加精确。


(资料图)

建模、数据与规则的多重挑战

多模态算法将不同来源的信息以适当的方式进行融合,这是AI领域对单独使用SAR或EO模态算法效果不理想的解决方案。例如PBVS 2022中SAR最佳准确率只有36%,利用多模态技术结合SAR和EO则可以达到51%的准确率。

为了提高算法准确率,参赛团队不仅需要在处理多模态数据时获取关键信息,还要发掘不同模态之间的互补信息,并设计高效的特征提取和融合方法。换言之,多模态建模能力的优劣对最终准确率具有决定性影响,而多模态信息的交互和挖掘也是竞赛的关键和难点。

类别之间混淆严重是竞赛设置的挑战。如下图所示,SAR模态的10个不同类别数据(每列为一个类别),每个类别提供了2张样例图片数据,红框的类别1和2,蓝框的类别5和类别6,单从图像上看近乎一样,识别难度极大。

类别数据不平衡,图片尺寸小,也为比赛带来了一定挑战。 例如sedan类别数据有36.3w条,而flatbed truck with trailer等类别只有600条。而且这些数据中,尺寸最大的只有55x55px,最小的仅有31x31px。

和以往竞赛不同,新的评估规则与类别不平衡形成了“双杀”。具体而言,PBVS 2023在历年的模型识别准确度(Accuracy)指标之外,还引入AUROC指标评估模型检测异常样本的能力,最终得分 Score = 0.75 Accuracy + 0.25 AUROC。相比Accuracy关注分类正确的样本比例,AUROC更关注不同阈值下的性能,因而在类别不平衡的情况下更可靠,但也意味着参赛团队在建模中必须考虑样本稀少的类别。

Transformer与级联算法建功

对于多模态问题,网易数帆在尝试、比对多种方法之后,最终选择使用Transformer构建不同模态之间的关系,进行特征交互,提升识别性能。由谷歌于2017年提出的Transformer模型,在NLP、视觉、语音、强化学习与推荐等领域都有成功应用,在跨模态建模上优势明显,是深度学习领域近年来的重要进展,也是当前引发AI技术革命的大语言模型的基础。网易数帆AI团队对于Transformer的创新和应用具有多年的实践和深厚的积累,也曾凭此技术创新获得ASRU2019大赛端到端语音识别赛道冠军。

对于混淆严重的问题,网易数帆提出了一个基于检索增强的级联结构。该结构包含两级分类器,分别用于较为容易识别的类别和困难的类别。其中,一级分类器由CNN + Transformer + 分类头构成,能够很好地识别较容易的样本,同时过滤出难以区分的混淆样本,并传递给二级分类器;二级分类器则采用p-Hash Retriever算法,包含一个p-Hash检索器和一个细粒度分类器。p-Hash算法基于纹理相似性找出所有相似的类别形成类别簇,细粒度分类器对于该簇的所有样本进行投票,投票最多的标签被选举为该簇所有样本的最终标签,由此解决混淆类别难以区分的问题。

此外,对于尺寸小,类别不平衡等难题,网易数帆使用了数据插值、数据增广、动态采样、Focal Loss损失函数等手段进行进一步的优化性能。

经过多重设计和优化,网易数帆多模态算法总得分及各项指标成绩排名均大幅度领先于竞争对手(下图中overfittinghhh为网易数帆AI团队),其中Accuracy指标达到了80%,相对于2022年冠军的51%,提升了29个百分点,大幅刷新了纪录。

业务智能化倒逼算法进步

网易数帆多模态算法研发与打磨,得益于业务实践的需求。这一算法已被用在LOFTER图文多模态低质审核项目中,帮助业务拦截了超过70%的恶意攻击,日均过滤内容7w左右,获得了业务的好评。在网易云音乐业务,如在质量审核中,多模态算法线上准确度超过了95%,基本达到了人工审核效果。整个2022年度,该算法大约承担了网易云音乐10位专业运营人员一年的总工作量。

从整个行业来看,多模态是全球学术界、工业界和政府机构的研究人员持续关注的热点领域,常应用传感/成像技术、监控和侦察系统等,且在无人驾驶、公共安全和国防等特殊领域具有重大的研究价值。在跨模态大模型成为星辰大海的今天,网易数帆认为,基于多模态的创新及相关技术积累,将为智慧生产力模型进一步迭代夯实“内功”,帮助企业增加智慧资产的丰富度,在业务数字化、智能化转型中发挥更大的作用,实现技术创新与业务发展的双赢。

本文来源:财经报道网

标签:

最新
  • 金融股是周期股吗?券商为什么属于顺周期吗?

    金融股的本质是强周期股,类似于钢铁,煤炭等周期性很强的行业,他们都

  • 港交所“双柜台模式”今日启航|当前视点

    港交所“双柜台模式”今日启航,港股,港币,证券,港交所,双柜台,腾讯控股

  • 湖北发布灾害风险提示:雷暴大风天气来了,非必要不出行

    湖北发布灾害风险提示:雷暴大风天气来了,非必要不出行---湖北日报讯

  • 龚自珍号什么(龚自珍号什么)

    龚自珍的字和号分别是什么1、龚自珍(1792~1841),字尔玉,又字璱人

  • 环球快消息!干旱威胁巴拿马运河 国际物流受影响

    干旱威胁巴拿马运河国际物流受影响   巴拿马运河正遭遇70多年来最严

  • 看点:“便民流动车管所” 来了!

    流动车管所为进一步深化公安交管“放管服”改革,贯彻落实“我为群众办

  • 快看:创业板电商股票查询_创业板电商股票一览(6/16)

    创业板电商股票查询_创业板电商股票一览(6 16),截至6月16日,创业板电

  • 戊酸雌二醇经期可以吃吗 热推荐

    戊酸雌二醇这种药物我们不是经常可以见到的,但是只是听说过,对这个药

  • 上海第九城市二期地址_上海第九城市

    1、中国最大的主城区排名,按城市规模排名为:2、上海,北京,武汉,天

  • 湖南工程学院青年志愿者到社区开展文化墙建设活动|环球快资讯

    湖南日报·新湖南客户端6月16日讯(通讯员杨丹赵佳豪谭明宇)为给社区

  • 华菱线缆:股东拟减持不超过6%公司股份|天天微资讯

    华菱线缆(001208)6月16日晚间公告,持股6 6914%的股东新湘先进计划减持

  • 2023年集体土地征收标准是什么?拆迁补偿有哪些法律规定?

    土地征收的标准是什么?土地征收补偿标准是指在市、镇行政区的土地,根

  • [路演]广汇能源:23Q1煤炭销量同比大幅增长 正积极推进马朗煤矿手续办理 每日热讯

    6月16日下午,广汇能源(600256 SH)参加主题为“全面注册制改革向未来

  • 北京考试院发布志愿填报须知 高招本科志愿27日8时起填报 天天看点

    北京教育考试院6月15日发布《北京市2023年普通高等学校招生志愿填报须

  • 上海人最怕的黄梅天还是来了……比往年偏早!紧跟一场大到暴雨… 环球资讯

    上海人最怕的黄梅天真的要来了上海入梅2023•6•17上海明日入梅!据公

  • 视讯!北向资金再度开启扫货模式:净买入105亿,续创4个月新高

    摩根士丹利中国首席股票策略师王滢日前表示,中国股市仍有进一步上升空

  • 旅游
    • 梅婷剧中“袒胸露乳”引争议,被无数网友吐槽 当前讯息

    • 世界快播:今天,青岛市疾控中心发布最新提醒

    • 运达科技6月26日盘中跌幅达5%

    • 新股停发是什么意思?新股申购什么时间段中签率高?