游戏精华网 > 休闲小游戏 >

pcs游戏推荐 Top5团队！全球AI攻防挑战赛系列共享（四）

发布日期：2024-12-15 07:20 点击次数：119

Datawhale干货

作家：koin

AI+安全的引申系列共享来了！

11月20日，国内首个AI大模子攻防赛辞天下互联网大会乌镇峰会收官。

通过攻防双向赛谈竞技，大赛最终角逐出全球十强。

赛后Datawhale邀请到了本届十强，为全球带来系列复盘共享。

今天，咱们和防患标的的Top5团队聊一聊。

国内首个AI大模子攻防赛全球十强乌镇亮相

赛谈二出题东谈主代表点评

全球AI攻防挑战赛评审委员会成员，中国科学院计较技巧不绝所副不绝员、博导敖翔：

伸开剩余81%

“ 康佬带我飞队”聘请了脉络化集成学习的想想，用多个不同类型的基模子和抽样的磨真金不怕火数据进行磨真金不怕火，再脉络化搀和推理规则偏捏关系瞻望标签行动B榜的伪监督数据进行模子调优。在数据和标签的和会计谋上想路明晰且系统化，展现了团队考究的竞赛教育和工程化想维，最终也取得了赛谈二的最好后果。

复盘共享

写在前边

全球好，我是koin，很红运受邀共享决策。本次比赛数据量百万级，模子磨真金不怕火的立时性很大，直到比赛终末一天，榜上的排行变化齐相配大，终末已经依靠一些运谈幸运才赢得了第五名，领先感谢天池平台提供这么一个相通学习的契机，同期在这里也要感谢咱们team另外两位模子和会大佬，迥殊是真金不怕火丹蓝图制定师：clwclw。

底下先容一下悉数这个词比赛时代咱们作念的使命：

数据可视化

本次比赛数据集鸿沟100w+ ，A榜测试集10w，B榜测试集10w ，直快数据不错分为生存类，证件类，海报类，其他。

数据清洗

按照官方的说法，数据的构建款式为在原始图像数据上针对笔墨区域聘请copy move，splicing，removal，局部AIGC等款式进行数字变嫌裁剪。

本体可视化后果发现数据标注质地欠安，不摒除纯模子伪标签给到选手的可能，难以进行东谈主工清洗。

比赛半途尝试畴昔除部分卓越白边的框，模子掉点，榜上有狭窄的提点。

数据去重

在预赛阶段，咱们发现分辨的考据集精度显着高于线上A榜测试集精度（考据集95+，线上70+），怀疑是线上线下数据溜达各异大，况且考据勾通可能出现和磨真金不怕火集高度相似的样本，通过浮浅的真值可视化筛查，发现磨真金不怕火勾通如实存在大量的相似样本，可能是官方对磨真金不怕火集作念了一定的离线增强贬责。

是以使用ResNet50快速的构建图片的特征库，然后基于构建的特征库，计较了测试勾通悉数样本和磨真金不怕火集悉数样本的相似度，筛选出相似度top2的样本，并通过可视化发现存一定数目的测试集在磨真金不怕火勾通也存在高度相似的样本，对此咱们也基于找出的共3.5w数据，磨真金不怕火了一个内行模子，用于后续的模子和会。

数据拆分

沟通到数据集样本数目较多（100w，迥殊于COCO的数倍），一方濒临过于平淡的数据溜达，模子的学习难度较大，可能会发生欠拟合；另一方面，使用多个模子学习不同的数据溜达，再通过wbf等款式进行模子和会，不错提高最终的检测精度；此外，百万量级数据全量磨真金不怕火，即使在磨真金不怕火资源满盈的前提下，每个样本也仅能被磨真金不怕火到几次，难以对在线数据增强决策进行优化。

因此，聘请雷同五折交叉考据的款式，将数据分红5份，磨真金不怕火了5个模子并分别提交测试性能。

数据伪标签

在预赛A榜时代，尝试用那时最好的模子，对全量数据打了伪标签，补充了阈值0.8以上的框的标注，伪标签的增多相通是线下掉点，线上狭窄晋升，然则B榜掉点，这也体现了数据溜达的立时性。

模子选型

从官方给定的baseline启航，沟通当今比拟新的transformer模子，前期全量数据本质采用后续齐是用CO-DETR-ViT模子，时刻不够的情况下，后期新加入一些CO-DETR-SWIN-L的模子，悉数的模子TTA后使用WBF进行和会。

模子目标

从比赛驱动到已毕咱们的模子目标迭代见下表。

回来反想

感谢主理方举办此次比赛，不错在超大鸿沟的数据上考据和千里淀咱们的算法本事，因为咱们团队齐是在任职工，是以在国庆时代资源满盈的情况下作念了好多无脑的全量本质，缺少关于超大鸿沟数据的致密分析，在与其他团队赛后相通进程也发现咱们其实有好多值得改良的所在，直快回来如下：

发布于：浙江省