【A32】基于大模型的图像数据智能标注以及增强模拟器【君同智能】
发布时间: 2023-12-27 14:59:33

1.命题方向

扩散模型,数据标注,数据保护,数据增强

2.题目类别

应用类

3.题目名称

基于大模型的图像数据智能标注以及增强模拟器

4.背景说明

【整体背景】

随着大模型技术的迅速发展,图像数据的智能增强模拟器成为应对日益复杂数据处理需求的关键工具。这些大模型涵盖了图像分割、生成对抗网络(GAN)等先进技术,为图像标注、风格迁移和数据增强提供了强大的能力。此类模型不仅包括图像分割开源大模型如SAM,还包括专注于图像数据增强的SOTA模型,如StyleGAN、CycleGAN等。

此外,在当前的数据处理环境中,图像数据的质量和多样性对于许多应用至关重要,包括计算机视觉、图像识别和模式识别等领域。为了提高模型的性能和泛化能力,研究人员和业界对于合成高质量、多样性丰富的图像数据的需求不断增加。大模型的智能增强模拟器系统应运而生,以满足这一需求。

该模拟器系统不仅仅是基于单一的数据标注工具,而是借助深度学习和生成技术,能够自动生成逼真的图像样本,模拟各种场景、光照和视角。这为数据集的标注、模型训练和性能评估提供了高度可控和可定制的数据源。

然而,正如图像处理技术的滥用引发图像完整性问题一样,大模型的智能增强模拟器也可能面临潜在的滥用和伦理挑战。因此,保障模拟器生成数据的真实性和可信度,以及在合成数据中保持潜在伦理风险的警觉,成为该领域的重要议题。在不断推动技术创新的同时,智能增强模拟器的应用也需要在合规性和道德方面持续演进,以确保其在复杂、敏感领域的可持续发展。。

【公司背景】

浙江君同智能科技有限责任公司(简称:君同智能)是依托浙江大学建立的智能科技企业,作为一家卓越的人工智能治理服务提供商,面向包括大模型在内的人工智能发展,君同智能致力于提供面向未来社会人工智能风险一站式评测和保障服务,加速各个产业及国家的人工智能发展。

君同智能聚焦于包括大模型在内的人工智能自身安全的评测和增强技术研究,致力于构建人工智能安全的防火墙,为国家和企业提供智能算法的安全保障。君同智能当前的解决方案及应用案例已经获得了包括全国网络安全优秀创新成果奖、CCF首届卓越之星、杭州市十佳数据安全实践案例等诸多认可和成绩。其所研制的智能安全评测与增强平台已陆续服务于工信部、公安部、中国人民银行、字节跳动、海康威视、奇安信等多个部委和大型企业,产生了巨大的社会经济效益。

君同智能研制的相关技术和解决方案,获得了全国网络安全优秀创新成果奖、浙江省网络安全十佳成果奖、工信部试点示范推荐优秀典型解决方案、杭州市十佳数据安全实践案例奖等诸多荣誉。

【业务背景】

随着大模型在图像处理领域的广泛应用,对于大规模、多样性的标注图像数据的需求呈现出日益增加的趋势。为了训练和优化这些复杂的大模型,高质量、多样性的标注图像数据变得至关重要。然而,传统的手动图像标注过程不仅耗时费力,而且在应对快速增长的图像数据需求时显得力不从心。

各个行业对于图像数据增强技术的需求日益迫切,跨足了计算机视觉、医疗影像分析、智能交通等多个领域。大模型图像数据增强模拟器作为一个关键工具,被设计以适应不同业务场景对于多样性、高质量标注图像数据的迫切需求,从而使其在制药、交通规划、农业等领域都能发挥关键作用。

然而,随着大模型图像数据增强模拟器的广泛应用,也带来了一些挑战。模拟器生成的图像数据的真实性、多样性和逼真程度仍然是关键问题,需要不断提升模拟器的智能程度和仿真能力。同时,考虑到合规性和隐私保护等方面的要求,模拟器的设计和应用也需要满足更高的标准,确保生成的图像数据在应用中是合法、安全的。

5.项目说明

【问题说明】

基于图像特征提取、智能视觉分析等技术,开发图像内容篡改检测系统,系统要求能够支持单张及批量的图像篡改(包括复制粘贴、图像合成、内容填充、滤镜应用、颜色校正等)检测,并且用户应能够查看检测结果,系统应以可视化的方式标示出篡改的位置和类型。

【用户期望】

1)多任务的标注功能:可以利用例如SAM之类的能够支持线标注、多边形标注、文本标注、关键点标注、分割标注;并支持导出多种格式,如YOLO、VOC格式

2)多样性的属性篡改:可以利用图像文本大模型,能够根据场景描述生成多种属性的篡改,包括天气属性、光照属性、主体信息的增加或删除等;

3)实时性能:系统应能够在实时或接近实时的速度下对图像进行标注以及属性篡改;

4)准确性和泛化能力:系统需要高度准确且鲁棒,同时拥有泛化能力,能够应对金融、交通等场景;

(5)隐私保护能力:系统需要对标注数据以及生成数据进行隐蔽的水印标注。可以利用例如Diffusion之类的生成技术进行水印的植入和提取。

6.任务要求

【开发说明】

1)多任务的标注功能:可以利用例如SAM之类的能够支持线标注、多边形标注、文本标注、关键点标注、分割标注;并支持导出多种格式,如YOLO、VOC格式

2)多样性的属性篡改:可以利用Diffusion模型,能够根据场景描述生成多种属性的篡改,包括天气属性、光照属性、主体信息的增加或删除等;

3)实时性能:系统应能够在实时或接近实时的速度下对图像进行标注以及属性篡改;

4)准确性和泛化能力:系统需要高度准确且鲁棒,同时拥有泛化能力,能够应对金融、交通等场景;

(5)隐私保护能力:系统需要对标注数据以及生成数据进行隐蔽的水印标注。可以利用例如Diffusion之类的生成技术进行水印的植入和提取。

【技术要求与指标】

软件:根据硬件来自主采用对应的软件和工具,以及开发语言。涉及到采集的数据以及数据处理时,要有对应的结果数据和必要的图片以及文字说明。

1)标注形式支持线标注、多边形标注、文本标注、关键点标注、分割标注;

2)支持利用Diffusion模型对数据进行天气属性、光照属性进行增强,并对增强后数据进行标注

(3)针对分割任务,标注区域与真实区域的重叠程度IoU(Intersection over Union)应大于85%;

4)隐私保护水印应该抗攻击,包括裁剪,压缩,转录等高强度复合后处理攻击;

5)可以假如例如AI扩图、AI抠图等基于Diffusion算法的图像编辑算法;

(6)如果引用了开源代码,作品中标明哪些部分使用了开源代码及出处。

【提交材料】

1)项目概要介绍;

2)项目简介PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

①需求分析文档完整;

②系统设计文档完整;

③测试案例完整;

④测试报告完整。

6)团队自愿提交的其他补充材料。

【任务清单】

1)需求调研与分析与数据集搜索;

2)软件系统设计,包含概要设计与详细设计;

3)测试案例编写;

4)编码;

5)部署测试环境测试。

【开发工具与数据接口】

7.其他

8.参考信息

1) Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.

2)https://deepmind.google/technologies/imagen-2/

(3Fan Xuefeng, Zhou Xiaoyi, Zhu Bingbing, Dong Jinwei, Niu Jun, Wang He. Survey of Copyright Protection Schemes Based on DNN Model[J]. Journal of Computer Research and Development, 2022, 59(5): 953-977. DOI: 10.7544/issn1000-1239.20211115

9.评分要点

赛题评分要点见附件一:A 类企业命题初赛统一评分标准。

订阅号