一、背景说明
在数字化转型的浪潮中,企业和组织面临着前所未有的数据安全挑战。随着业务系统的复杂化和数据传输的多样化,各类敏感信息在网络中的流转带来了巨大的安全风险。特别是在金融、医疗、政务等领域,一旦发生数据泄露,将造成严重的经济损失和社会影响。在当今的数字化时代,处理海量数据已经成为了一种常态,如何有效地从大量图像中提取信息是一个关键挑战。随着深度学习和大规模数据模型的兴起,OCR(光学字符识别)技术得到了显著提升。利用大模型的强大能力,我们可以更准确地识别和分析图像中的文本信息,从而提高系统的自动化和智能化水平。因此,开发一个能够智能识别和分类敏感数据的系统具有重要意义。
本次比赛旨在鼓励参赛团队开发一个基于大模型的敏感数据识别分类系统,为数据安全泄露提供技术支撑和解决方案。参赛选手使用自研的系统产品接入模拟的数据泄露场景,对流量数据进行全面的分析与提取。最终由领域内专家与AI裁判进行评比。通过本次比赛,期望能够发现和推广更多优秀的敏感数据识别与分类的产品系统,提升企业的网络安全与数据安全水平。
二、赛题描述
参赛团队可以使用OCR技术,并自行决定是否需要结合使用国产AI模型,开发一个敏感数据识别与分类系统,对指定的流量数据文件进行分析,并输出符合格式的 CSV 文件。
三、挑战内容
(1) 为了帮助参赛团队更好地理解比赛要求并进行开发工作,本次比赛提供了一个附件流量文件test_sample.pcap(用于开发测试的文件集,下载地址:https://pan.baidu.com/s/1RS09TED2zWpY1A6Z5l0Byw?pwd=bq2n)和一个“识别准确率验证靶机(靶机地址:https://gdufs2025.dasctf.com/)”。在验证靶机处可以拿到 example.csv(开发测试用的一部分文件结果集),请确保程序的输出格式符合该 csv 文件的格式。参赛团队需要将生成的csv结果文件上传到“识别准确率验证靶机”以获取准确率结果。
(2) 需要参赛团队从流量文件中提取敏感信息,需要具备多样化识别的功能,支持多种数据格式的处理,包括但不限于文本、图片等。
(3) 具备高准确率的 OCR 识别能力,可自行决定是否需要结合国产AI模型辅助提高识别能力。
(4) 提交详细的研究报告,包括设计理念、实施过程、效果评估等。
四、验证要求
(1) 为了确保各参赛团队的验证环境一致,参赛团队提交的程序作品推荐在 Intel 酷睿10代i5-10400 16G 內存环境 Windows11 最新版下,十分钟内完成对赛题附件 test_sample.pcap的识别处理。 并将处理后得到的 csv 文件上传到验证靶机(靶机地址:https://gdufs2025.dasctf.com/)以获取识别准确率。
(2) 为了后续审核人员能便捷且正常运行程序作品,各个参赛团队需要尽可能提供一键式启动程序或命令,并给出对应的详细使用说明文件。
(3) 在提交的研究报告中应有识别准确率、CPU占用、内存占用和运行时间,以便后续审核人员进行参考。在提交的材料中必须含有验证录屏文件,录屏开始后再启动程序作品,等程序运行结束后需要将生成的 csv 文件上传到“识别准确率验证靶机”以获取准确率结果。
(4) 后续审核人员会在Intel 酷睿10代i5-10400 16G 內存环境 Windows11 最新版下统一运行各个参赛团队的作品并验证其识别准确率、CPU占用、内存占用和运行时间,并给出敏感信息识别准确度指标得分,其得分计算公式:
① 识别准确率得分 = 当前队伍的识别准确率 / 最高识别准确率 * 100
② 时间得分 = 最短识别时间(s) / 当前队伍的识别时间(s) * 100
③ CPU占用得分 = 最低CPU 平均占用率 / 当前队伍的 CPU 平均占用率 * 100
④ 内存占用得分=最低内存平均占用率 /当前队伍的平均内存占用率*100
敏感信息识别准确度指标总得分 = 识别准确率得分 * 0.70 + 时间得分 * 0.15 + CPU占用得分 * 0.10 + 内存占用得分 * 0.05。每个项目的得分由当前队伍的表现与最优表现的比值决定,最高得分为满分。
五、评审内容
维度 |
权重 |
评分标准 |
敏感信息识别准确度 |
60% |
作品应对流量中敏感数据提取与分类的能力有一定的识别准确度,具体得分计算请看验证要求中的得分计算公式。 |
研究深度和广度 |
10% |
作品应对选定的国产AI模型和OCR结合技术进行深入研究,研究内容覆盖面广,有足够的深度。 |
研究报告的质量 |
10% |
报告应详尽、清晰,准确反映敏感数据如何进行提取与分类、OCR识别精准度、效果评估等。 |
完成度 |
20% |
作品应完成所有的研究任务,能够提供对应的证明环境或程序,研究过程和结果具有可复现性。 |
六、参赛作品要求
1、作品简介
2、研究报告(设计思路、实现原理、实现功能、创意说明、测试设备、测试数据、结果分析等)
3、操作手册和演示视频
4、作品程序及源代码
5、作品原创性说明
6、其他补充材料
注意事项:参赛团队除第6点其他补充材料外,其余内容都必须提供。
七、竞赛沟通交流
学员及指导老师请扫描下方QQ群的二维码进群,群内会进行重要赛事通知及答疑。进群后请修改自己的备注名为学校名-团队名-姓名/学校名-xxx老师。
QQ群号:1043031829
