一、赛题内容
基于DeepSeek R1的端侧大模型开发与应用
本赛题要求参赛选手基于DeepSeek R1,针对特定场景,进行端侧大模型的开发和应用。参赛选手需要结合项目的具体应用情况,在模型数据处理、模型架构、预训练(Pre-training)、后训练(Post-training)、推理部署或AI infra等环节进行开发和优化,并在竞赛截止日期前提交相关文件。
竞赛任务说明
场景分析与需求定义:参赛选手需选择一个具体的端侧应用场景(如移动设备上的文本生成、边缘设备上的情感分析、智能手表上的健康监测、智能家居中的语音控制等),并对其进行全面分析。分析内容包括但不限于场景的业务需求、数据特性、计算资源限制以及潜在的用户痛点。重点考察选手对实际应用场景的洞察力、需求分析能力和问题定义能力。
系统设计与架构规划:基于场景分析的结果,设计一套完整的系统架构,涵盖数据处理、模型训练、端侧推理优化以及应用开发等环节。系统设计需考虑模块化、可扩展性和兼容性,确保各部分协同工作。重点考察选手的系统设计能力、架构规划能力和逻辑思考能力。
模型预训练或后训练:利用DeepSeek R1大模型,结合场景需求和数据特性,使用互联网开源或自备样本数据完成模型的训练。组委会将基于模型预训练、指令微调、反馈对齐等情况进行评测。提供训练后的模型性能分析报告,对比训练前后的性能提升。
推理部署优化:对训练后的DeepSeek R1模型进行端侧推理优化,以适应端侧设备的计算资源限制,确保模型在端侧设备上的高效运行。考察选手的端侧优化能力、资源管理能力和对模型性能与效率平衡的把控能力。
应用开发:利用优化后的端侧大模型,进行应用开发,输出Demo。考察选手的应用开发能力、用户体验设计能力和工程落地能力。组委会将根据应用开发的完整性,商业价值或社会价值等进行评测。
文档与演示:生成该任务的项目报告,报告包括项目背景,场景分析、系统设计、项目实施步骤过程,训练后的模型性能分析以及Demo展示。录制模型训练方法,端侧优化情况和应用展示的视频,并以PPT的形式进行现场演示和答辩。
最终,参赛队将提交项目报告,视频(不超过3分钟)及PPT。其中视频为模型训练方法及应用展示视频,PPT为现场答辩PPT。
作品与提交规范

二、评分规则
本赛题现场测试按如下规则排序:场景分析设计、训练微调及应用(50%)+功能创新性(10%)+作品答辩(40%),得本赛项现场测试排名。(初赛主要参考提交作品线下评选)
序号 |
模块 |
评分细项 |
评分要求 |
1 |
讲解答辩(40分) |
答辩PPT及作品视频格式 |
答辩演示时使用的PPT和作品视频,要求内容完整、格式和排版整洁美观。 |
答辩PPT及作品视频内容 |
答辩PPT及作品视频内容包含模型训练过程、端侧优化方法、训练评估数值、参数代码、关键技术、项目价值等内容。 |
答辩选手整体形象 |
做到衣着发型整洁大方,表达自然流畅,逻辑清晰,现场展示及介绍时间时间控制良好,整体不超过10分钟,其中选手陈述时间7分钟,评委问答3分钟。 |
2 |
场景分析设计、模型训练及应用过程完整性(50分) |
场景分析与需求定义 |
有详细描述场景分析过程,包括场景背景、需求定义、目标用户群体、预期解决的问题等。重点考察场景洞察力,需求定义,问题定义等 |
系统设计与架构规划 |
提供系统架构图,详细描述各模块的功能、数据流向、接口设计以及如何满足场景需求。同时,阐述系统设计的创新点和优化策略,主要是架构和理性,模块化与可扩展性 |
数据分析 |
对于训练数据集,进行数据分析处理 1、数据集充分:数据集大小和多样性足以支持模型训练,数据集中样本达到大赛要求。 2、数据预处理:数据清洗、去噪、标准化等步骤齐全,预处理方法科学合理。 |
模型训练过程 |
有完整的训练过程 1、数据准备:数据集划分合理,如有训练集、验证集和测试集的划分,并解释其比例的选择。 2、模型选择:说明其选择的DeepSeek R1模型在任务上的优势,例如“端侧适应性”以及“计算资源的平衡”等。 3、训练过程:训练时的超参数设置(如学习率、批次大小)、训练迭代次数等均有合理解释和记录。 4、验证和测试:使用验证集进行模型调优,测试集证明模型泛化能力。 |
端侧优化 |
1、模型剪枝、量化或知识蒸馏等优化方法的详细说明。 2、选择的推理框架及其在端侧设备上的性能表现。 3、优化后的模型在端侧设备上的推理速度、内存占用等指标。 |
训练模型能力及应用价值 |
训练后的模型对应领域有较好的表现且有一定应用价值。 1、性能提示:训练后的模型相较于基线模型在关键性能指标上有显著提升。 2、领域适应性:模型在特定任务上表现出良好的适应性,对领域内的细粒度问题有准确的识别和处理能力。 3、应用价值:应用开发具有的商业或社会价值等。 |
4 |
功能创新性(10分) |
模型应用业务场景创新 |
围绕AI大模型技术实践的主题,评测选手的训练模型是否在选择领域的业务场景上进行了应用创新,创新方案的可行性与落地性。 |
二、竞赛软件及数据要求
软件:
DeepSeek R1是一个开源权重的国产大模型,基于MoE(混合专家)架构。该架构通过组合多个专家模型,选择最适合特定任务的专家,实现高效推理。这使得在优化计算资源的同时,能够保持高性能。R1还通过纯强化学习模型,在推理任务中获得出色的表现,性能比肩OpenAI O1推理模型。DeepSeek R1适用于文本生成、分类、问答等多种场景,具有1.5B, 7B,8B,14B,32B,70B等多个参数版本。
本赛指定使用10B以下的DeepSeek R1蒸馏模型(即DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B),作为端侧统一的基准大模型。
参考下载地址:https://github.com/deepseek-ai/DeepSeek-R1
数据:
参赛选手可以选择使用互联网上的开源数据集进行训练或微调,例如https://modelscope.cn/datasets
参赛队伍也可以使用自备数据集。
推理框架
选择适合端侧设备的推理框架,如:TensorFlow Lite、ONNX Runtime、PyTorch Mobile、NVIDIA TensorRT等,确保推理框架支持所选硬件的加速功能,并提供高效的模型推理能力。
硬件要求
参赛选手根据需要选择适合的端侧设备进行模型部署和测试,例如:智能手机、平板电脑、智能穿戴设备、嵌入式系统等