华为云提出数据标注基地的数据要素模式，为大模型高质量供数

网络 · 2024-10-22 18:14:59

10月22日，在国家数据局数字科技和基础设施建设司指导下，首届“数据标注产业大会暨供需对接会”在北京顺利召开。大会旨在进一步推动数据标注产业高质量发展，促进数据标注基地快速形成规模化服务能力。政府主管部门、产业研究机构、人工智能企业、数据标注服务商、数据资源单位等各领域百余人现场参会，共议高质量数据标注建设路径。

模型进化亟需高质量语料数据供给

高质量的训练数据集决定着模型的精度与表现，AI发展正加速从“以模型为中心”转向“以数据为中心”。大模型对训练数据的需求呈指数级增长，有研究机构研究指出，开放的高质量文本训练数据集将在2026年耗尽。为加快推动国内数据标注产业发展，国家数据局已确定七个承担数据标注基地建设任务的城市，进而推动全国数据产业高质量发展。

刘朋冲演讲.jpg

华为混合云行业总经理刘朋冲发表演讲

作为国内人工智能企业代表，华为既是大模型语料数据需求使用方，同时提供数据工程能力。华为混合云行业总经理刘朋冲发表《高质量数据标注的关键需求和探索实践》主题演讲，从行业大模型训练洞察及华为云盘古大模型开发实践出发，提出大规模高质量数据集的加工和治理需要一套流程完整、功能齐全、效率较高的标注工具链，并分享了华为云语料加工流水线的工作流程与关键能力。

以数据要素模式盘活标注基地运营

作为国家级试点产业，数据标注需要以商业闭环和产业发展的视角进行基地整体设计。华为云结合数据标注基地任务书及与试点城市的交流合作，总结出框架模式、能力构建、产业运营三类，包括商业模式可闭环、满足多模态标注、保障数据流通安全等在内的八种关键需求。

围绕上述需求，刘朋冲表示：“标注基地整体业务框架应以数据要素的生命周期为业务基线。我们认为，数据标注公共服务平台为业务核心，通过纳管华为数据工程在内的各类标注工具，赋能标注企业高效完成标注任务；依托可信数据空间等数据流通利用基础设施，以数据集采购和委托标注两种商业模式盘活基地运营，实现商业闭环，最终实现数据要素场景下的‘供得出、流得动、用得好、保安全’。”

商业模式.jpg

数据要素模式的数据标注基地业务架构

创新技术为大模型高效率高质量供数

会议期间，由中国信通院和中国人工智能产业发展联盟编制的《人工智能数据标注产业图谱》正式发布。图谱在洞察人工智能数据标注产业发展现状及未来趋势的基础上，梳理了产业上下游相关企业的分布情况。华为云以成熟的平台能力位列“数据标注核心服务方”，通过提供数据标注平台服务，有效提高数据价值，助力数据产业价值释放。

今年9月，在华为全联接大会2024期间，华为主机上云军团CEO、混合云总裁尚海峰发布全新的ModelArts工程工具套件，包括数据、模型和应用三大模块，致力于推动AI工程化落地，让大模型构建、训练和部署更简单。其中，ModelArts数据工程套件：

• 提供60多种 AI4Data算子，支持QA对、视频Caption等智能辅助标注及团队标注，实现数据清洗及标注效率10倍提升

• 沉淀3大类15个指标项100多个评估项确保质量评估标准化，并通过自动评估模型的迭代优化实现数据飞轮效应

• 以权限管控、隐私数据保护、内容审核、数据胶囊等关键能力，守护全流程数据安全

套件以全模态数据获取、智能数据加工、安全高效用数的能力，为大模型训练高质量供数。

未来，华为云Stack将结合自身及行业实践，持续优化数据工程能力，与数据标注基地及产业链伙伴紧密携手，共同推动数据产业高质量发展，并坚持AI for industries的理念，以高质量语料数据为基石，将智能推向新高度！