首页 科创动态 科协活动 科普专题 科技工作者之家 关于我们
首页 科技工作者之家 成果汇
恭喜!入选国资委首批央企优秀成果

信息通信领域高质量数据集入选国务院国资委首批央企高质量数据集优秀建设成果

第八届数字中国建设峰会期间,国务院国资委集中发布了首批10余个行业30项央企人工智能行业高质量数据集优秀建设成果,中国联通软件研究院牵头建设的“信息通信领域高质量数据集”成功入选,标志着中国联通在AI领域取得新突破。

大规模通信领域高质量数据集

联通软件研究院以"强化全场景AI赋能,增强运营新动能"为牵引,全面打造大规模、多模态信息通信领域高质量数据集。充分发挥中国联通数据集约化优势,整合企业内部600PB的文本、音频、图像、视频等多模态数据资源,并融合外部自然语言类、数学推理类、代码指令类等优质数据资源,构建了覆盖网络运营、客户服务、智能终端、电信反诈、经营管理、智慧办公、科研创新等多领域的高质量数据集,总规模达40TB,支撑联通元景大模型训练与微调,赋能客户运营、经营分析等AI场景应用30个。

多语种多方言客户服务数据集

面向全量客户运营场景,提取完整的多轮对话数据,对客户意图进行智能识别和人工标注,形成稀缺的意图识别数据集,提升大模型意图理解识别能力,数据集内容上覆盖了信息通信领域智能客户服务的全业务场景,为有效应对自然对话中语言的多样性、语境理解不足、行业术语专业化等挑战,通过智能化手段对18万小时客服热线音频数据进行客户信息匿名化处理,形成汉语、维吾尔语、英文等多语种语音数据集,融合粤语、川渝等多种方言,输出1400万+音频文本对数据集,赋能客户服务大模型,智能服务满意率提升至85.39%。

高质量经营决策推理数据集

面向智慧经分场景,汇聚企业全量经营分析场景真实数据,组织专家对会话中经营分析意图进行精准打标,打造具有意图实体标签的经营管理数据集5.2亿tokens,引入智能归因算法解析经营指标关联性,支持市场策略模拟推演与风险预判,赋能大模型经营分析语义理解准确率从81%提升至98%,提升企业经营决策效率。

智能化数据集处理工具链

联通软件研究院以数据治理筑基,建立AI数据集智能化生产体系,首创“采-洗-标-测-用-评”端到端一站式数据集生产流水线,自主研发智能处理算子35个,智能数据标注能力21项,具备亿级多模态数据处理能力、自动化数据质检能力、数据集分类管理能力,实现数据集智能化处理>65%,数据集整体可用率>95%,敏感数据识别准确率≥95%。服务于24个省分公司,联通数智、联通数科等9个子公司,累计1300+人次,为大模型研发人员提供一站式的AI数据集生产服务。

展望未来,联通软件研究院将以央企使命为引领,充分发挥人工智能产业链“链主”作用,聚焦高质量数据集的建设与运营,对内赋能人工智能行动计划业务场景,实现数据价值的高效释放;对外积极推动行业数据集的高质量发展,助力行业优质大模型的发展与应用。通过强化数据协同、打破信息壁垒,促进数据资源的优化配置与高效利用,全面激发行业创新活力,助力数字经济与实体经济深度融合,为运营商行业高质量发展注入强劲动能。