“引入词元技术后,我们算法模型的响应速度、准确性及资源消耗均实现了可量化的显著提升。”5月6日,在贵阳市高新区,大数据国家工程研究中心(中电科大数据研究院)技术专家周维一边展示着最新的测试数据报告,一边计算着词元技术为项目带来的具体成本节约与效率提升数值。
随着大数据、人工智能技术的不断演进和“词元经济”的悄然兴起,大数据国家工程研究中心(中电科大数据研究院)积极抢抓机遇,率先在中医药、电力等重点行业的高质量数据集建设中引入词元技术,并通过对领域专业知识、业务规则及多源异构数据的词元化拆解与标准化治理,统一了跨行业的语义表达体系,为行业高质量数据集的构建奠定了坚实基础。

贵州特色中医药多场景智能应用项目
“以贵州特色中医药多场景智能应用项目为例,我们搭建了专属的中医药词元知识库,统一古籍、临床、种植、质控等异构数据语义。”周维说,传统中医药数据零散、语义不统一、智能推理精度不足,难以形成全链条的数据联动与智能化应用。为此,他们围绕天麻、八爪金龙等本地道地药材与民族经典方剂资源,搭建了专属中医药领域词元知识库。
这一创新举措不仅统一了古籍文献、临床诊疗、田间种植、加工质控等异构数据的语义表达,还依托词元的语义关联能力,实现了辨证分型、经典方剂智能推荐等功能,显著提升了中医药辅助诊疗的专业性和精准度。

贵州特色中医药多场景智能应用项目
同时,通过词元化建模,大数据国家工程研究中心(中电科大数据研究院)还精准输出了产地适宜性评价、标准化种植规程及生长风险预警,打通了从药材源头种植到临床方剂应用的全链条数据联动,实现了区域中医药产业数字化与智能化的深度落地。
周维介绍,作为大模型处理信息的最小计算单元,词元技术的运用,还为大数据国家工程研究中心(中电科大数据研究院)在海量数据处理、大模型训练推理环节带来了可量化的效能提升,实现了速度、精度、资源消耗三重优化。
“具体而言,模型推理的整体响应耗时缩短了30%至45%,批量海量数据处理效率提升了20%以上;模型对行业专业信息的识别与推理准确率提升了25%以上,专业场景下的错误输出率下降了35%;而在资源消耗方面,同等数据量下的存储占用降低了20%至30%,GPU算力利用率得到了大幅提升,综合运行能耗与服务器资源开销降低了约28%。”周维说。

大数据国家工程研究中心(中电科大数据研究院)
紧跟词元经济发展浪潮,当前,大数据国家工程研究中心(中电科大数据研究院)正围绕“五数”工程整体战略布局,依托数桥、数火、数脑、数人、数根叶茂五大工程系统推进数据要素体系建设。
“词元作为‘算力货币’,将成为智能时代可计量、可定价、可交易的核心价值锚点与结算单位。”周维表示,大数据国家工程研究中心(中电科大数据研究院)将以词元技术为核心引擎,以数火工程为核心抓手,围绕“AI+数据”服务创新方向,深度聚焦中医药、民族医药等特色领域,系统性开展场景化高质量数据集建设,持续完善标准化中医药专属词元库与多模态训练数据集,全面推动要素流通市场化,切实筑牢规模化词元生产、大模型训练与智能应用落地的高质量数据供给底座。
来源:天眼新闻
编辑:陈旭
统筹: 黄静娴 编审: 王丹丹