AI创新大赛 · 技术架构汇报

采购供应链高质量数据集工厂

面向招采全链条"单据、主数据、履约、风险"多模态要素的
行业级熟数据工厂与AI智能底座

2025年度 · 供应链AI智能平台

时代呼唤:国家与地方的"双重定调"

国家战略层面

1
国家数据局
《数据产权登记工作指引》三大审查铁律:
描述准确 · 来源合规 · 产权明确
2
工信部
《工业数据筑基行动》
推动高质量数据集建设与流通
3
数据要素市场
数据成为"第五大生产要素"
企业数据资产入表已成现实需求

地方试点动态

100+
首批高质量数据集建设单位(北京)
80+
新试点单位(浙江/湖南/山西)
政策既要求数据"来源合规、描述准确",
又急需"懂行业"的垂直语料支撑大模型落地

痛点透视:智能供应链的"阿喀琉斯之踵"

🔢

数字打架

ERP、SRM供应商信息不一致
同物异名导致库存积压
一物多码让采购失准

📄

暗箱数据

40%招标书、合同为PDF/图像
非结构化单据AI无法读取
人工抽取耗时且易错

⚠️

风险断层

履约数据与外部风险脱节
供应商画像不完整
高风险供应商难以识别

没有高质量的"熟数据",智能评标就是沙上建塔
数据质量问题让大模型推理能力下降60%以上

破局之道:从"数据湖"到"数据集产品化"

❌ 传统数据湖

· 生数据存入数据库
· 格式混乱、质量不明
· AI模型无法直接使用
· 缺乏血缘与版本管理

✓ 数据集工厂

· 多源异构数据接入
· 5步智能清洗治理
· Dataset Card规范化资产
· 直接喂给AI训练与决策

核心理念:数据集产品化

1
不是建系统,而是建数据集生产线
2
不是存表,而是产出带版本与血缘的高质量数据产品
3
AI不是黑盒,而是规则 + AI + 人工的协同闭环

整体架构:五层一体系,贯穿业数融合

智能应用层 智能评审 · 供应商画像 · 风险预警 · 知识问答 · 数据驾驶舱
AI能力层 文档解析 · 质量诊断 · 供应链认知 · 图谱推理 · AI审计
高质量数据集层 9个原子数据集 + 4个组合数据集 · 带血缘版本 · Dataset Card规范
智能处理层 预处理 · AI增强 · 质量诊断 · 标准映射 · 数据集编排
数据底座层 招标文件 · 供应商主数据 · 物料主数据 · 订单履约 · 外部风险
横向贯穿 → 数据安全 · 隐私脱敏 · 合规审查 · 权限控制 · 质量评估 · 人工复核

AI驱动的数据智能指挥舱

从静态看板到态势感知中心 — 让治理从"人找事"变成"事找人"

📊
智能驾驶舱实际界面截图位置
左侧:数据集资产总览 | 中间:质量态势感知 | 右侧:AI助手待办提示
13
数据集总数
96%
平均质量分
3
高风险供应商

十步流水线之首:多模态极简接入与AI识别

打破格式壁垒 — PDF、Docx、图片统一接入,AI自动提取关键实体

支持格式

· 结构化:CSV、JSON、XLSX、数据库
· 半结构化:DOCX、XML
· 非结构化:PDF、扫描件、图片
· 外部接口:ERP、SRM、风险API

AI能力

· 自动识别业务主题
· 文档类型分类
· 关键字段提取
· 原文证据定位(精确到页/段)
📄→📊
AI自动将PDF招标书"拆解"
为结构化的条款
预算 · 资质 · 交付期 · 评分权重
每个字段可追溯到原文证据

流水线核心:五步智能治理工作台

1. 解析抽取
OCR/LLM
2. 字段映射
标准对齐
3. 质量诊断
规则+AI
4. 归并决策
人工复核
5. 数据集沉淀
血缘版本
⚙️
数据处理工作台界面截图位置
左侧文件列表 | 右侧五步治理链路可视化 | 实时进度反馈
系统内置丰富的供应链主数据对齐模板
自动解决一物多码、供应商名称不统一等顽疾

人机协同:大模型辅助的质量诊断引擎

规则兜底 · AI增强 · 人工闭环 — 这才是真正的可信AI

三层协同架构

规则层
底线保障
10类质量规则 · 格式校验 · 业务逻辑检查
AI层
智能增强
业务语言解释 · 风险评估 · 修复建议
人工层
闭环决策
确认修复 · 忽略 · 审计记录

已实现10类质量规则

· 信用代码缺失 · 重复建档
· 资质过期 · 交付冲突
· 异常低价 · 履约延期
· 工商异常 · 金额异常
· 物料名称不一致 · 质量整改观察
🔍
AI诊断解释弹窗
⚠️ 风险提示:资质过期

此供应商ISO 9001认证已过期6个月

影响分析:可能不符合招标文件资质要求

建议操作:要求补充最新认证,或不予入围

资产沉淀:高质量数据集中心

治理的终点是资产 — 每个数据集就像一张全国通用的"数据身份证"

9个原子数据集

· 采购项目数据集
· 供应商主数据集
· 物料主数据集
· 订单数据集
· 合同数据集
· 风险事件数据集
· 质量问题数据集
· 图谱关系数据集
· 文档证据数据集

4个组合数据集

· 供应商准入评估数据集
· 异常低价识别数据集
· 供应商风险画像数据集
· 智能评审辅助数据集
📦
数据集卡片(Dataset Card)界面截图位置
数据集名称 · 数据量 · 质量得分雷达图 · 上游血缘来源 · 更新版本
完全满足数据产权登记要求的权属清晰、描述准确标准

应用场景一:全息穿透式供应商风险画像

从看价格到看综合风险 — 前置拦截高风险空壳公司

👤
供应商风险画像实际界面
基础维度
· 雷达图(履约/质量/风险/价格)
· 历史履约曲线
· 合作时长与频次
风险维度
· 工商异常 · 司法诉讼
· 资质过期 · 延迟交付
· 质量整改 · 异常报价
A级
综合评级
履约率98% · 无风险事件
B级
综合评级
延迟2次 · 价格波动大
D级
综合评级
工商异常 · 建议不予入围

应用场景二:供应链知识图谱与智能评标

构建底层关系网络 — 自然语言提问,瞬间穿透复杂关系

🕸️
供应链知识图谱界面
节点类型:采购项目 · 供应商 · 物料 · 合同 · 风险事件
边类型:供应 · 参与 · 包含 · 关联风险
智能问答示例:
Q: "某项目的高风险供应商有哪些?"
Q: "某物料关联哪些风险事件?"
Q: "历史延期交付的供应商清单?"
评标专家只需通过自然语言提问
系统便能瞬间穿透复杂的关系网,自动比对标书响应度,出具辅助评审报告
彻底告别人工翻阅

成果交付:从黑盒到"批次交付单"

让治理成果可验收、可汇报、可审计

📋
智能质量诊断报告样例
批次编号:BATCH-2025-001
处理时间:2025-06-11
源文件数:10个
生成数据集:13个
质量问题:8条(3条P0已修复)
风险供应商:3家
平均质量分:96%

交付内容

· 批次基本信息
· 产出数据集摘要
· 质量问题概览
· 人工复核记录
· 规则命中概览
· 风险路径和建议

导出格式

· JSON(系统对接)
· CSV(数据分析)
· Markdown(人类阅读)
· 未来:Word、PPT格式
这不仅是向上级汇报的完美总结
更是企业未来将数据资产挂牌交易、
申请DCMM认证的最佳实证材料

落地成效:用数据说话

中车轨道车辆牵引系统采购样例实测

60% → 98%
核心数据完整率
10倍
非结构化单据抽取效率
2周 → 实时
质量问题暴露周期

样例数据规模

· 10个源文件
· 382条业务记录
· 12家供应商
· 30个物料
· 240条历史订单
· 45条合同履约记录

产出成果

· 13个数据集(9原子+4组合)
· 10条质量问题识别
· 3家高风险供应商
· 供应链知识图谱
· 智能评审辅助报告
不仅节约了人力,更重要的是规避了难以估量的合规隐患
让评标从"经验驱动"走向"数据驱动"

未来规划:打造行业数据要素超级底座

V1.0
当前阶段

内部MVP闭环

· 完成核心五步治理流水线
· 沉淀9个原子数据集 + 4个组合数据集
· 实现供应商风险画像与知识图谱
· 验证批次交付与质量诊断能力
V2.0
6个月内

能力扩展与深化

· 接入真实ERP/SRM/风险系统
· 构建行业知识图谱与风险样本库
· 建立高质量数据集评价体系
· 支持供应链智能问答(RAG)与图谱推理
· 强化文档解析(PDF/OCR)与证据链
V3.0
长期目标

数据资产运营与流通

· 形成面向供应链全业务的高质量数据集运营体系
· 支撑供应商准入、采购评审、风险预警、经营分析
· 配合数据产权登记与数据流通
· 探索数据资产变现(挂牌交易、DCMM认证)
· 打造泛制造业的"超级语料底座"

以高质量数据
筑智能供应链之基

从一个采购项目的打样开始
我们的愿景是打造泛制造业的"超级语料底座"
让供应链数据真正变成企业资产负债表上的"真金白银"
Q & A
感谢聆听 · 期待交流
1 / 16