图纸智能识别方案介绍
系统架构及处理流程+自动文本分类+图框检测定位 图纸目录和图框内容识别提取+关联性分析 完整性检测+数据识别统计+可检索PDF格式转换 局部影像定位检索
解决方案研发背景
步骤多,操作繁琐复杂,效率低
存至电脑
用工程扫描仪将图纸扫描至电脑;图纸需要重新命名。
人工校核
操作员查看图纸信息并进行校核;耗时约3-4分钟/张。
录入档案
操作员将信息存进档案;耗时约3-4分钟/张
录入表格
操作员手工录入表格;无法同时打开文件及命名;耗时约1-2分钟/张
覆盖图纸
完成重命名及校核后;再复制图纸到同一目录;耗时约1分钟/张
完成校核
步骤繁琐易出错;花费时间长效率低;人工成本高
日常图纸操作及时长
针对A0-A2的图纸重命名及关键信息录入工作,一份图纸的平均处理时间约5-7分钟,一天处理约60-84张(连续7小时工作),一个月(23个工作 日)处理量平均约1650张,按人均成本7000元/月计算,单张图纸处理成本高达4.2元张,且录入信息的准确性及整套图纸的完整性无法确保;
大部分设计院每年需要归档录入的图纸约为10-15万张,按人均月处理量为1650张/月,3-4个人处理档案的编制计算,约需21个月才能处理完成年的图纸档案量,导致图纸归档处理工作远跟不上设计院日常档案管理信息化、数字化的要求。
图纸处理不及时,积压严重
目前,全国有近万家各类型设计院及大型生产制造业客户如核能、船舶重工、电力能源类等,每天生产出海量图纸档案,这些图纸按《中华人民共和国档案法》相关规定,大多需要永久或长期保存,在实际档案管理过程中存在以下问题:
>大部分图纸无法及时完成数据化处理,历史图档积压严重,且消耗了大量的场地资源,加重了管理负担;
>图纸档案关键信息的系统录入工作往往没有跟图纸的收集整理工作同步进行,导致档案数据无法及时更新,图纸档案的查询、利用极为不便;
>基本依托于档案人员手工处理图纸档案,处理速效率极为低下且数据录入容易出错,严重影响图纸归档质量;
>单张图纸档案处理的成本高且随着劳动力成本的增加在不断攀升,给企业带来了沉重的负担和开支;
>图纸扫描后需要额外进行可检索PDF格式的转换,增加了额外工作量及成本;
方案介绍
系统架构及处理流程
由[管理平台]及[算法服务]两部份组成,并应用了版面布局分析、文字方向识别、文字检测、文字识别、表格识别等多个算法模型
前端自动文本分类
前端分类器将图纸、文本、表格进行快速分类提升识别效率,区分需要识别文本类型。
目标图框检测定位
通过AI模拟训练,快速定位不同的目标图框,改变传统模板识别方式,减少人工干预。
图纸目录关键内容识别、提取
1、识别关键信息,自动将归档目录按规则重命名;2、进行全套归档图纸的完整性检查,查漏补缺;3、通过RPA或接口,著录到图纸档案系统中。
图纸图框关键内容提取、识别
通过大量学习,自动提取关键信息,录入ECM或图纸管理系统,可检索PDF格式转换,只需完成图纸扫描及校核工作。
图纸关联性分析
实际生产过程中,通过批量识别不同的图纸目录、图纸,自动寻找各类目录、图纸间的关联性,如是否属于同一工程、同一项目,进行自动归档分类。
图纸关键要素完整性检测
图纸要素完整性检测包括:1、是否有竣工章、出图章、档号章;2、图纸是否原件或复印件;3、图章中相关关键信息等。
图纸关键数据识别、统计
各类图纸内容中设备材料清单、设计概要说明、工程预算等关键信息的识别、统计、校核。
可检索PDF格式转换
在图纸自动处理工程中,可选择将其直接转换为可检索的PDF格式,无需额外进行格式转换操作,数据化后的图纸文件导入到档案管理系统后,可直接进行关键字查询、检索。
局部影像定位、检索
两幅例图中左侧为查询小图,右侧为检索库大图,上述两图分别所示小图与大图匹配相似度差异,即绿色连线表示匹配局部关键点应用场景:1、图纸影像关联性检索;2、图纸快速定位;3、图纸相似度对比。
方案扩展性规划
图纸数据化
信息架构化建库,在数字图纸上集成不同系统数据
1、对图纸进行数据化,对图纸中设备、线路、仪表、管道、阀门及管件等的属性信息进行结构化建库。
2、在数字图纸上集成不同系统数据:生产运行类数据、设计工艺数据、仪表电气数据、文档数据等等,让游离在各业务系统中的数据集中展现,解决多系统数据的信息孤岛问题。
图纸数字化重构
图纸数字化重构,图纸自动比对
1、图纸数字化重构,将PDF或图片格式图纸转换为可重新操作、编辑的数字化图纸方式,识别其中内置通用元件图例、自动建立连接、内置数据标准、合规性检查、变更标记等;用于图纸变更、实际生产环境与图纸之间的逐一对应。
2、图纸自动比对。