如何搭建数据资源池?

 
楼主   帖子创建时间:  2022-06-19 19:59 回复:0 关注量:458

分别在视频专网和公安网搭建数据资源池。

视频专网数据资源池其主要的功能是实现对物联数据的汇聚、治理、关联、分析应用,定义数据标准,规范采集格式,提升数据准确性;公安网数据资源平台其主要功能是汇聚整合物联网数据、业务数据、零散离线数据以及互联网数据等外部数据源,对数据进行治理分析,形成原始库、资源库、主题库、业务库、知识库,并为上层应用平台提供数据服务。

数据资源池的设计理念充分考虑成都市公安局的应用现状,充分结合公安部《公安视频图像智能化应用系统技术指南》、《公安大数据规范性文件汇编第二部分:公安大数据处理》,从而实现数据接入汇聚、数据处理、数据治理、数据组织、数据服务等要求。


1、数据接入

数据接入是指根据业务需要,从不同数据来源中将符合质量要求的数据进行归集整合,完成从数据传输、数据处理、数据存储的过程,形成面向原始集成的、标准化、持久化且随时间变化的数据集合,为数据后续的开发、数据组织融合建库、数据分析挖掘建模等数据治理与应用服务提供支撑;

物联网数据汇聚使用Kafka消息队列技术,Kafka作为一种高吞吐量的分布式发布订阅消息系统,支持每秒百万级的写入请求。从而实现人脸、人体、车辆图片和智能结构化数据等大规模物联数据的汇聚整合。

业务数据汇聚使用ETL数据抽取工具,ETL负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。从而实现多个业务系统间跨平台的原始数据整合、快速实现多种数据源的数据抓取。ETL支持图形化向导式交互操作、批量数据采集、实时数据采集、网络爬虫集成、监控预警等功能;满足了公安用户将业务系统中分散、零乱、标准不统一的数据整合到一起的需求。

口袋数据汇聚是将一线公安民警业务人员积累的现场一手资料和经验知识等数据进行汇聚整合,适用于业务数据、文本,文件数据等对实时性要求不高的业务场景,一般采用全量和增量完成数据接入。


2、数据处理

数据处理是将接入成都市公安局现有需接入的各类数据进行提取、清洗、关联、比对、标识、分发等处理,为数据组织、数据服务等提供支撑,是整个数据治理体系中必不可少的过程。

对接各级各类应用系统,多种数据。通过各种方式将这些系统及数据接入后进行科学有效的数据治理实现“一套大数据资源体系”的建设目标,这其中对接入数据的智能多维处理是关键环节。

数据处理是按照数据接入环节的数据定义,针对规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不一的大数据特性,以数据应用为导向,通过规范化的处理,提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象。

数据处理包含数据提取、清洗、关联、比对、标识、分发环节,为数据组织和数据服务提供支撑。


3、数据治理

数据治理按照本期项目数据的种类进行分类,分为业务数据治理和物联数据治理,在数据治理过程中,同时会用到数据资源中心、数据标准中心、数据质量管理和数据作业中心。其中,数据的各种变形加工是整个数据治理设计的核心。

通过数据加工过程,形成各业务场景关注的主题数据、业务数据等与各类场景适配的存储格式,提供应用工程的基础。该处理过程相对比较消耗资源,既要考虑数据的实时性,又要考虑数据的准确性和高质量,应采用ETL和数据转换加载工具分离,实现一个较高的扩展能力。

数据转换加载工具,通过图形化的方式,快速对接ETL接口,并实现各类数据接口的处理转换等工作,是数据二次处理的设计理想工具。

数据转换加载工具是海量数据背景下治理深加工数据的核心构件,目的是根据应用系统使用场景,将ETL输出的数据进一步转化为各种格式的数据,高效、实时的加载到不同的目标库。系统处理性能、实时性、准确性决定了数据后续使用的效果。其能灵活兼容各数据格式,提供良好的配置支持。


4、数据组织

数据组织是按照一定的方式和规则对数据进行归并、存储、处理的过程,根据数据的治理程度和建模方式的不同,将数据按照不同的层次进行建模,从业务、数据存取和使用角度合理存储数据,将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。

数据组织是指根据数据应用需求, 遵循标准统一、流程规范、集约共享的组织原则,实现视频图像数据资源分类建库,进一步强化全国公安大数据内部关联。数据组织可分为原始库、资源库、主题库、业务库、知识库、业务要素索引库。


反对 0举报 0 收藏 0 打赏 0评论