多源信息融合软件的设计与实现
多源信息融合软件的设计与实现
摘 要:针对多源信息类型不一致影响信息利用效率的问题,文章在分析传统多源数据融合模型的基础上,研究了多源信息融合软件的架构及相关技术,设计并开发的软件具有较高的实用价值。
关键词:多源信息;信息融合;软件开发
多源信息融合是通过将多种信源在空间上和时间上的互补与冗余信息依据某种优化准则组合起来,产生对特点对象的一致性解释与描述。数据融合技术是指利用计算机对获得的信息,在一定准则下加以自动分析、综合,以完成所需决策和评估任务而进行的信息处理技术。主要包括对各类信息源给出有用信息的采集、传输、综合、过滤、相关及合成,以便辅助人们进行态势/环境判定、规划、探测、验证。 数据格式统一是进行数据处理的前提。由于信息的来源多,数据格式类别差异较大,对于数据处理带来不便。多源信息融合软件能够实现多源异构数据信息整合,对于充分利用信息资源、提高数据处理系统性能具有实用价值。 1 多源数据融合模型
根据对输入信息的抽象或融合输出结果的不同,可以将信息融合分为不同的3级,包括数据级融合、特征级融合及
决策级融合。
作为数据级的多源数据融合模型的结构如图1所示。多源数据经过数据清理、数据集成、数据变换,形成有效数据,通过数据处理形成数据挖掘分析等处理工作的有效数据。 数据清理是指去除源数据集中的噪声数据和无关数据,处理遗留数据和清洗脏数据,去除数据域的知识背景上的白噪声,考虑时间顺序和数据变化等。主要包括处理噪声数据,处理空值,纠正不一致数据等。
数据集成就是将多文件或多数据库运行环境中的异构数据进行合并处理,将多个数据源中的数据结合起来存放在一个一致的数据存储中。
数据变换就是将数据变换成统一的适合处理的形式。数据变换主要包括平滑、聚集、属性构造、数据泛化和规范化等内容。
2 多源信息融合软件设计 2.1 软件架构
多源信息融合软件的技术要求是实现多源异构数据向指定关系数据库进行可靠转换。就是按照指定关系数据库的表结构要求,实现多源异构数据的数据导入及格式转换问题。软件的组成框图如图2所示。软件主要包括2个主要模块,多源数据预处理模块和数据导入模块。数据预处理模块主要进行数据清理及格式转换,实现常用的数据(txt、xls、
关系数据库等数据)转换为目标数据库支持的数据格式。数据导入实现指定类型数据转换为指定结构数据。 2.2 关键技术
为了保证多源信息软件的可靠运行,需解决数据类型的适应性和扩展性问题,以及数据转换的可靠性、可预制性、数据转换过程的可监督性问题。 2.2.1 基于模块化设计的类型转换
模块化设计是指在对一定范围内的不同功能或相同功能不同性能、不同规格的产品进行功能分析的基础上,划分并设计出一系列功能模块,通过模块的选择和组合可以构成不同的产品,以满足市场的不同需求的设计方法。 虽然目前主流数据库管理系统都支持数据转换功能,但数据库管理系统支持的数据类型有限,对于新增类型数据,只能通过升级或更换数据库解决。即使对于支持类型的数据,有些情况不能实现正确转换,例如文本文件只能识别典型分隔符(制表符、空格等),不具有按指定分隔符实现转换功能。存在数据库版本问题,高版本数据不能直接转换低版本数据库数据。使用数据库系统的数据转换功能需有管理员权限,但为了保证数据库管理系统安全,不便于开放管理员权限,影响数据转换。
模块化设计思想在类型转换中的运用就是通过建立统一的类型转换输入接口,对于新增类型数据的转换问题,只
要将新增类型转换模块按照标准格式定义接口,就能实现新增模块的可靠增加,减少系统二次开发成本,有效提高系统的适应性及扩展性。 2.2.2 多线程编程技术
多线程机制是指在单个程序中同时运行多个线程完成不同的工作,每个线程与其他线程并发执行。多线程适合执行占用大量时间的操作,执行区分不同优先级的任务,能够满足用户界面在将时间分配给后台任务时仍能快速做出响应的需求。
由于需转换的数据量较大,使得数据转换时间较长,如数据不一致或不完整等问题将出现转换中断或数据遗漏等情况,所以及时了解转换进度以及实现异常快速响应对于保证有效转换具有重要意义。
软件采用多线程技术解决数据处理进度、过程可见性以及及时进行异常处理等问题。软件通过实时显示转换进度及转换状态,有利于实现转换进度和状态的有效监督。对于数据转换异常,能够及时终止转换进程或者调整转换策略,保证数据转换的有效性。
2.2.3 基于任务的数据导入
数据预处理获得的数据还需转换为数据处理所需格式的数据,即将转换的源数据可靠导入到指定格式的目的数据表。数据的可靠导入不只是在系统正常运行时保证大量数据
相关推荐: