充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

联机分析处理技术在加速器中的应用



    合肥光源HLS(Hefei light source)运行数据库采用Oracle作为管理数据库。运行于联机事务处理模式的HLS运行数据库主要收集束流状态和某些设备的工作状态等信息,加速器的日常运行生成了大量的数据。传统的联机事务处理系统对用户的单个请求提倡只引用少量记录,适合同时发生的小量数据在线分析处理。机器研究人员要求在尽量短的时间内对这些海量数据进行复杂的分析,并将结果用图形直观显示。核物理试验数据处理过程中常用的工具软件有GNUPLOT、XFG、MATLAB、ORIGIN、MATHEMATIC。然而,这些工具要求数据以特定文件存放,在处理之前需将数据库中数据导出并转换为特定文件格式,处理完成后再将计算结果存入数据库中。这种分析方法并没有充分发挥关系数据库的分布式运算能力,运行效率很低,有时甚至是不可能实现的。联机分析处理技术是一门新兴的软件技术,专门设计用于支持复杂的分析操作。它以数据仓库为基础,通过预处理将统计数据以多维形式组织起来。该多维模型将数据看作数据立方体形式,数据立方体由维和度量定义。维是对主题的一种类型划分,维的层次表示细节程度;度量是分析数据集合的计算值。联机分析处理技术从多角度、多侧面观察数据库中的数据,涉及大量数据在汇总级的计算,如统计极值、均值、标准方差。

    本工作依据现有的运行数据库建立数据仓库,并在此基础上开展联机分析处理。

1 系统框架

    采用微软的数据库服务器SQL Server 2000及微软的分析服务器建立联机分析系统(图1),系统主要分3部分:数据预处理、数据仓库的建立和实现联机分析,系统的性能很大程度上依赖于CPU和内存,因此,采用1台高性能的惠普服务器(HP ProLiant DL360 generation 3)。

图1 系统框架
图1 系统框架


    1.1 数据预处理

    数据预处理主要包括4个过程:数据清洗、数据集成、数据转换和数据消减。数据清洗是填补遗漏的数据、平滑噪声数据、识别和除去异常,常用的方法有Bin方法、回归方法;数据集成是将来自多个数据源的数据合并到一起,一方面使数据一致,另一方面消除数据的重复;数据转换是对数据进行规格化操作,即将数据限定在特定范围;数据消减是缩小数据的规模,包括数据聚合、数据压缩。

    本工作设计的联机分析系统是一种通用的工具,但成型于HLS运行数据库。HLS运行数据库分为参数数据库和历史数据库。参数数据库包括控制系统参数、设备参数,一般物理常数也是参数数据库的一部分。历史数据库细分为以下子系统:真空、束流测量系统、主电源系统、校正铁电源系统、直线输运线电源系统、注入电源系统;辐射防护系统和运行日志。运行数据库结构示于图),数据仓库是面向主题的,运行数据库不能完全满足建立数据仓库和联机分析的要求,需从现有的数据中获取联机分析所关注的信息,并将它们重新组织在一起。故在建立数据仓库之前进行数据预处理,数据预处理过程在SQL Server 2000下完成。

图2 数据库结构
图2 数据库结构


    例如:电源电流是一分析主题,每台电源设备对应B个或多个同类型的磁铁,运行数据库中电源电流按子系统分开保存,HLS的电子储存环是一个四重对称的TBA(trple bending archromat)结构,由12块二极铁、32块四极铁和16块六极铁构成,供给主电源系统有12台电源,对应Oracle数据库表结构列于表1。


表1 主电源系统电源电流
表1 主电源系统电源电流


    该表具有5个字段,由于所采用的Oracle8i系统中时间只能精确到秒,这是不够的。所以增加一个字段msecond存储秒以下的时间值,用于机器研究过程中瞬态过程的跟踪。

    中间数据库中电源电流表是对所有电源电流的汇总,表结构列于表2。


表2 中间库电源电流
表2 中间库电源电流


    数据预处理经历了以上所有过程。例如:对于束流测量系统,机器实际运行发现,服务器程序可能会错误地发送束流微分寿命数据。在中间数据库中编制存储过程,用于清除这些错误数据。SQL Server 2000设置调度包,周期性地运行数据转换包(每小时1次),将新采集到的试验数据从运行数据库导入到中间数据库。

21/212>


 

评分:0

我来说两句