充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

决策树算法在焊接工艺设计中的应用



0 前 言

    汽车产业是我国工业的支柱产业之一。汽车中各总成均是直接或间接地安装在车架上,作为汽车结构的重要组成部分,车架在行驶过程中不仅承受着车体自身质量及装载货物的重力作用。而且还承受着汽车运行过程中的载荷作用。为避免某些焊接缺陷对焊接接头变形以及对焊件强度的影响。保证汽车行驶的安全性,选用合理的焊接方法及工艺参数,保证焊缝具有良好的焊接质量是十分必要的。

    车架部分的焊点数量较大,而不同的焊点根据板材牌号以及厚度的不同组合会选用不同的焊丝直径和不同的工艺参数,其焊接信息的规模之大,容易在人工管理过程中出现问题,重复、遗漏的现象时有发生。根据工人以及设计人员的设计经验,无法对设计过程中获取的大量参数进行科学分析,也就无法获得可能潜在的信息和规则。在焊接工艺设计中确定焊接参数,不仅可缩短投产前期的设计时间,节约生产成本,而且还能够提高焊接接头的强度,减少焊接变形的产生。

    数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、并且潜在有用的信息和知识的过程。数据挖掘是知识发现的核心环节。其主要任务有分类、聚类、回归分析、概括等。其中,决策树算法是一种逼近离散函数值的方法,其分类精度高,生成的模式简单,并且对噪声数据有很好的健壮性,因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。

    本文针对在汽车生产过程中占有举足轻重地位的CO2气体保护焊工艺设计过程,采用决策树的数据挖掘方法分析各种焊接工艺因素对焊接接头成形的影响,挖掘出隐含的工艺知识,有效地指导实际生产,极大地提高了焊接接头的质量和性能。

1 决策树的基本原理

    决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。

    1.1 决策树的构造方法

    决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值:树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值就有几条边。树的叶子节点都是类别标记。

    由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:①生成最少数目的叶子节点;②生成的每个叶子节点的深度最小;③生成的决策树叶子节点最少且每个叶子节点的深度最小。

    ID3算法是最为经典的决策树学习系统,采用自上而下的不回溯策略,能保证找到一棵简单的树。其工作过程为:首先选出最有判别力的测试属性,把数据分成多个子集,每个子集又选择最有判别力的另一测试属性进行划分.如此一直进行到最后划分出的所有子集仅包括同一类型的数据为止。最后得到一棵决策树,可以用它对新的例子进行分类。ID3中测试属性的选取是以信息熵的下降速度为标准。信息熵的下降也就是信息不确定性的下降。

    ID3是在2个假设的基础上采用基于信息熵的方法,把对象集C分为2类,其中P类对象有p个,N类对象有n个,假设为:任何一个正确的决策树,对所有对象依据其所占的比例来进行分类,即对于任意的对象属于P类的概率是,属于Ⅳ类的概率是

    当用一个决策树对一个对象进行划分时,返回一个类别。一个决策树可以被看成是分类信息的来源,决策树对做出正确划分需要的期望信息熵是:

    式(1)

    假如条件属性A有属性值{A1,A2,A3,…,Av},被用作决策树的根时,它将对象子集划分为{C1,C2,C3,…,Cv},其中,Ci是属性A取Ai的对象,包括P类pi个对象,包括N类ni个对象,那么,子树Ci的期望信息熵是I{Pi,ni},对于树根A划分整个树所需的期望信息熵:

    式(2)

    通过属性A来分支的信息增益是:

    式(3)

    选取属性作为决策树节点的原则就是依据能够得到最大信息增益的属性来分类形成树,然后ID3算法依次检测每个候选属性,用相同的处理过程递归地形成决策子树C1,C2,C3,…,Cv。

    1.2 决策树的改进

    本文中采用决策树C4.5算法进行知识的发现,C4.5算法继承了ID3算法的全部优点,并且进行了改进,提出了用增益比代替增益进行属性的选择,增益比例的定义为:

    式(4)

    其中,确定属性A本身需要的信息熵是:

    式(5)

    采用增益比去划分属性得到的决策树,其中每个节点取具有最大信息增益比的属性。

    1.3 决策树的修剪

    完整的决策树生成以后,一般不能用于对新数据分类或预测,主要原因是:完整的决策树对训练样本特征的过度拟合。对决策树进行修剪也是最常用的简化决策树的方法,它主要包括预先剪枝和后剪枝。预先剪枝是在建树的过程中,当信息增益达到某个预先设定的阈值时,节点不再继续分裂,内部节点成为一个叶子节点。后剪枝是在允许决策树得到最充分生长的基础上,根据一定的规则,剪去决策树中的那些不具有一般代表性的叶节点或分枝。

    遍历形成的决策树,从根到叶就发现若干条路径,每一条路径对应一条规则,整棵树就形成了一组析取表达式规则,然后详审规则集去发现最有用的子集,最后的规则集用计算机可读的格式存储在一个文件中。

21/212>


 

评分:0

我来说两句