支持向量机模型与应用综述 您所在的位置:网站首页 支持向量机综述 支持向量机模型与应用综述

支持向量机模型与应用综述

#支持向量机模型与应用综述| 来源: 网络整理| 查看: 265

1 引言

支持向量机(Support Vector Machine, SVM)是一种监督学习模式下的数据分类、模式识别、回归分析模型, 其具有强大的数学基础及理论支撑. 1992年至1995年是其形成阶段, Corinna Cortes和Vapnik领导的研究小组的成员于1995年正式提出了支持向量机技术[1], 在提出之初, 其未能引起研究人员的充分重视, 但随着新兴技术的涌现和发展需求, 为了更好理解研究新分类识别技术, 例如神经网络的科学性, 基于统计学习理论的支持向量机技术以其特有优势重燃研究者的探索兴趣.

为将支持向量机技术广泛应用于实际生活中并且取得良好的检测结果, 研究人员设计不同的核函数方法分别应用于简单支持向量机以达到期望结果. 通过深入研究支持向量机技术的理论基础和提出背景下, 了解到核函数方法的提出和运用在保持支持向量机优势的同时修补了其用于处理非线性不可分数据的劣势. 在实际应用中, 只有选择最佳的核函数来构造相应的核支持向量机, 才能更准确有效地处理模式分类问题, 下文对核函数方法及其实现进行详细介绍.

目前, 支持向量机分类技术已经广泛应用于机器学习、模式识别、模式分类、计算机视觉、工业工程应用、航空应用等各个领域中, 且其分类效果可观. 例如, 在文字检测识别领域应用中, 对于文本文档, 主要针对手写文本, 能够实现文本关键词、特殊意义短语的识别且对于不同语言都有具体的分析研究; 在人体部位识别领域应用中, 可针对于手掌、耳朵、人脸及面部表情进行有效识别; 在车辆交通检测领域应用中, 可针对车牌、车载系统、车辆零件及车辆行驶路况进行可靠检测; 在医疗领域应用中, 可针对骨龄估计、跌倒监测、医疗咨询框架以及依据人脑图像进行痴呆症、抑郁症分类的模式识别. 除了广泛应用于上述领域, 研究人员将该技术投入到其他领域中, 大大扩展了其应用范围.

基于支持向量机在实际应用中的流行性, 研究人员尝试通过以下两种方式对其进行改进以期望提高其分类性能. 第一种是将支持向量机模型与其他分类模型相结合, 例如SVM+AdaBoost、SVM+KNN、SVM+JCR、SVM+HMM等. 第二种是改进核函数但其实现自改进, 例如PmSVM、DAG-SVM、ITA-SVM、HIK-SVM等.

本文首先从数学背景下简单介绍支持向量机技术, 接着从基本构成深入分析该技术, 最终研究其在各个应用领域中的作用. 通过本文, 期望读者在简单了解支持向量机技术的基础上提出新的改进方法并将其应用于更多其他未发展领域中.

2 数学模型

支持向量机的提出基于统计学习理论和结构风险最小化准则, 统计学习理论避免分类模型受样本量的限制, 结构风险最小化准则避免模型训练时出现的模型问题. 在这样的背景下, 支持向量机技术的推广及其判别能力较强, 其最终的目的是根据输入数据样本寻找到一个最优分类超平面.

支持向量机最优分类面的求解问题可转化为求数据样本分类间隔最大化的二次函数的解, 关键是求得分类间隔最大值的目标解. 以两类线性可分数据为例, 一类数据用圆形代表, 另一类数据用菱形代表, 则最优分类线示例图如图1所示.

图1中, margin代表分类平面间的最大分类间隔, 处于分类线两侧的数据点为待分类的样本. 在该例图中, 基本分类判别面方程如公式(1)所示, 若对线性可分的样本集进行数据归一化处理, 分类间隔表达式如公式(2)所示.

$w^{{T}}x + b = 0$ (1) $2/\left\| w \right\|$ (2) 图 1 Fig. 1 图 1 最优分类线示例图

基于上述分析, 通过加入有效约束条件, 引入拉格朗日乘子后, 解得最优分类判别函数, 且其参数的确定依赖于支持向量. 实际应用中, 核函数结合最优分类判别面形成的支持向量机模型解决了其只处理线性可分样本的弊端, 两者结合形成最终的支持向量机模型.

相应的通用支持向量机分类函数表达式如公式(3)所示.

$f\left( x \right) = {\mathop{ sgn}} \left\{ {\sum\limits_{i = 1}^k {a_i^*} {y_i}K\left( {{x_i} \cdot x} \right) + {b^*}} \right\}$ (3)

公式(3)中, $a_i^*$ 和 $b_i^*$ 是调控支持向量机确定最优分类平面的参数.

3 核支持向量机

支持向量机是基于两类线性可分的样本数据发展而来, 但是在实际应用中, 需要识别和分类的数据大多数情况下都处于非线性不可分状态, 并非理想化状态. 由此, 研究人员设计一个核函数应用于支持向量机的分类过程中解决该问题, 其主要目的是将原低维空间中非线性不可分数据映射到高维空间中, 即解决低维特征空间无法构造分类超平面的问题. 支持向量机的应用性能关键在于核函数方法的选取.

核函数方法计算公式如下所示:

$K\left( {X,Z} \right) = \left\langle {\phi \left( x \right) \cdot \phi \left( z \right)} \right\rangle $ (4)

公式(4)表示在特征空间直接计算内积, $\phi $ 代表x映射到内积特征空间的过程.

研究人员在解决不同的数据分类问题的时候需选择不同的参数, 简单来说就是选择不同的核函数. 核函数主要分为线性核、多项式核、Sigmoid核和Gauss径向基核.

(1) 线性核

$K\left( {{x_i},x} \right) = x_i^{{T}}x$ (5)

公式(5)代表数据所处的原空间中的内积计算. 其作用是统一两空间数据形式, 即数据处于原空间的形式与数据经映射后所处空间的形式.

(2) 多项式核

$K\left( {{x_i},x} \right) = {\left( {\gamma x_i^{{T}}x + r} \right)^d}$ (6)

公式(6)代表多项式空间中的内积计算, 注重数据的全局性. 其计算过程不同于线性核, 这是由于直接在多项式空间计算会造成维数灾难, 所以其计算包含一个转换过程, 即从高维空间转到低维空间, 利用低维空间计算其内积值.

(3) Sigmoid核

$K\left( {{x_i},x} \right) = \tanh \left( {\gamma x_i^{{T}}x + r} \right)$ (7)

公式(7)实现将Sigmoid函数作为核函数, 其近似为多层感知器神经网络, 注重样本数据的全局最优值.

(4) Gauss径向基核(RBF)

$K\left( {{x_i},x} \right) = \exp \left( { - \gamma {{\left\| {{x_i} - x} \right\|}^2}} \right)$ (8)

公式(8)可将原始特征空间映射到无穷维特征空间中, 其性能好坏在于 $\gamma $ 参数的调控, 局部性较强. $\gamma $ 参数选取的值较小, 映射后的特征空间近似一个低维空间; $\gamma $ 参数选取的值较大, 易造成过拟合问题. 正因为其具有较强的可调控性, 其在实际应用中更为广泛.

实际应用中, 研究者通过权衡各个核函数的优势与劣势, 通常将最佳的核函数应用于特定数据分类领域中. 将上述介绍的核函数与支持向量机结合后用于实验中的Matlab代码实现如表1所示.

4 应用 4.1 文字检测领域

杨文敏等[2]将SVM分类器应用于基于句子级别的文本检测系统中, 其针对于表达含义不明确的词语的信息抽取分类. 将从文档句子中所提取的词特征作为分类器的输入向量, 实验结果表明, SVM能够快速有效地识别文本不确定信息, 在该方法中, 研究人员可尝试对段落级别的文本进行分析进一步提高分类正确率.

表 1(Table 1) 表 1 核函数的Matlab实现 核函数 函数实现 线性核 svmStruct=svmtrain(train_data, train_target, ‘Kernel_Function’, ‘linear’) 多项式核 svmStruct=svmtrain(train_data, train_target, ‘Kernel_Function’, ‘polynomial’) Sigmoid核 svmStruct=svmtrain(train_data, train_target, ‘Kernel_Function’, ‘mlp’) Gauss径向基核 svmStruct=svmtrain(train_data, train_target, ‘Kernel_Function’, ‘rbf’) 表 1 核函数的Matlab实现

张虎等[3]采用基于集成学习策略SVM分类法对中文文本中具有欺骗性的信息进行检测识别. 通过改进的二分k-均值划分法划分实验中的训练样本, 进而对各个训练样本子集构建相应的分类器, 称之为子分类器. 最终通过集成所有子SVM分类器的结果确定实验的分类效果, 研究人员对其良好的识别率进行分析总结, 该检测方法类似于多类别分类SVM中的一对多法, 其不足之处在于训练样本量不丰富, 实验结果可靠性需进一步加强.

Ryu等[4]提出一种基于结构化学习的SVM分类手写文档图像. 通过结构化学习技术确定SVM参数, 并构造松弛结构SVM训练估计最优的参数. 结构化SVM方法降低识别的计算复杂度并解决了手写文档不规则和多样化的干扰因素. 该文仅在拉丁语和印度语文档中证明其可靠性, 可通过将该方法应用于英文以及汉语文本中, 扩大其文本应用范围.

Elleuch等[5]设计一种基于支持向量机的深度学习模型(DSVM)应用于手写识别系统. DSVM使用dropout技术, 能够选择关键的数据点的同时避免过度拟合, 对识别对象进行高效地分类. DSVM是由堆栈支持向量机构成, 既用于从原始图像中自动提取特征又能够依据其利用基于RBF核的多类SVM进行图像分类.

Kessentini等[6]提出了一种新型识别手写文档关键词系统, HMM+SVM. 该方法设计: (1)利用HMM模型灵活快捷地定位关键词及其字符边界; (2)在上述基础上, 利用基于SVM的验证系统并结合字符概率评估关键词.

Lakshmi等[7]采用模糊支持向量机识别文本中具有特殊意义的实体. 该命名实体识别方法是将SVM结合模糊模块学习的, 基于“一对多”的分类技术. 训练阶段, 将所提取的文本特征表示输入SVM分类器进行训练; 测试阶段, 采用模糊SVM对测试样本进行判别分类. 模糊规则的引入是提高系统处理多个相似格式的文本的区分能力, 确定实体所属的最合适类别.

在文本识别领域中, SVM分类器在各个具体应用中的各方面分析如表2所示.

表 2(Table 2) 表 2 文本识别中SVM应用分析 作者 应用对象 优势 劣势 杨文敏等[2] 不确定性文本信息 词特征提取, 提高检测效率 基于句子级, 忽略上下文联系 张虎等[3] 欺骗性文本识别 运用集成学习最大化识别准确性 样本语料信息量需进行扩增从而增强实验结果的可靠性 Ryu等[4] 拉丁、印度语言 结构化学习抗干扰能力强 选取语言代表性不强 Elleuch等[5] 手写文本图像 结合深度模型高效识别目标 应尝试使用多种核函数方法 Kessentini等[6] 关键词检测 联合学习且快速定位目标 检测率需进一步提高 Lakshmi等[7] 特殊意义文本 引入模糊学习提高模型区分力 检测实时性有待提高 表 2 文本识别中SVM应用分析 4.2 医疗领域

Zhu等[8]基于非线性内核SVM提出一种高效安全的在线医疗预测框架(eDiag). 通过轻量级多方随机屏蔽和多项式聚合技术改进非线性SVM, 该实验选取Gauss核函数作为SVM核函数. 确定原非线性SVM的参数后, 通过定义相应的分类标准改进原分类器, 该方法不但确保在线医疗咨询信息的安全性且有效降低服务成本, 但由于其为在线咨询系统, 检测实时性较高因此需提高计算效率.

Cheng等[9]提出了一种自构建的级联AdaBoost支持向量机分类器并将其用于检测识别目标是否跌倒, 计算实验人员日常活动的加速度信号并将其作为该分类器的输入向量. 级联AdaBoost-SVM自动选择几个最优弱分类器形成强分类器, 在此基础上, 自动确定何时使用SVM替换AdaBoost分类器. 此方法通过与现存其他方法比较, 被证明具有最高的准确率及最低的误报率.

徐胜舟等[10]提出一种改进的SVM检测识别乳腺肿块. 该改进方式是利用改进的遗传算法(GA)优化SVM参数, 即设计一种新的个体适应度的方法计算方法用来选择不影响分类性能的同时特征数目较少的特征集. 在保证识别准确性的同时, 研究人员采用序列最小优化学习算法(SMO)提高SVM检测速率, 降低计算时间.

Harmsen等[11]将支持向量机分类器用于检测、识别、评估人体骨龄. 首先, 实验人员从采集图片中提取感兴趣的目标区域并对其进行图像检索以保留图像特征; 其次, 将所提取的关键特征用于构建SVM分类模型之后, 使用交叉验证法评估其测试性能; 最后, 分类年龄未知的手骨图像. 该文通过将SVM与互相关技术结合, 为每个年龄类提供原型图像, 实现自动化有效地评估人体骨骼年龄, 在此基础上, 可通过将样本集扩增至万张以验证该方法检测性能的有效性.

Bron等[12]依据支持向量机的权重向量对特征进行改进选择后进行痴呆分类. 该方法简单描述如下: (1)权重向量滤波法, 选择绝对最高权重的特征; (2)权重向量的RFE法, 在每次迭代中删除具有最低分类器权重的特征的子集. 该文一大亮点是提出将RFE法应用于SVM进行特征选择并将该SVM用于目标分类, 可通过优化决策阶段的SVM参数进一步提高识别性能.

Jie等[13]采用基于SVM的方法研究人脑图像区分抑郁症中的双相情感障碍. 该文将一个向前向后搜索策略(贪婪学习算法)应用于线性支持向量机中, 开发一种新型特征选择方案SVM-FoBa. 在此过程中, SVM-FaBo中的前向策略以SVM目标函数的最大减量表示特征, 后向策略用来消除前向步骤中的错误特征.

在医疗领域中, SVM分类器在各个具体应用中的各方面分析如表3所示.

4.3 人体识别领域

刘小建[14]对手势进行分区域识别, 利用多分类SVM实现. 从已知手势样本图像细分后的各个区域中提取特征, 将所提取的3个关键特征描述子描述手势. 选取核函数为一个非线性径向基函数(RBF), 采用网格搜索法调整确定SVM参数, 实现高效准确识别手势.

李昆仑等[15]采用基于径向基核函数的SVM分类器中并将其应用于掌纹识别中. 利用改进的PCA算法分别提取训练图像和测试图像的特征, 确定的训练集用来训练最佳SVM分类器, 训练好的SVM分类器识别确定的测试集. 相较于传统特征匹配法, SVM决策既能够缓解样本不足又可以降低计算量.

表 3(Table 3) 表 3 医疗领域中SVM应用分析 作者 应用对象 优势 劣势 Zhu等[8] 在线医疗咨询系统 具备良好的检测率从而保障系统安全 由于应用的实时性要求较高该方法需降低时间运行成本 Cheng等[9] 跌倒行为检测 识别准确率高 检测时间成本需进一步降低 徐胜舟等[10] 乳腺肿块 降低计算时间 无法确保所提取特征的关键性 Harmsen等[11] 估计人体骨龄 图像特征恢复力强 手骨样本量需进行平衡扩增避免小数据量样本影响性能 Bron等[12] 痴呆症 有效提高检测性能 优化过程过于依赖权重向量值 Jie等[13] 抑郁症 表示特征后能通过后向搜索策略及时检测删除错误特征 识别准确率有待提高 表 3 医疗领域中SVM应用分析

Tyagi等[16]通过支持向量机利用基于遗传算法的局部三元模式(GA-LTP)进行人脸识别, 该方法在利用局部三元模式对人脸图像进行特征提取的基础上为进一步降低计算时间、提高准确率, 采用遗传算法进行特征选择. 最终, 将测试特征集输入通过训练特征集训练好SVM分类器后进行目标的识别检测.

Bagla等[17]采用SIFT和SVM结合的方式进行人脸识别. 将从训练图像中提取的SIFT特征进行关键特征选择后作为SVM分类器训练样本, 在训练好的支持向量机模型中输入测试样本图像, 分析评估该模型的分类性能, 需进一步将其用于人脸大数据库中进行识别, 分析并发现其性能的改进之处.

黄忠等[18]运用两级SVM对人脸表情图像进行识别. 该两级SVM是由以下构成: (1) SVM对人脸各个局部区域所提取的特征进行分类; (2) 将局部类别与人脸整体类别融合后用SVM对其进行分类判别. 该文中特征提取采用AAM-SIFT描述法且根据特征的关键性赋予相应权重, SVM对其快速有效地识别. 但是, 该方法只对标准正面或特定偏移角度的人脸检测性能较好.

Adeyanju等[19]研究分析比较了将不同核函数方法结合同一支持向量机模型的分类性能, 该方法的实现基于七种人脸面部表情的识别分类, 且采用四种不同核函数方法. 研究者分别将径向基核、线性核、二次核及多项式核应用于SVM中, 实验结果表明, 基于二次核函数的SVM性能最优, 平均准确率达到99.33%.

Yao等[20]比较了SVM和基于AdaBoost分类器应用于识别人脸的效果. 通过主成分分析法(PCA)选择关键的特征并将其作为各个分类器的输入向量. 从实验结果可明显观察到PCA+SVM对于不同环境下人脸面部识别都优于PCA+AdaBoost.

Bashbaghi等[21]针对不同面部表情的静态视频图像提出了一种可靠稳定的多分类器集合识别系统. 该方法主要应用于单个人进行识别, 即对每个目标分配示例SVM(exemplar-SVMs), 为每个e-SVM提供高质量的样本进行训练. 通过视频中捕获的非目标个体面部选择具有区分力的特征子集、训练样本和集合融合函数. 相较于其他面部图像识别方法, 其抗干扰能力较强.

Hadchum等[22]将SVM与模糊逻辑结合应用于根据人脸面部进行年龄估计的系统中. 将从人脸皱纹和肤色中所提取的特征作为SVM的输入向量, 模糊逻辑构造用于点年龄估计的规则. 通过SVMs最终估计人类年龄的五个年龄组, 并将其分类性能与其他五种方法比较, 该实验方法的识别准确率最高, 在实际生活中, 人脸在20岁至50岁之间变化程度较小, 为进一步提高其识别率, 研究者可将此年龄区间细分, 扩增年龄组, 增强该方法的区分能力.

Omara等[23]采用成对的SVM分类器对人耳进行有效识别能避免每个人耳朵图像有限造成的样本不足问题. 采用深度模型所提取的深度特征作为SVM输入向量, 取得较好识别率. 成对SVM依赖两个输入样本, 且预测该样本是否属于同一人, 在此基础上, 设计成对内核并与线性内核结合用于识别. 实验结果表明, Pairwise SVM识别率达到98.3%, 优于传统SVM.

孙炜等[24]采用线性SVM作为检测行人的分类器并将其不断优化. 首先, 将所采集的图像划定正、负样本集并提取所需的目标特征; 其次, 训练SVM. 实验中, 使用SVM检测无目标图像时会出现误差, 该优化方式是将错误识别的样本选取后加入负样本集中, 多次迭代后增强SVM分类效果.

在人体识别领域中, SVM分类器在各个具体应用中的各方面分析如表4所示.

表 4(Table 4) 表 4 人体识别中SVM应用分析 作者 应用对象 优势 劣势 刘小建[14] 手势识别 SVM参数优化后检测性能好 关键特征数目较少 李昆仑等[15] 掌纹检测 有效减少计算量 所提取的特征可能缺乏代表性 Tyagi等[16] 人脸图像 检测准确率良好 特征提取步骤中耗费较长时间 Bagla等[17] 人脸图像 提取有效的局部关键特征 小型样本数据集 黄忠等[18] 面部表情 提取全面的特征描述信息 难以准确识别偏移角度过大的表情图像 Adeyanju等[19] 面部表情 比较多种核函数方法并选取最优核函数 计算成本高 Yao等[20] 人脸面部检测 分类性能较优 可应用其他特征提取方法提高效率 Bashbaghi等[21] 面部表情 稳定性强 实验过程中需提供高质量样本 Hadchum等[22] 面部年龄估计 引入模糊逻辑规则识别模型区分力强 年龄组类别数过少可扩充为8至10组提高识别率 Omara等[23] 人耳图像 不同内核结合提高检测率 需进一步成倍增加样本量 孙炜等[24] 行人 合理高效地降低识别错误率 计算复杂性较高 表 4 人体识别中SVM应用分析 4.4 车辆交通领域

张笑等[25]采用SVM识别偏斜车牌. 该实验中将原偏斜车牌图像通过颜色定位、扩大旋转、仿射变换后作为SVM训练样本. SVM训练参数为自动训练参数, 即训练的同时对样本进行标记. 在此过程中, 对车牌图像定位后, 使用SVM测试, 有效解决偏斜车牌难以识别的困难.

王锐等[26]针对智能交通系统中利用浮动车监测道路交通状态的问题, 采用“一对一”法的SVM分类器分类数据. 该文依据经验选取RBF作为SVM核函数, 分类交通状态等级准确率达到95%. 由于该实验采用默认参数, 研究人员可以尝试进一步优化改进SVM参数来提高检测性能.

张华伟等[27]针对汽车主减速器实现了一种基于混合核的SVM决策方法. 实验中, 将不同核函数结合后进行性能比较, 结合方式如下: (1) 线性核+径向基核; (2) 多项式核+径向基核; (3) Sigmoid核+径向基核. 此外, 通过遗传算法(GA)优化SVM参数. 最终, 实验结果表明“多项式核+径向基核”方式下识别主减速器的故障模式最佳.

胡庆新等[28]采用基于直方图交叉核核函数的支持向量机(HIK-SVM)方法检测车辆, 该方法很大程度上提高了分类速度, 降低计算复杂性. HIK-SVM中关键是对特征向量的各位特征值进行排序比较后选择性累加, 减少计算量, 保证实时性检测. 该方法在复杂交通状态下识别性能有待提高.

Wu等[29]以SVM对高光谱图像分类为例分析车载处理系统. 该文中对SVM分类器的数据水平和算法水平的错误进行分析后发现其分类的误差容忍度较高, 为节约成本提供了可能. 在此基础上, 提出基于SVM的近似计算框架, 该方法不但提高分类准确性而且降低内核累积计算过程的能量消耗.

在车辆交通领域中, SVM分类器在各个具体应用中的各方面分析如表5所示.

表 5(Table 5) 表 5 车辆交通领域中SVM应用分析 作者 应用对象 优势 劣势 张笑等[25] 车牌 准确定位车牌图像关键特征 样本预处理步骤较为复杂 王锐等[26] 道路状况 检测实时性较高 采用模型默认参数未进行参数优化 张华伟等[27] 汽车主减速器 选取最佳核函数组合方式 尝试使用其他参数优化方式提高性能 胡庆新等[28] 车辆检测 识别速率高 检测准确率较低需提高其抗干扰力 Wu等[29] 车载处理系统 容错率较高节约成本 可尝试直接改进SVM如优化参数增强其识别可靠性 表 5 车辆交通领域中SVM应用分析 4.5 其他

冯逍等[30]采用三维Gabor滤波器与支持向量机结合的方法对高光谱遥感图像进行有效分类, 该方法面对的研究对象是流域区域. 根据所计算的波段指数选择波段作为SVM分类器的训练样本和测试样本, 通过SVM对输入样本进行分类决策. 该实验对比分析了采用不同核函数的SVM分类器的分类性能, 其中RBF核函数分类效果最佳且SVM解决了样本不足的劣势.

Zhang等[31]利用两级级联SVM针对自然图像的地表包围盒生成对象提案, 两级SVM如下所述: 第一级SVM, 独立学习预定义的量化尺度或纵横比; 第二级SVM, 全局SVM在学习所有的量化尺度或纵横比基础上并对其进行校准. 最终, 将校准后的窗口作为输入, 产生最终对象提案, 实验证明该方法具有更高的计算效率.

陈欣欣等[32]选取所研究光谱图像的感兴趣区域并通过小波变换(WT)法对数据进行预处理, 将提取的关键波段信息作为SVM的识别样本. 此外, 采用选择性搜索算法(SS)识别样本波段比图像的特征, 最终采用该方法分类受损的梨图像的准确率达到93.75%, 检测过程中易受样本形状、光照条件等外在条件的干扰, 可通过增强其抗噪声能力提升方法性能.

Bo等[33]提出一种新颖的分类识别方法, 即采用惩罚融合规则组合联合协同表示(JCR)模型和SVM模型对地表不同植物的高光谱图像进行检测识别. 利用JCR模型学习训练样本自身信息的同时探索样本的邻域信息, 并将JCR提取出的中间特征训练多类SVM分类器. 通过相同条件下的定量分析比较, 该实验所提出的方法比之前的方法分类效果更好.

林荫[34]使用模型组合法(KNN-SVM)解决研究对象高维特征和样本不均的问题. 首先, KNN根据所提取特征对样本进行选择确保样本平衡性, 其次, 用所选择样本训练好SVM后, 将其应用于垃圾邮件识别. KNN-SVM处理垃圾邮件不但保证实时性而且正确率达到98.05%, 其不足之处是实验中该方法只应用于中文邮件数据集.

苑玮琦[35]采用基于径向基核函数的SVM分类器检测虹膜纹理: 坑洞纹理和放射沟纹理. 在此过程中, 还将所定义的相应的约束条件与SVM结合, 确认坑洞纹理. 实验的检测率达到90.25%, 但是输入SVM分类器的特征向量由于抗干扰能力弱从而在一定程度上影响最终识别结果, 需进一步提高方法性能的鲁棒性.

Shi等[36]解决强干扰情况下造成的数据缺失或数据变动的现象, 即非稳态数据集的识别和分析问题. 通过改进的TA-SVM(ITA-SVM)对非稳态数据集进行快速有效地处理, ITA-SVM利用支持向量机子分类器共享一个共同向量, 保持了TA-SVM的优势, 同时有效降低了计算复杂性. 对于采样时间不固定或者子数据集长度不固定, 如何合理确定共同向量还有待研究.

Wu等[37]使用加性核函数处理大规模支持向量机分类问题. 首先, 在学习过程中设计一个基于一般非线性核函数的线性回归支持向量机框架; 其次, 利用非对称解释变量的函数对所有加性核函数, 提出一个能量平均SVM模型(PmSVM). 实验表明, 该方法在识别准确性和学习速率取得了显著地提升, 但未能找到适应于一般情况下的非对称解释的规则变量来提升内核学习, 由此该方法性能的可靠性及通用性需加强.

Kosaka等[38]设计一种解决感应电机故障分类检测问题的新方法, 其将递归小波包变换(RUWPT)与有向非循环图支持向量机(DAG-SVM)组合. 该实验从训练及测试时间、准确性方面比较不同的多类SVM方法, DAG-SVM最能有效识别电机故障且达到99%的分类精度.

在其他领域中, SVM分类器在各个具体应用中的各方面分析如表6所示.

表 6(Table 6) 表 6 其他领域中SVM应用分析 作者 应用对象 优势 劣势 冯逍等[30] 流域高光谱图像 通过比较各核函数性能择优选用 计算复杂性高 Zhang等[31] 自然地表检测 增加校准步骤提高识别率 对于复杂对象分类模型单一 陈欣欣等[32] 受损梨的光谱图像 采用选择搜索算法选取样本的关键特征降低计算成本 易受噪声干扰 Bo等[33] 识别地表植物 能搜索到样本的邻域信息 可尝试优化分类器各项参数进一步提高检测性能 林荫[34] 垃圾邮件 识别率高且实时性强 只针对中文垃圾邮件监测 苑玮琦[35] 虹膜纹理检测 引入合理约束条件改进SVM 抗干扰能力有待提高 Shi等[36] 非稳态数据集 解决数据缺失与变动问题并且降低计算复杂性 受采样时间和数据集长度的约束 Wu等[37] 大规模数据 有效提升识别率和学习速率 需进一步制定学习规则提升核函数性能 Kosaka等[38] 感应电机故障识别 良好的检测率 可尝试进一步优化模型确保结果稳定性 表 6 其他领域中SVM应用分析 5 总结与展望

本文在简单介绍支持向量机的数学模型和发展过程的基础上, 研究分析其在各个不同领域中的应用效果. 同时, 通过选取具有代表性的文章阐述支持向量机在分类识别应用中的不同作用, 由此证明其推广能力强、应用范围广的优势. 但在目前样本数据日趋复杂化及各种新兴分类识别技术的涌现, 研究者需从以下几个方面探索改进支持向量机技术.

(1) 改进核函数. 目前, 已有研究人员将多种核函数结合起来使用, 在了解各个核函数方法优势的基础上, 进一步最大化发挥其优势; 给定核函数的参数是可调控的, 研究者可通过数据分析或者基于某些参数优化准则对其进行调整.

(2) 分类海量数据. 为更好地适应大数据时代, 支持向量机不能仅仅应用于特定的小型样本数据集, 需将其应用于分类不同形式、具备不同特点的海量数据中.

(3) 模型组合. 现今, 深度学习方法在模式分类、目标识别应用中日趋成熟且效果可观, 研究人员可将支持向量机模型与深度模型(卷积神经网络、深度信念网络、递归神经网络等)结合使用, 发挥两者长处的同时提高检测识别率.

综上所述, 本文期望读者能够在支持向量机技术不断发展的前景下依据合理的研究方向进一步改进并提出新的想法.



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有