粒子群最小二乘支持向量机结合偏最小二乘法用于芝麻油质量的鉴别|最小二乘法

发布时间:2019-10-08 01:38:00 来源: 案例分析 点击:

  摘 要:结合粒子群最小二乘支持向量机(PSO-LSSVM)与偏最小二乘法(PLS)提出一种基于气相色谱技术的新方法,对芝麻油进行真伪鉴别,并对掺伪品中掺假比例进行定量分析。采用主成分分析法(PCA)对857个样本的脂肪酸色谱数据进行分析,优选主成分作为最小二乘支持向量机(LSSVM)的输入向量。利用粒子群算法(PSO)优化LSSVM,构建芝麻油掺伪鉴别的两级分类模型,同时运用PLS建立掺伪芝麻油中掺伪油脂的定量校正模型,两级分类模型的准确率分别达到了100%和98.7%,定量分析模型的平均预测标准偏差(RMSEP)为3.91%。结果表明,本方法的鉴别准确性和模型泛化能力均优于经典的BP神经网络和支持向量机(SVM),可用于食用油脂加工和流通环节的质量控制,为食用油质量的准确鉴定提供了一条有效途径。
  关键词:芝麻油; 最小二乘支持向量机; 粒子群优化算法; 偏最小二乘法; 掺伪
  1 引 言
  芝麻油在亚洲国家有着悠久的食用历史,不仅色、香、味俱佳,且具有丰富营养和保健功能,深受消费者的青睐[1]。为保证芝麻油质量,国家标准《GB 8233-2008 芝麻油》和《GB/T 5539-2008粮油检验 油脂定性试验》规定了芝麻油的理化性质和识别方法,而不法商家对芝麻油进行掺假牟利,依靠常规的感官检测[2](色泽、滋味、气味、状态)和理化检测[3,4](折射率、皂化值、碘值等)已无法准确鉴别,更无法检测掺伪油脂的种类和比例。因此,有必要研究一种快速有效的鉴别方法,保证芝麻油品质。
  目前,鉴别芝麻油掺伪的方法主要有两大类:(1)利用芝麻油特征成分的性质进行鉴别[5],如芝麻酚、芝麻素等木脂素物质。由于众多的芝麻品种,各种气候、土壤等生态条件,各具特色的加工方式等,使得芝麻油中木脂素物质的含量存在较大差异,以其作为鉴别指标,准确性难以保证;(2)根据油脂本身的性质进行鉴别[6],如甘三酯结构、脂肪酸组成和含量等。多采用气相色谱法[7],测定样品的脂肪酸组成和含量,并分析其变化规律,以此判定样品的掺伪情况,但单独采用该方法数据处理量大、信息提取复杂。化学计量学作为数学、统计学、计算机科学与化学的接口[8],是最大限度获取分析对象化学及相关信息的有力工具。Lee等[9]基于油脂的脂肪酸组成数据,采用主成分分析和判别分析来识别芝麻油、大豆油、菜籽油、椰子油等8种植物油。李雪琴等[10]利用气相色谱法对纯品芝麻油和掺伪芝麻油的脂肪酸组成进行了测试,将色谱指纹图谱的相似度用于芝麻油的掺伪检测,并用加权向量夹角余弦法来确定待检芝麻油的掺伪量。但是上述对芝麻油掺伪的研究大多采用基于线性分类的检测方法,且采集样品数少,代表性不强。因此,本研究以大量来自不同区域的纯芝麻油和掺伪芝麻油为样品,采用气相色谱法结合粒子群最小二乘支持向量机和偏最小二乘法,建立了芝麻油真实性的定性定量分析模型,并对有关参数优化做了系统考察,以期为食用油质量安全控制提供一种有效的技术方法。
  2 基本原理
  2.1 最小二乘支持向量机
  最小二乘支持向量机(LSSVM)[11,12]是一种新型支持向量机方法,将最小二乘线性系统引入支持向量机,代替传统所采用的二次规划方法,利用非线性函数Ψ(x)(核函数)将样本映射到高维特征空间,原样本空间中的非线性函数估计问题转化为高维特征函数中的线性函数估计问题。
  2.3 芝麻油掺伪的鉴别
  本研究基于粒子群优化的最小二乘支持向量机(PSO-LSSVM)和偏最小二乘法(PLS)结合气相色谱法对芝麻油掺伪进行定性与定量分析。首先构建第一级LSSVM模型,将样本的种类分成2个一级子类,即纯芝麻油和掺假芝麻油;再将掺假芝麻油一级子类进一步划分成若干个次级子类,即掺棕榈油、掺棉籽油、掺葵花籽油、掺菜籽油、掺大豆油;最后对次级子类样本进行PLS分析。过程如图1所示,具体步骤为:(1)对色谱数据集X进行归一化处理,以加快数据训练时的收敛速度;(2)通过主成分分析(PCA)降低特征参数向量的维数,避免输入信息重叠,使模型预测准确率降低;(3)采用LSSVM对降维后的数据集X′进行第一级分类训练,运用粒子群算法(PSO)优化正则化参数C和核参数σ, 以提高LSSVM的学习性能和泛化能力;(4)构造多类LSSVM模型,对掺伪芝麻油数据集进行第二级分类训练,采用PSO算法[13]得到C和σ最优参数;(5)通过上述分类识别,对掺伪油样数据集X1,X2,…,X6和对应浓度矩阵Y1,Y2,…,Y6,建立PLS校正模型;(6)对于验证集Xtest,先利用步骤(3)和(4)中保留的C和σ进行两级分类,得到不同掺伪类型数据集,然后输入步骤(5)建立的PLS模型, 预测掺伪浓度Y。
  通过上述两级分类,一方面逐级突出样本间的主要差异,最大限度的减少误判;另一方面降低各类样本间的多重干扰对校正模型的影响,提高模型的预测精度。
  3 实验部分
  3.1 仪器与试剂
  GC-6890N型气相色谱分析仪(美国Agilent公司);脂肪酸甲酯标样(Sigma-Aldrich公司);正己烷为色谱纯,其它试剂均为分析纯。
  3.2 实验方法
  3.2.1 气相色谱工作参数 BPX-70色谱柱(30.0 m×250 μm,0.50 μm);进样口温度:230 ℃;柱温:210 ℃;氢火焰离子化检测器(FID):300 ℃;氮气流速1.0 mL/min;氢气流速35 mL/min;空气流速400 mL/min。   3.2.2 样品制备与数据处理 样品先采用《GB/T 17376-2008动植物油脂脂肪酸甲酯制备》甲酯化;再采用《GB/T17377-2008动植物油脂脂肪酸甲酯的气相色谱分析》方法。140个纯油样品(芝麻油、棕榈油、棉籽油、葵花籽油、菜籽油、大豆油)分别购于生产厂家、市场或由种子萃取而得。配制掺假5%, 10%, 15%、20%, 30%和50%的芝麻油,将棕榈油、棉籽油、葵花籽油、菜籽油、大豆油分别掺到6个纯芝麻油中。为对比分析全部为真芝麻油和全部为假芝麻油的脂肪酸特征,同时配备了20个100%掺假样品(即棕榈油、棉籽油、葵花籽油、菜籽油、大豆油),将制得的740个假芝麻油样品标记为Xn,i(n为样品序号;i为掺伪百分比,5%、10%, 15%, 20%, 30%, 50%和100%),其余117个纯芝麻油样品记为Xm。
  利用CAMO 公司的Unscrambler9.7 软件建立PLS校正模型,模型性能通过校正标准偏差(RMSEC)和预测标准偏差(RMSEP)来评价。PCA和PSO-LSSVM算法均由Matlab2011语言编制。
  4 结果与讨论
  4.1 油类样品的GC分析
  4.3 模型建立
  4.3.1 核函数的选择
  最小二乘支持向量机利用核函数将非线性分类问题转化为高维空间的线性问题。利用不同核函数的LSSVM对真假芝麻油样本进行分类识别,结果如表2所示。对于真假芝麻油,RBF核函数的分类性能最好且稳定,而且具有较少的支持向量数,平均识别率达到100%,明显优于其它两种核函数的LSSVM,因此本研究选用RBF作为核函数建立芝麻油鉴别模型。
  4.3.3 掺伪油脂的鉴别 对掺伪芝麻油共740样本,进行基于LSSVM的第二级分类训练,构建5个两分类LSSVM,每个两分类LSSVM仅对第i类与剩余其它类之间的分类。选用RBF函数为核函数,通过PSO算法确定最优参数,得到实验结果如表4所示。5种掺伪芝麻油的种类均基本被正确识别,只有掺葵花籽油和菜籽油各1个样本被错误分类,鉴别掺伪芝麻油种类的准确率达到98.7%,明显优于一模最小二乘支持向量机(1-norm LSSVM)[16]的分类识别结果。
  隐变量数(LV)对PLS建模质量起决定性作用。如果选择的隐变量数过少,则不能准确反映被分析物引起的量测数据变化;反之,则会将干扰信息加入到模型中。本研究考察了不同校正模型的预测误差平方和(PRESS)随隐变量数增加的变化情况,结果如图4所示。从图4可见,各校正模型PRESS的变化规律基本相同,即随隐变量数的增加,PRESS先快速下降后趋于平坦,但仍有微小波动。考虑到模型的通用性和预测的准确性,在全局PLS建模中选择隐变量数为10,而在掺棕榈油、掺棉籽油、掺葵花籽油、掺菜籽油和掺大豆油的专一PLS建模中选择隐变量数分别为5, 3, 6, 7和6。
  采用最优的条件,建立测定掺伪油脂含量的全局PLS模型和专一PLS模型,对模型进行完全交互验证,结果如表5所示,专一PLS模型的性能最佳,平均预测标准偏差为3.91%,远小于全局PLS模型(9.60%)。这是由于PLS是线性回归方法,全局PLS建模的样本组成复杂,模型中存在非线性干扰;而进行分类后建立的专一PLS模型,样本数据与各组分之间具有较好的线性关系。因此,专一PLS模型预测精度明显高于全局PLS模型。

相关热词搜索:小二 芝麻油 向量 乘法

版权所有 律师资料网 www.rhlawyer.com