北京物流信息联盟

近红外光谱数据分析方法的研究进展

2020-11-23 08:32:04


光谱的预处理方面,目前常用的方法有:平滑、多元散射校正 (MSC)、傅里叶变换(FT)、小波变换(WT)等。


小波变换是近几年发展起来的一种数据处理技术,它比较稳定,具有局部性质。


模型优化方法主要包括偏最小二乘法 (PLS)、拓扑学方法、人工神经网络 (ANN)、支持向量机 (SVM) 等。


蚁群算法是新近发展起来的基于群体智能的仿生优化算法。SVM可以减少结构风险和机会风险,是目前理论应用工作者的研究重点。


近红外光谱 (NIR) 分析技术是近年来迅猛发展起来的一种快速检测技术,具有无需预处理,速度快、无污染、无破坏、多成分同时分析、结果重演性高、适于在线分析等优点。


随着现代电子、光谱分析、计算机和化学计量等技术的发展,使得 NIR 分析技术日趋完善,促进该技术在农业食品工业、化工行业和医药行业等领域的应用。


在农业方面,当传统的质量检测技术难以适应生产需要时,这种新型的质量检测方法受到越来越多的关注,但是其信噪比低、波动性大,背景复杂、谱峰重叠等特点,使得光谱数据处理方法的选择对所建模型的有效性、适应性和稳定性具有重要的意义。因此,众多学者开展了相关数据处理方法的研究。


本文分析了近红外光谱分析技术的特点,总结了其在异常值剔除、噪声消除、波长选择等数据预处理和定性定量分析方法的改进和新算法的应用。


近红外光谱分析技术的特点

近红外光谱属于红外光谱,美国材料检测协会(ASTM) 定义其波长范围为 780~2 526 nm,波数范围为 12 820~3 959 cm-1


红外光谱还包括中红外和远红外,均介于可见光和微波之间,肉眼无法观察到它们的存在。不同的红外光谱具有不同的特性:近红外光线具有较强的穿透能力,而远红外则有良好的加热特性。


在近红外光谱区产生吸收的官能团主要是含氢基团,包括:C- H(甲基、亚甲基、芳基、羧基等)、氨基N-H、羟基O-H、硫基S-H等。近红外光谱主要是有机分子的倍频与合频吸收光谱,与中红外光


一样,该谱区也能够得到分子的结构、组成、状态的信息,而且从近红外反射光谱还能得到样品的密度、粒度、高分子物的聚合度及纤维的直径等物质的物理状态信息。近红外光谱的上述特征,赋予了它有别于其他红外光谱的一些独特魅力。


如样品不需进行任何预处理,即可做多组检测;除液体、气体、固体样品外,还可检测粉末状、纤维状、糊状、肉类、乳类等形式的样品。


由于近红外谱区的信息量十分丰富,作为一种高效、快速、成本低、无污染、不破坏样品化学性质、绿色环保的分析方法,它可用于实验室分析、现场分析及在线分析。


光谱预处理的研究进展

近红外光谱分析的预处理包括 3 个方面:


  • 剔除异常样品;


  • 消除光谱噪声和其他谱图不规则因素的影响,如消除随机噪声、样品背景的干扰、光程的变化、测样器件引起光谱的差异等因素对校正结果产生的影响;


  • 优化光谱范围,净化谱图信息。目前常用的光谱预处理方法有:平滑、多元散射校正(MSC)、标准正态变量变换(SNV)、傅里叶变换(FT)、小波变换(WT)、正交信号校正(OSC)、净分析信号(NAS) 等。


剔除异常样品

常用“一审”剔除法,根据某一准则,一旦鉴定出某些样品为异常样品后,就永久剔出该样品,易把非异常样品错误地当作异常样品剔除了。


陈斌等人提出主成分分析结合马氏距离法,从样品光谱矩阵出发,通过主成分分析求得样品光谱的得分矩阵,依据得分矩阵计算出因子空间的马氏距离,并结合数理统计知识对异常样品进行鉴定和剔除。结果表明,校正模型的预测精度和稳定性得到显著提高。


消除光谱噪声及其他干扰因素的影响

1基线校正


基线校正(Correcting Baseline Effects)的目的是扣除仪器背景或漂移对信号的影响。


孙毅等人利用 BRUKER EQUINOX 55傅里叶近红外光谱仪对不同浓度的异丁烷气体的近红外吸收光谱进行测量,对“微分—平滑”法和光谱仪自带的基线校正方法分别进行了理论分析和实验数据的对比。


理论分析和实验结果表明,对于稳态、线性的背景光谱漂移光谱仪自带方法可以得到较高的信噪比及分析精度,而“微分—平滑”法具有更好的适应性,对于非稳态或非线性漂移,具有更好的抑制作用,是一种很好的在线数据预处理方法。


为消除小波分解过程中的边界效应,孔超等人提出了一种基于多项式拟合的边界延拓的新方式。该方式首先对信号边界处的N个点进行M阶正交多项式拟合,将信号在边界处的低频变化规律用正交多项式表示出来,再利用得到的边界处的低频变化规律对信号进行延拓,从而减少了边界处引入的突变量。


实验表明,利用小波变换在该延拓方式下对信号进行基线校正时,边界效应得到了明显的改善。


2光散射校正


测量漫反射时,由于样品粒径大小分布不均匀,即使相同的样品,多次测量的光谱也会出现差异,即光散射现象。


Martens 等人首先提出用多元散射校正(MSC)用于消除颗粒度产生的散射,在近红外漫反射光谱分析中得到了广泛的应用。


赵强等人采用近红外漫反射光谱分析技术对50个烟叶样品进行了光谱分析,采用多元散射校正(MSC)对光谱预处理,比较分析了预处理对定标模型的影响。实验证明,对光谱进行 MSC 预处理能简化数学模型,但不能显著提高模型的预测能力。


王丽杰等人研究了近红外光谱测量牛奶成分的基本方法,探讨了在用偏最小二乘法(PLS)建立系统校正模型的过程中,采用直接正交数据预处理方法滤除牛奶漫反射光谱中与待测组分质量浓度无关的干扰信息的可行性,并与多元散射校正(MSC)及二阶微分(SOD)等方法进行比较。由于采用单一波长通道一元线性回归计算得到的相关光谱极易受到散射的影响,掩盖了待测成分的特征线性信息。


芦永军等人提出将多元散射校正技术用于相关光谱的信息提取和噪声压制,克服了上述困难,并进行了人参样品的定标实验,得到了良好的效果和满意的定标结果。


3消噪处理


在近红外光谱分析中,平滑处理是最常用的消除光谱噪声的方法。平滑处理的数学方法很多,如傅立叶变换(FFT)、奇异值分解(SVD)、卷积平滑方法、卡尔曼滤波及一些其他方法。在近红外光谱分析领域中,小波变换主要用于去噪、数据压缩、模型传递以及背景的扣除。


杜文等人针对在建立烟草中还原糖、总糖、总碱和游离氯的近红外分析模型时,在3台傅立叶变换型近红外光谱仪间出现模型转移的问题,应用离散小波变换重构近红外光谱,减小不同仪器间光谱数据的系统差异,建立了具有良好转移性能的分析模型。


结果表明,与导数变换比较,小波变换在消除干扰信息的同时不引入新的干扰因素,而且能同时进行扣基线和滤噪计算,是一种优点突出的光谱前处理方法。为消除实测光谱信号中噪声和基线的干扰,方勇华等人给出了一种基于小波变换实现两者同时去除及选择参数的新方法。该方法通过对光谱信号在小波域内的低频段小波系数置零来实现基线校正,通过对较高频段小波系数阈值的处理来实现噪声去除。


仿真实验表明,仿真信号采用 sym5,dB5,dB9 等小波基进行 5次分解,然后低频成分置0,所有高频成分利用单层Heursure 阈值估计算法进行硬阈值处理较为合适。


钟建毅等人将小波变换与主成分回归法相结合,提出一种新的多组分药物计算光度分析方法。通过有效去除原始数据中所含的噪声,提高了多组分光度分析计算的准确性和稳定性。


将其用于氯霉素、醋酸地塞米松以及尼泊金乙脂的药物体系分析,与主成分回归法相比,分析计算结果总平均相对误差由1.48%下降到 0.46%。


虽然 PCR或PLS相结合的定量校正方法优于单纯 PCR或PLS,但是对于小波基函数的选择、小波去噪阈值的确定以及小波分解次数的选择,往往靠经验或试验,还没有有效的规则或判定方法,有待于进一步的研究。


挑选波长变量与谱区范围

在进行光谱定性和定量分析时,为了使选择的波长更适合于所测样品品质,包含待测样品品质更多的信息,有必要在测定谱区对代表样品所测品质信息的波长点进行优化选择。


目前,在多元校正分析中,波长的选择方法主要有相关系数法、方差分析法、逐步回归法、无信息变量的消除法(UVE)、间隔偏最小二乘法(intervalPLS,i PLS)、遗传算法(genetic algorithms,GA)等,其中 GA 是应用较广泛的一种波长选取方法。


  • 谷筱玉等人从近红外光谱方法测量中药有效成分的基础研究入手,以冰片含量的检测为例,尝试采用遗传算法与模拟退火算法相结合的,模拟退火遗传算法及物理意义相对明确的多链逐步选择法,对校正模型的波长进行优选。结果表明,波长选择的方法既可以使模型采用的波长数减少,又能提高预测精度,波长的选择最多可将波长数减少 84%,预测精度提高47.6%。


  • 成飙等人研究提出先用移动窗口偏最小二乘法(MWPLS)从宽谱区中初选出信息区间,再采用改进的迭代遗传算法 (IGA),从中选出最优信息子区间,MWPLS 用移动窗口沿全谱区扫描,对信息区间的定位效果好,而 IGA 将顾及光谱数据的连续相关特性,运行多轮 GA,并以上轮选择结果平滑处理结果,作为先验知识支持下轮的种群初始化。


由此选出的连续相邻的波长点作为自变量,进行PLS建模,可显著简化模型,保留一定的数据冗余,模型的稳健性好,分析精度高。


常见的波长选择计算法,如相关系数法、逐步回归法、循环预测权重法(IPW)、遗传算法等,对消除不相因素的影响和提高模型预测能力有很大的作用,只是在选择波长的过程中会与校正样品集的化学值相关联,在一定程度上受到化学值准确度的影响。


鲍峰伟等人将潜变量聚类分析法用于波长选择,旨在消除化学值的准确度对选择过程的影响。


实验结果表明,用该方法建立模型的预测准确度和精密度均有所提高,对实际应用有一定指导作用。


近红外光谱定性分析方法的研究进展

近红外光谱中的定性分析有 2 种:


  • 聚类分析,对样品集进行分类划分,以提高定量校正模型的预测精度;


  • 判别分析,用于确定某待分析样品在已知类别中的归属。定性分析方法主要有峰位鉴别法和模式识别法。


常用的模式识别方法很多,主要有聚类分析法、主成分分析结合马氏距离法、人工神经网络方法等。


  • 刘海旺等人测定了不同种类汽油的近红外光谱,在主因子分析的基础上引入系统聚类法和模糊聚类法对汽油样本集合进行了分类和识别研究。



  • 柴金朝等人利用近红外光谱技术对 75个纯棉、纯涤、棉,涤、棉、氨面料进行定性聚类分析。


采用主成分分析法提取特征光谱,利用马氏距离对样品进行聚类分析,取得了很好的归类效果,验证了近红外光谱法应用于纺织品成分检测的可行性。


由于人工神经网络法可同时进行定性和定量的测定,因此被越来越多地应用于实际生产中;但当ANN 应用于定量分析时,其输入结点不能太多,否则迭代时间过长,得到的结果不理想。


近红外光谱定量分析的研究进展

目前,较常用的校正方法有:多元线性回归法(MLR)、 逐步回归法(SMR)、主成分分析法(PCA)、主成分回归法(PCR)、偏最小二乘法PLS)、拓扑学方法、人工神经网络法(ANN)、支持向量机(SVM)等。


MLR、PCR 和 PLS,主要用于样品的质量参数与变量间呈线性关系的关联,而拓扑学方法和 ANN 法可用于非线性关系的关联。


郭亮等人提出了基于群体智能的仿生优化算法——蚁群算法,它模拟蚂蚁的觅食行为来解决复杂的组合优化问题。


蚁群算法的优点是智能搜索、全局优化、鲁棒性强、分布式计算,容易与其他算法相结合等。校准集的相关系数与相对标准偏差分别为0.943 和 3.14,预测集的相关系数与相对标准偏差分别为 0.913 和 4.67。


  • 钱平等人以近红外光谱法为基础测定方法,结合内模控制,论述了采用自适应神经网络建立校正模型测定石油化工产品组成的可行性。结果表明,该方法响应快、误差小、鲁棒性强,在近红外长波区内,校正样品和验证样品的均方误差小于 10-6


  • 安欣等人以LS—SVM 算法为基础,建立了权重可优化的多因变量LS—SVM回归模型,给出了相应的算法(MLS—SVM),并从理论上说明了它与LS—SVM的关系。


结论与展望

近红外光谱技术的独特优势,使其具有广阔的应用领域和发展前景,良好的数据处理方法对其进一步发展起到巨大的推动作用。现有的数据处理方法多达几十种,随着计算机技术的广泛应用,很多数据处理方法得到进一步简化,然而每种算法各具优点的同时也存在着一定的局限性。


例如:ANN 的输入隐层,输出节点数、隐层数都缺乏理论指导,通常靠操作者的经验和试验来确定,容易出现过拟和现象;SVM可以减少结构风险和机会风险,但是其参数没有理论坚实、适用范围宽的成熟方法,是目前理论应用工作者研究的重点。



作者丨吴海云·刘洋·左月明

《农产品加工》



相关文章推荐


近五年我国近红外光谱分析技术研究与应用进展

近红外光谱分析方法研究——从传统数据到大数据

代谢组学数据分析的统计学方法综述

PCA的数学原理

高频引用次数系列论文·Multivariate curve resolution

高频引用次数系列论文·Principal Component Analysis

高频引用次数系列论文· PLS-regression:a basic tool of chemometrics




化学计量学界三大学术型男和你有个约定


会议主题
近红外数据分析中的关键问题



近红外分析在研究及应用领域不断取得进展,尤其在解决工业实际问题方面,已经获得广泛认可,可能成为化学相关行业中必不可少的分析工具,如在饲料、制药、烟草以及农业领域等。


数据分析是理解近红外数据,构建定性定量模型,进而解决工业领域中实际问题的关键步骤。本次交流会重点探讨如何通过化学计量学数据分析的方法,构建稳健可靠的模型,并用于解决研究与工业领域中的实际问题。数据分析方法的内容包括提高数据质量、特征选择、模型构建、评价与应用,以及模型的转移、更新与转换等。


主讲人及课程介绍



杜一平BIOGRAPHY


华东理工大学教授,理学博士,博士生导师。现任华东理工大学上海市功能性材料化学重点实验室副主任。


专业分析化学,研究方向化学计量学和分子光谱分析。2002-2003年在日本Kwansei Gakuin University的Ozaki教授课题组,作为博士后开始从事近红外光谱和化学计量学方面的研究工作。


近年主要从事化学计量学算法研究,近红外、拉曼、荧光和紫外可见光谱分析新方法研究和相关仪器研制,食品安全和日用品安全快速分析检测方法研究等方面的科研工作。


先后承担国家自然科学基金、国家科技支撑计划、上海市浦江人才计划、上海市纳米专项、。发表研究论文160余篇,申请专利12项,授权7项。


主编出版《化学计量学应用》、《分析化学计量学》、《现代仪器分析方法》(第一和第二版)等著作。2006年获Buchi近红外光谱奖(BUCHINIR Award)。


2010年10月13日-18日,成功组织承办了第三届全国近红外光谱学术会议和第二届亚洲近红外光谱学术会议。


现为《光谱学与光谱分析》、《理化检验化学分册》编委,中国化学会会员,计算机化学专业委员会委员,中国仪器仪表学会近红外光谱分会副理事长,中国仪器仪表学会分析仪器分会理事,上海市化工学会红外协作组组长。 


主讲课题


近红外光谱数据分析


内容概要


近红外数据分析的常规方法

  • 建模:多元校正

  • 光谱数据处理

  • 波长选择

  • 异常点去除


近红外光谱数据分析的注意事项

  • 信号和模型的真实性的判别

  • 隐变量选择

  • 模型评价:校正、交互检验和独立检验



邵学广BIOGRAPHY


博士,教授,博士生导师,。,2003年国家自然科学基金杰出青年基金获得者。


1987和1992年分别获中国科学技术大学分析化学硕士学位和博士学位(中日联合培养)。博士毕业后留中国科学技术大学工作,2005年调入南开大学工作。


1995年以来,多次出访法国科研中心、香港理工大学、加拿大英属哥伦比亚大学(UBC)等进行合作研究。


兼任《高等学校化学学报》、《化学学报》、《分析化学》、《化学试剂》、《Chinese Journal of Chemistry(中国化学)》等九种期刊的编委会委员、中国化学会计算机化学专业委员会副主任委员和有机分析专业委员会委员期刊的编委会委员、中国化学会计算机化学专业委员会副主任委员和有机分析专业委员会委员、中国仪器仪表学会近红外光谱分会副理事长、国家海洋局海洋溢油鉴别与损害评估技术重点实验室学术委员会委员、烟草行业烟草化学重点实验室学术委员会委员等。


主要从事化学计量学算法与应用研究,先后对多种化学计量学方法在化学领域中的应用开展了深入、广泛的研究工作。


近年来,开展了实际复杂体系的近红外光谱分析方法研究,建立了系列用于近红外光谱信号处理和建模的化学计量学方法,为复杂体系的快速分析建立了新颖的分析方法。


同时,开展了化学计量学方法在工业生产中的应用研究,建立了复杂体系的近红外光谱快速分析方法和产品质量评价方法。


在Accounts ofChemical Research, Analytical Chemistry, Journal of Computational Chemistry等国内外学术期刊上发表SCI论文250余篇,编著、翻译或合作出版学术著作5部。


近五年先后承担国家自然科学基金重点项目、面上项目等7项,科技部国际合作项目、重大仪器专项等3项,其他横向合作研究项目二十余项,培养硕士、博士研究生60余名。


曾获中国科学技术大学跨世纪优秀年轻人才奖、优秀教师奖等,,2003年获自然科学基金委杰出青年基金,2010年获宝钢优秀教师奖,。


主讲课题


大数据时代的近红外光谱技术与应用——近红外光谱模型转移方法与应用研究进展


内容概要


大数据时代的近红外光谱技术

近红外光谱分析中的化学计量学方法研究

模型转移方法的发展

模型转移方法的研究进展



曾仲大BIOGRAPHY


2000年9月-2006年6月中南大学硕士、博士学习,师承著名化学计量学家梁逸曾教授。2006年9月-2009年12月在香港理工大学读博士后,师承著名化学家陈新滋院士、周福添教授。


2009年12月-2012年6月澳大利亚(RMIT大学、Monash大学)researchfellow,师承著名色谱学家Philip Marriott教授。


、“所百人”,从事代谢组学研究。

2014年1月至今,创立大连达硕信息技术有限公司任总经理。


曾仲大博士长期从事化学计量学与复杂科学仪器数据分析的基础研究,迄今已在具有国际影响力的专业期刊发表近40篇SCI研究论文,包括本领域领先的TrAC、AC、JPR、JCA等期刊。


近3年以第一作者或合作者身份,在美国分析化学杂志发表7篇研究论文,受邀为多个SCI期刊撰写综述,包括本领域具影响力的TrAC杂志,在化学与生物数据分析方面兼具研究与实际应用经验。


主讲课题


如何智慧地构建近红外分析模型?


内容概要


智慧的文件载入

创造性的算法流

随心所欲数据流

建模方法就是多

用户体验重要性



报名方式



登陆仪器信息网,在首页点击导航栏右侧的网络讲堂,进入该页面之后,可以通过搜索近红外数据分析中的关键问题寻找报名页面。


开课时间:2016-08-30 10:00 (教室于 2016/8/30 9:30:00开放)

会议时长: 2小时

报名条件:只要您是仪器信息网注册用户均可参加!
环境配置:只要您有电脑、外加一个耳麦就能参加。(需要进行音频交流的用户需准备麦克)
人数限制:200
提问时间:您可在论坛的宣传贴中先行提问,截至时间为 2016-08-30
相关领域:食品/饮料/烟草
相关仪器:化学分析仪器




本文内容均来自于互联网,除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。如有侵权行为,请及时告知本平台,本平台会及时删除。



Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟