傅里叶变换近红外光谱法测定大麦中蛋白质、淀粉和赖氨酸含量

1  引   言


农产品品质分析不同的指标需采用不同分析法 ,如农产品中粗蛋白分析采用凯氏定氮法 ,淀粉含量测定采用碘蓝比色法 ,赖氨酸含量要用氨基酸分析仪或高效液相色谱法1 。这些测定过程复杂、费用很高且非常费时。近红外光谱分析是一种快速多组分分析方法 ,已成为农产品品质分析的主要手段2 光谱和化学值异常的判断和剔除是建立一个好的近红外分析模型的第一步。常见的近红外光谱异常值的判别方法有马氏距离法、Cook 距离法、光谱影响值法 (leverage) 及光谱残差法等。化学值异常的判断采用绝对误差法( Yi2^Yi)3 。本文采用近红外光谱同时测定大麦中蛋白、淀粉和赖氨酸的含量 ,并用光谱影响值法(leverage) 对光谱异常值进行判断和处理 ,取得较理想的近红外光谱分析模型。关键词:无损检测 快速检测;近红外光谱仪


2  实验部分

2. 1  试剂与仪器不同品种的大麦样品 50 ,化学值由中国农科院品种资源所提供。Perkin2Elmer 公司 Ident 傅里叶近红外光谱仪及配套 Quant + 定量分析软件 ,积分球附件 ,InGaAs 检测器 ,石英样品杯。

2. 2  光谱测试采用漫反射积分球附件 ,扫描范围为 100004000 cm- 1,扫描次数为 32 ,分辨率为 8 cm- 1,标准陶 图 1  大麦样品的近红外漫反射光谱Fig. 1 Near infrared diffuse reflectance spectra of barley瓷片作为参比。测定 50 个大麦样品的近红外漫反射光谱 ,如图 1 所示。


 图 1  大麦样品的近红外漫反射光谱Fig. 1 Near infrared diffuse reflectance spectra of barley


3  结果与讨论

3. 1  异常值的剔除光谱和化学值异常值 (outlier) 检验分别采用光谱影响值 Leverage 和化学值误差 Residual 这两个统计量 ,影响值的计算公式为 :Leverage = zTi ( ZTZ)- 1zi其中 Z 为主成分分析的得分阵 ,zi 为第 i 样本的得分值。影响值的阈值设为样本平均影响值的 2,大于阈值意味着该光谱异常。化学值绝对误差的阈值设为样本集平均误差的 3 ,大于该值意味着该样本化学值异常。31 2003 7 分析化学 (FENXI HUAXUE)  研究简报Chinese Journal of Analytical Chemistry7 843845在本样本集中 ,Leverage 的阈值设定为 3. 55 ,化学值误差的阈值设定为 0. 286。用 PCR 算法和全交2636 号样品为光谱异常 ,50 号样品为蛋白质化学值异常 ,3 个样品不适合用来建模 ,因此予以剔除 ,在蛋白质模型中实际采用的样品只有 47 个。

 图 2  异常值检验结果Fig. 2 Result of outlier test


3. 2  蛋白质含量近红外分析模型的建立蛋白质百分含量化学值最大值为 20. 4 % ,最小值为 10. 4 % ,平均值为 14. 8 %。蛋白质近红外漫反射光谱分析模型的建立采用偏最小二乘法 (PLS1) ,波数范围 400010000 cm- 1,预处理方法为 9 点平(savitzky2golay ) 和基线扣除 (offset) 。按随机隔3 1 方式 ,确定校正集样品 35 个和独立的检验集样品 12 个。交叉2证实方法(cross2validation) 确定校正集主成分的最佳维数(rank) 7 ;蛋白质 NIR 分析模型测定系数 R2 校正集为 0. 985 ,检验集为 0. 958 ,白质含量的化学值(specified) 与模型预测值(predict) 的相关关系散点图见图 3。相对标准偏差(RSD) 正集为 2. 3 % ,检验集为 4. 0 %


 图 3  蛋白质百分含量化学值与预测值的相关关系图Fig. 3 Estimated value vs. specified value of protein(unit : %)( ) 校正集(calibration set) ; ( ) 检验集(validation set)


4  淀粉含量的化学值与预测值的相关关系图Fig. 4 Estimated vs. predict value of starch (unit : %)( ) 校正集(calibration set) ; ( ) 检验集(validation set)


3. 3  淀粉含量近红外分析模型的建立本批样品中共有 26 个样品有淀粉百分含量值 ,最大值为 63. 35 % ,最小值为 47. 65 % ,平均值为54154 %。以这些样品来建立淀粉含量的近红外分析模型 ,采用 PLS1 算法和 13 点平滑。按随机隔 2 1 方式 ,选定其中 17 个样品作为校正集 ,另外 9 个为独立的检验集。校正集用交叉2证实方法确定主成分的最佳维数为 6。校正集的淀粉 NIR 分析模型测定系数 R2 0. 973 ,RSD = 2. 3 % ;检验集测定系数R2= 0. 936 , RSD = 2. 4 %。校正集和检验集样品中淀粉的预测值与化学值间的相关关系见图 4


3. 4  赖氨酸含量的近红外分析模型的建立本批样品中共有 36 个样品有赖氨酸的百分含量值 ,最大值为 0. 754 % ,最小值为 0. 431 % ,平均值为0. 554 %。按随机隔 3 1 方式 ,选定 27 个样品作为校正集 ,另外 9 个为独立的检验集。用 PLS1 算法建立赖氨酸含量的近红外分析模型 ,分析波长范围为 743174176840 5384 49374476 cm- 1;预处理方法为 13 点平滑、一阶导数和 SNV + Detrend。校正集用交叉2证实方法确定主成分的最佳维数为 4。校正集的赖氨酸含量NIR 分析模型测定系数 R2 01978 ,RSD = 2. 2 % ;检验集 R2 0. 841 , RSD = 514 % ,校正集和检验集样品中赖氨酸含量的预测值与化学值间的相关关系如图 5


4  讨论与结果以上结果表明 : (1) 蛋白质含量近红外光谱分析模型的测定系数 R2 0. 985 ,相对标准偏差 RSD  2. 3 % , 检验集 RSD 4. 0 %。该结果与传统的凯氏定氮法的精确度相当 ; (2) 淀粉含量近红外光谱分析模型测定系数 R2 0. 973 , RSD 2. 3 % ,检验集RSD 2. 4 % ,该结果与经典方法的精确度相当 ; (3)赖氨酸含量近红外光谱分析模型测定系数 R2 01978 ,RSD 2. 2 % ,检验集 RSD 5. 4 % ,此结果虽然不如氨基酸分析仪 ,但也可以满足农产品快速分析的要求。因此 ,采用近红外漫反射光谱法快速测定大麦中的蛋白质、淀粉和赖氨酸的含量是可行的。从建模过程看 ,异常值的处理是很重要的。在蛋白质分析模型中 ,如果不对 3 个异常样品进行处,则模型的测定系数 R2 0. 781。对于含量较低的成分 ,只有选择预处理方法和合适波长范围来扣除干扰信息 ,才能获得较理想的结果。如在赖氨酸定量分析模型中 ,如果不采用 SNV + Detrend ,则模型的测定系数 R2 只有 0. 772 ,RSD = 7. 9 % ;分析波长范围为 68405384 cm- 1 ( C H N H O H 一倍频) 49374476 cm- 1 ( N H , O H 的组合频) 74317417 cm- 1 (可看作参比谱区) ;如果不选择谱区 ,R2= 0. 922 ,RSD = 9. 1 %。当然 ,具体采用那种预处理以及如何选择波长范围是值得进一步深入探讨的问题。


5  赖氨酸含量的化学值与预测值的相关关系图Fig. 5 Estimated vs. predict value of lysine (unit : %)( ) 校正集(calibration set) ; ( ) 检验集(validation set)


Reference 1 Association of Official Analytical Chemistry. Translated by The Spectroscopy Committee of the Chinese Optical Society(中国光学学会光谱专业委员会) . Official Methods of Analysis of the Association of Official Analytical Chemistry (AOAC 分析方法手册) .19862 Burns D A , Ciurczak E W. Handbook of Near2Infrared Analysis. Marcel Dekker , New York , 19923 Perkin Elmer Corp. . Spectrum Quant + Users Reference , Mathematical Discussion

service@china-ias.com
———————————————————————————————————————————————————————————————————————————————————————————
工作时间:08:30—17:30
联系电话:0510-81002996
江苏省无锡市菱湖大道200号
中国传感网国际创新园G1-1006