近红外模型建立方案


近红外模型建立方案
 
现代近红外光谱分析技术包括了近红外光谱仪、化学计量学软件和应用模型三部分,三者的有机结合才能满足快速分析的技术要求,缺一不可。
因此,模型的建立对于近红外光谱分析技术来说是非常关键的。它将直接影响近红外光谱分析的工作效率和质量。实际应用中,建立模型都是通过化学计量学软件实现的,并且有严格的规范(如 ASTM-1655 标准)。一般情况下,建立模型的步骤如下:

1、初级模型的建立

 
建立一个模型通常是从一个小的光谱数据库开始的,虽然开始建立模型所使用的样本数目很有限,但通过化学计量学处理得到的模型能具有较强的普适性。如果做定量分析模型,集的样品一般需要 50~80 个。如果样品为天然产物(比如农作物或烟草,则所需要的样品数量就会更多,大约是非天然产物的 3~5 倍左右。譬如,一个用于烟草定量的成熟模型就需要拥有数以千计的样品。在收集样品的时候一定注意要保证样品具有代表性,也就是说样品的性质参数范围要能够涵盖所期望的变化范围。并且还要做到在这个所期望的变化范围内样品的性质参数是均匀分布的,不能只包括部分性质参数范围中的一簇样本。另外,一个理想的标定光谱集应涵盖性质参数因温度变化造成的光谱变化的所有情况,因为样品(特别是液体样品)的近红外吸收强度随温度的不同会有很大的改变。
收集来一定量有代表性的样品后,根据需要使用传统的有关标准分析方法对样品进行测量,得到样品的各种性质参数,称之为参考数据。然后分别采集每个样品的近红外光谱图, 再通过化学计量学对光谱进行处理,并将其与不同性质参数的参考数据相关联,这样在光谱图和其参考数据之间便建立起了一一对应映射的关系,这种一一对应的映射关系的建立便是模型的建立。
由于每一种产品要检测的指标比较多,而标准的分析方法大多用时比较长,为避免产品存放时间过长引起某些指标的变化,建议当样品送到化验室检测时,先扫描样品的光谱,再进行常规的化学分析。将样品的收集和光谱扫描作为日常检测工作的一部分,收集样品时不用考虑检测值的梯度值是否会重复(在建模时可以通过化学计量学软件对样品进行筛选),当积累的样品光谱数量达到建模要求的 150-400 张时(建议 270 张左右,越多越好),就可以建立模型了。如果模型中有的指标的梯度值分布不够均匀,再根据指标值有选择的补充样品。

2、模型有效性的确认

 
模型建立起来后,准确的说还不能直接用于测量分析,在真正投入使用之前还需要对其进行有效性的确认,以便检查它能否正确预测结果。
良好的模型应当是在用验证集样本对模型进行考核时,其预测结果与标准方法实际测量结果有良好的一致性。另外,应尽量不受仪器变化、温度变化和背景干扰等因素的影响,而只对样品物化性质的变化反映敏感。找来一组(例如 15~30 个,当然越多越好)性质参数已知但未参与模型建立的合格样品(这些样品被称为校验集),用已经建立的模型来分析测试它们,只要误差在能够接受的范围内的样品(俗称“好的”样品)数与误差在不能够接受的范围内的样品(俗称“坏的”样品)数之比保证大于 3:2,则一般认为该模型是有效的,便可以投入使用了。相反,如果“好的”样品数与“坏的”样品数之比达不到 3:2 或应用者更高的预期要求,则说明该模型不能应用于实际分析。造成这样结果的原因除了建模过程中参数设定的问题以外,主要还是来自样品的选取环节。有可能是参与建模的样品数量不够多, 也有可能是参与建模的样品含盖范围不够大。这样就需要重新选择新的样品训练集或在原来的样品训练集基础上增加参与建模的样品数量。然后用新的样品训练集进行建模,直至有效性验证通过为止。

3、模型的扩充

 
显然,模型所适用的范围越宽越好,但是模型的范围大小与建立模型所使用的校正方法有关,与待测的性质数据有关,还与测量所要求达到的分析精度范围有关。前面提到,建立一个标定模型通常是从一个小的光谱数据库开始的。数据库小,模型的适用范围就必然受到限制。这也就意味着要想使一个模型更加稳定、适用范围更加宽广,就需要不断地对模型的数据库进行扩充。
检测过程中,在未知样本的物化性质预测尚无把握时,一般通过计算马氏距离、主成分成析或其它方法进行模型的适用性判断。如果定性判别的结果指出该样本不在原来模型的范内,则这个样品称为界外点。如果该界外点不是远离原来的模型,则可以将该样品重新包括到原来的训练集中,重新建立模型,以便适用更大范围的样品。这样便完成了一次模型的扩充,久而久之,模型在使用过程中不断地得到扩充,那么在分析过程中出现界外点的情况就会越来越少了。

4、模型的数量

 
近红外光谱分析技术分析速度快,是因为光谱测量速度很快,计算机计算结果速度也很快的原因。但近红外光谱分析的效率却取决于仪器所配备的模型的数量。比如,测量一张光

谱图,如果仅有一个模型,就只能得到一个数据,但是,如果建立了 10 种性质参数模型,
 
那么,仅凭测量的一张光谱,就可以同时得到 10 种分析数据。多个性质参数模型的建立, 可以大大提高近红外光谱分析的工作效率,充分发挥它的特长。
近红外光谱主要是由于分子振动的非谐振性使分子振动从基态向高能级跃迁时产生的,记录的主要是含氢基团 C-H、O-H、N-H、S-H、P-H 等振动的倍频和合频吸收,非常适合用于碳氢有机物质的组成性质测量。检测项目中如食品添加剂盐酸、食品添加剂 NaOH、食盐、活性炭、硫酸镁等无机物是不能进行近红外检测的。

无锡迅杰光远科技有限公司版权所有苏ICP备16048363号