IEEE-NSENS将定期关注对全球社会至关重要的特殊主题。例如,AI传感器,合成传感器,柔性、可穿戴传感器和电子产品,医疗保健生物传感器以及机器人微惯性传感器等。此次论坛将对人工智能,医疗保健和机器人技术中应用的智能微米和纳米级传感系统的最新研究成果进行传播。

以下为ZhongHai He在“IEEE传感器理论及产业应用论坛”上的精彩致辞实录,由云现场整理。

    大家下午好,我演讲的题目是利用抽样理论确定样本数量,为构建多变量模型提供阈值。

    第一步是介绍。校正模型机制,这非常重要,我们样本的数量是基石,确保所代表的一些数量。所以模式的建模是非常重要的。更多校准的样本能够给我们提供额外的信息,也就是我们成本和时间花得太多,因为很多样本是比较丰富的,还有其他的一些因子,我们小的一些校准经常能和我们产生一些不太好的膜,因为这个膜就不可能广泛的应用。所以有一个问题出现,大概样本需要多少呢?多少数量是最好的呢?我们需要建立样本的模型。

    这是一个研究的背景,我们是有一些地域性的,可以看到,说到校准模式的建立,我们至少需要20个样本,还有就是我们的校准要涵盖整个参数的融合的范围。我们需要一个一个充足的样本数字,大概是至少50个,最完美的是100个。还有谱,至少需要100个样本,用于复杂的解决方案。现在我们没有清楚的一个计算方法,我们如何决定这些数量,然后再做校准建模。样本的一个理论就是运用确保所有校准子集的方面。我们的目的是给我们的校准子集一个计算的公式,确保整个校准的集是所有的参数和数量的代表。

    第二部分想说一下理论的基础,首先我们必须要知道,正确的校准的模板和正确的校准模型。在这里说到一个数字,上面一层是有高概率会被抽样,底下的概率是比较低的,我们有这种模板的工具,不太正确建模的方式,不管你搜集了多少样板,这不是一个很好的表现和呈现。这个是我们的样本,这给我们提供了一个正确的样本的方式。这是一个正确的抽样或者样本的方式。

    不同的分析需要不同的样本数量,首先一个层面是0.95,α相当于1.96,说到不同的信息层面,我们也有一个不同的z的值。这是一个正确的值,后面的变量是一个值的变化频度。说到相对的权限,我们可以把它定义为信心的值,平均值差不多是2。这里要有一个估值,X这个地方是终值,R值是估值到实在价值的比例。

    从这个等式可以看到决定我们所需要的样本的数量,通过这样的方程式就可以简单决定。越大的、相对的变量在样板的子集,我们需要更多的样本,这很容易理解。这是根据统计参数,分析出不同的校准集。这也可以根据所需的数量决定。

    接下来介绍一下试验。建立校准模型需要两方面,首先是大豆,另外一个是月季,其中随机抽取了300个样本,然后有5个预测的样本,还有仿真的一些不知道的样本,我们有250个样本是作为校准组的一些样本数量。首先是从30个开始,每一步会增加10个样本,我们可以看到,酱油的模型,它是有氨基酸的成分。这是酱油的典型谱,我们用PLS作为建模,我们可以看到,我们用RMSEP这样的公式,我们把它作为一个模型的准确域的参数。

    现在说一下结果和讨论。我们这里有四个图形,不同的分析运用于样本数量的增加。图表1是用于建模的数量,从这个图表来看,样本越多准确度就越高。进一步增加准确率,随着样本的增加,SMEP也会增加。总的来说,随着样本数量的增多,准确率是在增加的。

    结论当我们的校准的集大的话是RMSEP会下降,如果模型改变,当校准数量比较小的时候,校准数量达到150个,它的表现和性能就达到了一个稳定的状况,也就是说,越多校准模型对模型的表现没有任何改善。

    这是我们一个相对的准确性的预测,我们可以看到RMSEP的TA和相对准确率是差不多的。我们看一下一个数值比RMSEP要大一些。

    这里有三个结论,变量越大,相对误差就越高,对低变量的分析,相对的准确率就可以用少的样本就可以获得。那么我们的校准的模式不仅仅是依靠样本理论,还有其他的理论,但是代表样本集是对我们模型的准确率是一个保证。

    结论非常明显,样本大小对准确率的预测是有很大的影响,再加上校准样本的数量,我们样本的数量是没有办法建议的,基本上是不到50个,我们建议通常运用差不多100个样本,那么逐渐地从100个加到150个样本,然后模型的准确率会增加。超过150个样本,他们对我们模型的准确率没有什么太大的影响。最大的变量分析我们需要更大的样本。对于一些低变量的分析,我们相对的准确度可以稍微降低一点,如果我们有恰当的计算和分析的方式,我们就可以去决定我们在做模式之前可以取多少个样本。

    这是我的演讲,谢谢各位。