EN

基于深度卷積生成對(duì)抗網(wǎng)絡(luò)和近紅外高光譜成像技術(shù)的不健康小麥籽粒識(shí)別

發(fā)布者：發(fā)布時(shí)間：2023-08-07

背景：

實(shí)際生產(chǎn)過程中，經(jīng)常發(fā)現(xiàn)健康小麥籽粒中混雜著損壞的、發(fā)芽的、霉變的和感染萎蔫病的籽粒。受損的麥粒失去了生存能力，發(fā)芽和霉變的麥粒沒有育種價(jià)值。因此，區(qū)分健康與不健康麥粒對(duì)于育種具有重要意義。近年來，將高光譜成像技術(shù)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相結(jié)合的方法在種子識(shí)別領(lǐng)域得到了廣泛的應(yīng)用。但在實(shí)際應(yīng)用中，處于不健康狀態(tài)的麥粒數(shù)量有限，導(dǎo)致數(shù)據(jù)量少或數(shù)據(jù)分布不平衡。此外，數(shù)據(jù)量較小的類別很容易被數(shù)據(jù)量較大的類別所忽略。因此，基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法的準(zhǔn)確率較低。

這些問題應(yīng)該從根本上通過增加訓(xùn)練數(shù)據(jù)來解決，即從原始數(shù)據(jù)中產(chǎn)生更多的數(shù)據(jù)。生成對(duì)抗網(wǎng)絡(luò)（Generative adversarial network, GAN）是一種深度學(xué)習(xí)模型，可用于學(xué)習(xí)原始數(shù)據(jù)的復(fù)雜分布。采用深度卷積神經(jīng)網(wǎng)絡(luò)（Deep convolutional neural networks, DCNN）結(jié)合GAN增強(qiáng)高光譜訓(xùn)練樣本并建立模型。DCNN分類器與GAN結(jié)合使用的準(zhǔn)確率為95.32%，未結(jié)合的準(zhǔn)確率為92.94%。由此可見其方法的優(yōu)越性。然而，在種子識(shí)別領(lǐng)域，GAN幾乎從未被用于生成數(shù)據(jù)以提高分類器的性能。為此，本文提出了一種基于深度卷積對(duì)抗生成網(wǎng)絡(luò)（Deep convolutional generative adversarial networks, DCGAN）的數(shù)據(jù)增強(qiáng)方法。然后采用決策樹（DT）、支持向量機(jī)（SVM）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）相結(jié)合的高光譜成像技術(shù)對(duì)小麥健康和不健康籽粒進(jìn)行識(shí)別。

本文的主要目標(biāo)是：（1）評(píng)估基于DCGAN的生成樣本的質(zhì)量；（2）比較擴(kuò)展不平衡數(shù)據(jù)集前后不同分類算法的性能；（3）在上一步的基礎(chǔ)上，通過DCGAN增加訓(xùn)練樣本，評(píng)估不同分類算法的準(zhǔn)確率是否可以進(jìn)一步提高；（4）評(píng)價(jià)訓(xùn)練樣本數(shù)量的變化對(duì)各分類器分類性能的影響。

試驗(yàn)設(shè)計(jì)

中國農(nóng)業(yè)大學(xué)吉海彥教授團(tuán)隊(duì)利用GaiaSorter推掃式高光譜成像系統(tǒng)（江蘇雙利合譜公司）（圖1）獲取了健康、發(fā)芽、霉變和萎蔫小麥籽粒的高光譜影像。光譜范圍為866.4 - 1701.0 nm。四種籽粒分別獲取了100、82、91和74個(gè)樣本。

圖1 高光譜系統(tǒng)結(jié)構(gòu)

GAN是由生成器（Generator）和判別器（Discriminator）兩個(gè)部分組成（圖2）。生成器接收隨機(jī)噪聲，通過生成模型生成假樣本。判別器的輸入是一個(gè)樣本，判別網(wǎng)絡(luò)判斷輸入樣本是來自于真實(shí)樣本還是生成器生成的假樣本。通過不斷訓(xùn)練，生成器最終生成盡可能真實(shí)的數(shù)據(jù)。本研究采用DCGAN作為增強(qiáng)數(shù)據(jù)的方法。DCGAN主要的改進(jìn)是在網(wǎng)絡(luò)結(jié)構(gòu)上，生成器和判別器中均使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，同時(shí)改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)部分結(jié)構(gòu)（圖3）。

GAN生成的光譜數(shù)據(jù)的質(zhì)量評(píng)估主要分為兩個(gè)方面，一是生成的光譜與真實(shí)光譜的相似度，二是生成的光譜的多樣性。光譜的相似度主要從三個(gè)方面進(jìn)行評(píng)價(jià)。一方面，計(jì)算生成的光譜數(shù)據(jù)與真實(shí)光譜數(shù)據(jù)之間的均方根誤差（RMSE），其次，通過對(duì)不同時(shí)期生成的光譜進(jìn)行可視化，觀察其與真實(shí)光譜的差異，最后，利用主成分分析（PCA）對(duì)生成數(shù)據(jù)與真實(shí)數(shù)據(jù)進(jìn)行降維，觀察其主成分分布范圍，判斷生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的相似度。

本研究使用的三種分類算法為決策樹（DT）、支持向量機(jī)（SVM）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）。試驗(yàn)分為兩個(gè)階段，第一階段，將不平衡的小麥籽粒數(shù)據(jù)集擴(kuò)展到平衡狀態(tài)后，記錄變化前后測試集的準(zhǔn)確率，判斷基于DCGAN的數(shù)據(jù)增強(qiáng)方法是否有效。第二階段是在第一階段試驗(yàn)的基礎(chǔ)上，將生成的光譜數(shù)據(jù)加入到平衡的小麥籽粒數(shù)據(jù)集中，增加訓(xùn)練集的數(shù)量，從而判斷數(shù)據(jù)增強(qiáng)對(duì)模型性能的影響。

圖2 GAN結(jié)構(gòu)

圖3 DCGAN結(jié)構(gòu)

結(jié)論

從圖4可以看出，4種小麥籽粒的光譜特征相似，萎蔫籽粒的平均光譜反射率顯著高于其他3種，健康籽粒的光譜反射率值差異*大。霉變小麥籽粒受到真菌侵染的影響，籽粒表面顏色和形狀發(fā)生變化，但對(duì)含水率影響不大。因此，與萎蔫小麥籽粒相比，其光譜反射率值接近健康籽粒。萌發(fā)籽粒與健康籽粒不同，因?yàn)槠涿劝l(fā)需要消耗能量。但與其他兩種籽粒相比，其光譜反射率值最接近健康小麥籽粒。在1150 ~ 1300 nm和1400 ~ 1650 nm兩處波段的差異為后續(xù)分類算法的建立提供了基礎(chǔ)。

圖4 籽粒光譜。所有小麥籽粒的光譜（a）；小麥籽粒在四種不同狀態(tài)下的平均光譜（b）。

對(duì)生成的光譜數(shù)據(jù)與真實(shí)光譜的相似度進(jìn)行評(píng)估。由表1可以看出，epoch從0增加到50時(shí)，生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的RMSE呈斷崖式下降。雖然epoch為50時(shí)，RMSE已經(jīng)較?。?.064324），但是從5c和5h中可以看出生成的光譜大致輪廓與真實(shí)光譜相似，但存在較大噪聲。1000、1500、2000次epoch下的生成光譜曲線越來越接近真實(shí)光譜，噪聲逐漸降低，直到2000次epoch下生成的光譜噪聲基本消失。從圖6可以看出，無論迭代多少次，生成光譜的PC1和PC2均包含在真實(shí)光譜中，并且無法將兩者區(qū)分開來。這也說明了DCGAN生成的光譜與實(shí)際光譜的相似性。隨著epoch次數(shù)的增加，PC1和PC2的分布范圍逐漸變寬，直到在2000個(gè)epoch時(shí)達(dá)到*大。部分生成的光譜主成分的分布范圍超過了真實(shí)光譜。最后，綜合考慮多種評(píng)價(jià)指標(biāo)，選取經(jīng)過2000次epoch后訓(xùn)練生成的光譜作為后續(xù)實(shí)驗(yàn)所需的樣本。

表1 不同epoch下小麥籽粒實(shí)測數(shù)據(jù)與生成數(shù)據(jù)的均方根誤差

圖5 不同epoch下的生成光譜數(shù)據(jù)和真實(shí)光譜數(shù)據(jù)的可視化

圖6 500、1500、2000次epoch下生成的光譜數(shù)據(jù)的主成分降維圖

表4給出了分類器在原始數(shù)據(jù)集和平衡數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果。數(shù)據(jù)平衡后，所有分類器的測試集的準(zhǔn)確率都得到了提高。其中，準(zhǔn)確率提高幅度最小的分類器是CNN模型，準(zhǔn)確率提高了8.34%。提升*大的是DT模型。準(zhǔn)確率從51.67%提高到80.83%，這也表明分類器受樣本是否平衡的影響明顯。從圖7可以看出，數(shù)據(jù)擴(kuò)展后，每個(gè)類別的誤分類次數(shù)都在減少。雖然這三種分類器從增加的數(shù)據(jù)樣本中學(xué)習(xí)到了更多的特征，準(zhǔn)確率也有了很大的提高，但最終測試集的準(zhǔn)確率仍然不能令人滿意。此外，CNN模型還存在過擬合的風(fēng)險(xiǎn)，其訓(xùn)練集準(zhǔn)確率與測試集準(zhǔn)確率相差超過3%。這可能是由于訓(xùn)練樣本較少，CNN模型無法學(xué)習(xí)到更深層的特征，導(dǎo)致過擬合。因此，需要更多的樣本來提高分類器的識(shí)別能力。

表2 不同分類器對(duì)原始數(shù)據(jù)集和平衡數(shù)據(jù)集的分類精度

圖7 三種分類器在不平衡數(shù)據(jù)集（a）和平衡數(shù)據(jù)集（b）上分類結(jié)果的混淆矩陣

從表3和圖8可以看出，隨著加入訓(xùn)練集樣本數(shù)量的不斷增加，SVM、DT、CNN模型的性能變化是不同的。在每種小麥籽粒的訓(xùn)練集數(shù)據(jù)中加入50個(gè)樣本，SVM模型的測試集準(zhǔn)確率從75%提高到80%。然后，當(dāng)訓(xùn)練樣本數(shù)量增加200個(gè)時(shí)，SVM模型的分類準(zhǔn)確率最高，達(dá)到85.83%。隨著樣品的不斷加入，其準(zhǔn)確度在80% - 85%之間波動(dòng)。這表明SVM仍然從這些增量樣本中學(xué)習(xí)到一些特征，但學(xué)習(xí)到的特征相對(duì)有限。DT模型的準(zhǔn)確率雖然也有所提高，但提高幅度較小，其準(zhǔn)確率一直在80%到85%之間波動(dòng)。這表明DT模型從生成樣本中獲得的收益很小。對(duì)于CNN模型，隨著樣本數(shù)量的增加，其準(zhǔn)確率從79.17%提高到96.67%，總計(jì)提高了17.50%。之后，它的測試集準(zhǔn)確率開始在95%左右振蕩，并沒有隨著訓(xùn)練樣本的增加而增加。這可能是由于DCGAN在生成樣本時(shí)，作為其近似目標(biāo)的真實(shí)樣本數(shù)量相對(duì)較少。因此，雖然選擇了相似性和多樣性*好的生成樣本，但與現(xiàn)實(shí)世界中的真實(shí)樣本相比，其多樣性仍然比較一般。然而，與SVM和DT兩種機(jī)器學(xué)習(xí)模型相比，CNN具有更強(qiáng)的數(shù)據(jù)擬合能力和分類能力。隨著樣本數(shù)量的增加，它可以學(xué)習(xí)到更多的特征。

結(jié)合以上兩階段的實(shí)驗(yàn)結(jié)果表明，基于DCGAN的數(shù)據(jù)增強(qiáng)模型能夠?yàn)椴黄胶鈹?shù)據(jù)集生成可靠的數(shù)據(jù)樣本，從而幫助分類任務(wù)。此外，在DCGAN的幫助下，SVM、DT和CNN模型的識(shí)別能力都得到了提升，其中CNN的提升效果最為顯著。這也表明基于DCGAN的數(shù)據(jù)增強(qiáng)模型對(duì)于樣本較少的數(shù)據(jù)集具有擴(kuò)展樣本的能力。以上研究為數(shù)據(jù)集不平衡或數(shù)據(jù)集有限條件下的高精度分類提供技術(shù)支撐。

表3 不同分類器在加入不同樣本數(shù)的測試集上的準(zhǔn)確率

圖8 不同分類器的分類精度隨訓(xùn)練集數(shù)據(jù)的增加而變化

作者信息

吉海彥，博士，中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院教授，博士生導(dǎo)師。

主要研究方向：高光譜成像技術(shù)及其農(nóng)業(yè)應(yīng)用研究、近紅外光譜分析技術(shù)及其應(yīng)用研究、農(nóng)業(yè)生物信息檢測與處理。

參考文獻(xiàn)

Li, H., Zhang, L., Sun, H., Rao, Z.H., & Ji, H.Y. (2022). Discrimination of unsound wheat kernels based on deep convolutional generative adversarial network and near-infrared hyperspectral imaging technology. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 268, 120722.

https://doi.org/10.1016/j.saa.2021.120722

上一條食品領(lǐng)域白色可降解和不可降解塑料的鑒別：動(dòng)態(tài)殘差網(wǎng)絡(luò)與高光譜技術(shù)相結(jié)合

下一條一種新的高光譜特征提取方法用于小麥葉片生物量監(jiān)測

快速導(dǎo)航

新聞

服務(wù)網(wǎng)絡(luò)

江蘇雙利合譜科技有限公司

地址：無錫市梁溪區(qū)南湖大道飛宏路58-1-108

電話：13810664973

郵箱：info@dualix.com.cn
北京辦事處

地址：北京市海淀區(qū)中關(guān)村大街19號(hào)

電話：13810664973

郵箱：info@dualix.com.cn
西安辦事處

地址：陜西省西安市高新區(qū)科技一路40號(hào)盛方科技園B座三層?xùn)|區(qū)

電話：13810664973

郵箱：info@dualix.com.cn
成都

地址：成都市青羊區(qū)順城大街206號(hào)四川國際大廈七樓G座

電話：13810664973

郵箱：info@dualix.com.cn
深圳辦事處

地址：深圳市龍華區(qū)民治梅龍路

電話：13810664973

郵箱：info@dualix.com.cn

高光譜成像儀/高光譜相機(jī)/高光譜解決方案-江蘇雙利合譜科技有限公司無錫市梁溪區(qū)南湖大道飛宏路58-1-108 13810664973 ICP備案號(hào)：蘇ICP備2021046114號(hào)-1

基于深度卷積生成對(duì)抗網(wǎng)絡(luò)和近紅外高光譜成像技術(shù)的不健康小麥籽粒識(shí)別

快速導(dǎo)航

新聞

服務(wù)網(wǎng)絡(luò)

江蘇雙利合譜科技有限公司

北京辦事處

西安辦事處

成都

深圳辦事處