背景
番茄成熟度是描述番茄生長狀態(tài)和品質(zhì)的重要指標(biāo)。成熟期中等的番茄保質(zhì)期較長,適合保存,具有較高的商業(yè)價(jià)值。因此,準(zhǔn)確區(qū)分中間成熟度有助于小農(nóng)和小型食品加工企業(yè)進(jìn)行收獲和儲(chǔ)存決策。高光譜成像技術(shù)作為一種高效、無損的技術(shù),將傳統(tǒng)光譜分析與機(jī)器視覺有機(jī)結(jié)合,在水果成熟度檢測中得到了廣泛應(yīng)用。高光譜圖像包含數(shù)百個(gè)連續(xù)波段的大量數(shù)據(jù),可以提供豐富的番茄成熟度相關(guān)信息。因此本研究利用高光譜成像技術(shù)對番茄成熟度進(jìn)行區(qū)分。
考慮到有監(jiān)督方法中獲取大量準(zhǔn)確的成熟度標(biāo)簽是費(fèi)時(shí)費(fèi)力的,并且隨著標(biāo)記樣本數(shù)量的增加,錯(cuò)誤標(biāo)簽的可能性也會(huì)增加。無監(jiān)督方法由于缺乏先驗(yàn)信息,模型的性能可能較差。而基于圖的方法計(jì)算效率更高,泛化能力更好。此外,稀疏表示模型在圖的構(gòu)造上取得了很大的成功,它可以自動(dòng)獲取鄰接關(guān)系和邊權(quán)重值。因此,本研究采用基于圖的方法結(jié)合稀疏表示來判別番茄成熟度。
試驗(yàn)設(shè)計(jì)
南京農(nóng)業(yè)大學(xué)江億平副教授團(tuán)隊(duì)利用搭載有400–1000 nm(Andors Zyla,Oxford)和1000–2500 nm(V10E,Specim)高光譜相機(jī)的高光譜分選儀(GaiaSorter,江蘇雙利合譜)(圖1),獲取了四個(gè)不同成熟階段的番茄高光譜影像。后續(xù)對高光譜影像進(jìn)行黑白板校正、ROI區(qū)域提取以及多重散射校正,以獲得每個(gè)樣本的平均光譜。
圖1 用于番茄成熟度判別的高光譜成像系統(tǒng)
本研究設(shè)計(jì)了一種基于高光譜數(shù)據(jù)的半監(jiān)督番茄成熟度判別方法。這種方法包括三個(gè)連續(xù)的步驟(圖2)。首先,對標(biāo)記樣本進(jìn)行稀疏編碼,得到番茄樣本的類概率信息;然后,設(shè)計(jì)了一種基于光譜信息散度和拉普拉斯分?jǐn)?shù)(SIDLS)的半監(jiān)督特征選擇方法,其中利用類概率信息來構(gòu)造圖,以實(shí)現(xiàn)從原始波段集中選擇有效特征子集;最后,建立基于類概率信息(CSR)的稀疏表示,構(gòu)建反映樣本之間關(guān)系的連接圖,并利用標(biāo)簽傳播算法區(qū)分未標(biāo)記樣本的成熟度標(biāo)簽。
圖2 考慮類別概率信息的基于圖的半監(jiān)督與稀疏表示相結(jié)合的番茄成熟度判別流程圖
結(jié)論
為了驗(yàn)證CSR模型是否可以構(gòu)建更具判別性的連接圖,其他的圖構(gòu)造方法包括高斯核(GK)函數(shù),局部線性嵌入(LLE),局部線性重建(LLR),以及稀疏表示模型(SR)在使用無特征選擇和相同標(biāo)簽傳播(LP)算法的情況下與CSR模型進(jìn)行了比較。具體模型參數(shù)設(shè)置如表1所示。
表1 每種判別方法的*優(yōu)參數(shù)
如圖3所示,與SR模型和CSR模型相比,GK、LLR和LLE三種方法的性能都相對較差。這三種方法依賴于參數(shù)K,需要手動(dòng)設(shè)置該參數(shù),這可能會(huì)受到主觀因素和高光譜數(shù)據(jù)噪聲的影響。CSR模型和SR模型都能自動(dòng)獲得鄰接關(guān)系和權(quán)重,受主觀因素影響較小。此外,在標(biāo)記樣本數(shù)量相同的情況下,CSR模型對番茄成熟度判別的整體準(zhǔn)確率高于SR模型。這表明,如果稀疏表示模型考慮了類信息,可能會(huì)有效提高學(xué)習(xí)性能。與SR模型相比,CSR模型在連接圖的構(gòu)建中利用了類概率信息。該模型輸出的完整連接圖能夠反映番茄樣本之間的真實(shí)關(guān)系。
圖3 CSR模型與其他無特征選擇方法的精度比較
通過對比模型性能可以發(fā)現(xiàn),CSR模型在各成熟度階段的查全率、查準(zhǔn)率和F1分均不低于其他圖構(gòu)造方法(表2)。雖然CSR和SR模型可以很好地區(qū)分番茄的綠色和紅色成熟期,但是依然有大量錯(cuò)誤判斷集中在中期成熟階段。原本屬于變色期的番茄被誤認(rèn)為相鄰的硬期。原本屬于硬期的番茄被錯(cuò)誤地判斷為變色期和紅期。但是獲取大量的成熟度標(biāo)簽是非常困難和耗時(shí)的。為了克服這一缺點(diǎn),有必要設(shè)計(jì)一種使用較少標(biāo)記的番茄樣品的鑒別方法。
表2 每個(gè)成熟度階段有10個(gè)標(biāo)記樣本的CSR模型的混淆矩陣
為了驗(yàn)證SIDLS算法是否能夠選擇更有效的特征子集并減少特征選擇中的信息損失,在選擇波段數(shù)量相同的情況下,將SIDLS算法與基于拉普拉斯分?jǐn)?shù)(SSLS)和半監(jiān)督fisher分?jǐn)?shù)(SFS)算法進(jìn)行了比較(圖4)。本試驗(yàn)中采用CSR模型對特征選擇后的番茄成熟度進(jìn)行判別。CSR模型有四種:全波段-CSR模型(full-CSR)、SSLS算法-CSR模型(SSLS-CSR)、SFS算法-CSR模型(SFS-CSR)和SIDLS算法-CSR模型(SIDLS-CSR)。
SIDLS-CSR的整體準(zhǔn)確率高于full-CSR,說明波段的選擇在一定程度上提高了番茄成熟度判別的性能。SIDLS算法選擇的特征子集比SSLS算法和SFS算法選擇的特征子集有性能上的優(yōu)勢。SSLS-CSR模型和SFS-CSR的整體精度甚至低于full-CSR,這是由于SSLS和SFS算的基本參數(shù)k對數(shù)據(jù)噪聲敏感,會(huì)去除一些相關(guān)波段,在特征選擇中造成大量信息損失,以及這兩種算法會(huì)忽略特征之間的相關(guān)性,逐個(gè)評估特征所導(dǎo)致的。
圖4 基于不同特征選擇算法的CSR模型比較。波段數(shù)分別為5(a)、10(b)、15(c)、20(d)
選擇特征和標(biāo)記樣本的數(shù)量會(huì)影響SIDLS算法的性能。在特征選擇后使用CSR模型進(jìn)行實(shí)驗(yàn),以測試模型性能隨所選特征數(shù)量和標(biāo)記樣本數(shù)量的變化(圖5)。當(dāng)標(biāo)記樣本數(shù)量為10時(shí),SIDLS算法的總體平均精度均有較大優(yōu)勢。當(dāng)標(biāo)記樣本數(shù)量較少時(shí),有用的先驗(yàn)信息會(huì)隨著標(biāo)記樣本數(shù)量的增加而增加。當(dāng)所選特征數(shù)為14個(gè)時(shí),SIDLS算法在番茄成熟度判別上具有較大優(yōu)勢,總體準(zhǔn)確率平均為96.78%。所選特征數(shù)較少時(shí)會(huì)導(dǎo)致重要信息的丟失,較多時(shí)則會(huì)包含冗余信息和噪聲。
圖5 SIDLS算法的性能隨每類所選特征和標(biāo)記樣本數(shù)量的變化
綜上所述,本研究提出了一種新穎可行的基于高光譜成像的方法,利用少量的標(biāo)記樣本來區(qū)分番茄的多個(gè)成熟度階段。為了提高半監(jiān)督學(xué)習(xí)的性能,該方法利用已知的標(biāo)簽信息描述番茄的類概率信息,并將其用于圖的構(gòu)造。在特征選擇中,利用光譜信息散度和拉普拉斯分?jǐn)?shù)選擇相似度較低的特征子集,減少了高光譜數(shù)據(jù)的信息損失。在成熟度標(biāo)簽識(shí)別中,建立了基于類概率信息的稀疏表示模型,構(gòu)建了更具鑒別性的連接圖,提高了標(biāo)簽傳播算法的性能。試驗(yàn)結(jié)果表明,該方法實(shí)現(xiàn)了番茄成熟度的無損準(zhǔn)確判別,整體準(zhǔn)確率可達(dá)96.78%,適用于小農(nóng)和小規(guī)模食品加工企業(yè)。
作者信息
江億平,博士,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院副教授,碩士生導(dǎo)師。
主要研究方向:農(nóng)產(chǎn)品質(zhì)量安全與智慧物流、數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)優(yōu)化與決策、農(nóng)業(yè)大數(shù)據(jù)分析與信息技術(shù)、涉農(nóng)電子商務(wù)與供應(yīng)鏈管理等。
參考文獻(xiàn):
Jiang, Y.P., Chen, S.F., Bian, B., Li, Y.H., Sun, Y., & Wang, X.C. (2021). Discrimination of Tomato Maturity Using Hyperspectral Imaging Combined with Graph-Based Semi-supervised Method Considering Class Probability Information. Food Analytical Methods, 14, 968-983. https://link.springer.com/article/10.1007/s12161-020-01955-5
地址:無錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話:13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關(guān)村大街19號(hào)
電話:13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號(hào)盛方科技園B座三層?xùn)|區(qū)
電話:13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號(hào)四川國際大廈七樓G座
電話:13810664973
郵箱:info@dualix.com.cn