新零售浪潮下,人貨動(dòng)作如何數(shù)字化?
業(yè)務(wù)分析
在“何時(shí)何地何人對何種商品發(fā)生了興趣?”這個(gè)問題中,時(shí)間地點(diǎn)上要求精準(zhǔn)地確定顧客的行為發(fā)生在哪個(gè)時(shí)刻、位于門店內(nèi)的哪個(gè)貨架附近;并要求準(zhǔn)確的關(guān)聯(lián)顧客,甚至關(guān)聯(lián)上顧客的年齡、性別、新老客等屬性;以及要求準(zhǔn)確地確定是哪個(gè)SKU的商品被翻動(dòng)或者拿起。與自動(dòng)售貨柜、線下大屏等場景不同,監(jiān)控視角下相機(jī)離貨品過遠(yuǎn)成像不清晰,同時(shí)商場和超市中的貨品排列密集成像不完整,因此視覺相機(jī)只能大體用于判斷顧客是否有翻動(dòng)商品的動(dòng)作,但是不能直接獲得“人-貨-場”中貨品的信息,如圖所示。
圖1. 顧客翻動(dòng)商品快照
為了解決該問題,我們使用了目前在新零售場景中廣泛使用的無線射頻電子標(biāo)簽(RFID),用于探測被用戶翻動(dòng)的商品。被動(dòng)RFID標(biāo)簽價(jià)格低廉,可以廣泛裝配在服飾等貨物中。算法目前給出了“何時(shí)何地何人與何種商品發(fā)生交互”的數(shù)據(jù),整體的實(shí)現(xiàn)流程如圖所示。
圖2. 人貨動(dòng)作檢測整體技術(shù)框圖
其中,遠(yuǎn)程實(shí)體店中裝配有監(jiān)控?cái)z像機(jī)設(shè)備與RFID接收器設(shè)備,分別錄制實(shí)時(shí)視頻與RFID標(biāo)簽受激反射的時(shí)序信號(hào);其中監(jiān)控視頻通過在實(shí)體店中布署的遠(yuǎn)端服務(wù)器運(yùn)行顧客檢測算法得到有行人的圖片,只將檢測到的行人圖片回傳到后臺(tái),RFID時(shí)序信號(hào)信號(hào)量較小因此全部回傳到后臺(tái);后臺(tái)服務(wù)器環(huán)境中,首先基于回傳的RFID信號(hào)與檢測哪些RFID標(biāo)簽可能被翻動(dòng)了,由于店鋪服務(wù)員已經(jīng)將RFID標(biāo)簽的EPC編號(hào)與商品的SKU編號(hào)關(guān)聯(lián)入庫,基于被翻動(dòng)的標(biāo)簽EPC編號(hào)可以取到對應(yīng)商品的SKU;同時(shí),回傳的顧客圖片被送入Mobilenet分類器中進(jìn)行分類,檢測出疑似有在翻動(dòng)商品的顧客,并根據(jù)顧客的圖像坐標(biāo)進(jìn)行坐標(biāo)變換,得到該顧客的真實(shí)物理坐標(biāo);最后,將檢測出的疑似被翻動(dòng)的商品與疑似有翻動(dòng)商品動(dòng)作的顧客基于時(shí)間和動(dòng)作的可疑程度進(jìn)行關(guān)聯(lián),得到商品與行人的最佳匹配,從而實(shí)現(xiàn)檢測“何時(shí)何地何人與何種商品發(fā)生交互”。
本文討論其中的三個(gè)關(guān)鍵的技術(shù)點(diǎn):
基于圖像的顧客動(dòng)作檢測算法;
基于射頻信號(hào)的商品翻動(dòng)檢測算法;
基于二部圖匹配的人貨關(guān)聯(lián)算法。
1. 基于圖像的顧客動(dòng)作檢測算法
基于圖像的顧客動(dòng)作檢測算法隨著業(yè)務(wù)與布署的需求經(jīng)歷了基于視頻檢測到基于單幀圖像檢測的演變過程。
1.1 視頻圖像動(dòng)作檢測
1.1.1 問題分析
與行人、人臉檢測等問題不同,顧客與商品的交互動(dòng)作是一個(gè)時(shí)序過程,例如“拿起”、“翻動(dòng)”、“試穿”等都是有一定時(shí)長的時(shí)序過程,因此理解用戶的行為是一個(gè)典型的視頻動(dòng)作分類問題。視頻級動(dòng)作理解主要研究基于整段視頻進(jìn)行模型學(xué)習(xí)與預(yù)測。隨著深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,視頻動(dòng)作理解技術(shù)在近期得到了很大的發(fā)展,比較著名的有2014年的CNN模型[1]、2015年的LRCN模型[2]和2017年的I3D模型[3]。其中LRCN在單幀圖片上使用2D卷積提取特征,在幀與幀之間使用RNN提取時(shí)序關(guān)系,獲得了較好的效果但是訓(xùn)練耗時(shí)巨大;I3D模型基于3D卷積真正實(shí)現(xiàn)對整個(gè)視頻進(jìn)行特征提取,同時(shí)訓(xùn)練速度加快了很多。
但是開源的數(shù)據(jù)集例如UCF101, HMDB51, Kinetics只有有限的幾類常見體育運(yùn)動(dòng)、樂器演奏活動(dòng)等動(dòng)作,并未包含商超場景下的數(shù)據(jù)。因此我們自主構(gòu)造商超場景下的動(dòng)作視頻,并提供給外包進(jìn)行標(biāo)注。商超場景下顧客與商品發(fā)生交互的過程是極其短暫的,在全天視頻中有顧客行為的的時(shí)段約只有0.4%,正例特別稀疏。為了盡可能發(fā)掘正例樣本,提高外包標(biāo)注效率,我們使用Lucas–Kanade光流算法對視頻進(jìn)行了預(yù)處理,通過初步判斷視頻中有無活動(dòng)目標(biāo)篩選視頻,經(jīng)過該處理后,將樣本中正例的比例提高到了5%。為了提高樣本的置信度,我們同時(shí)還對樣本中的正例進(jìn)行了校驗(yàn)標(biāo)定,確保正例的準(zhǔn)確性。
1.1.2 動(dòng)作檢測模型及其優(yōu)化
為了檢測在視頻中發(fā)生的動(dòng)作,本文嘗試了:
基于人體關(guān)鍵點(diǎn)檢測算法(Pose)與跟蹤算法(Track)自動(dòng)裁剪得到每個(gè)顧客每只手的實(shí)時(shí)短視頻;
基于Inception-V1 C3D(I3D)模型訓(xùn)練手部動(dòng)作的分類器,并對I3D模型進(jìn)行了裁剪優(yōu)化。
裁剪顧客每只手的短視頻有助于精確確定動(dòng)作發(fā)生的位置,同時(shí)由于顧客對商品的翻動(dòng)動(dòng)作一定是通過手部進(jìn)行的,因此顧客身體的其他部位對檢測結(jié)果沒有直接影響,而關(guān)注于手腕局部有利于減小模型計(jì)算量、加快模型收斂,其中算法涉及的Pose模型基于Open Pose[4],Track算法基于Deep Sort[5],均有成熟的模型可以直接使用。
本文主要討論對Inception-V1 C3D模型應(yīng)用于理解手部動(dòng)作視頻的研究?;趫D片的學(xué)習(xí)任務(wù)通常使用2D卷積核在圖像上滑動(dòng)并池化實(shí)現(xiàn)特征提取,而基于視頻的學(xué)習(xí)任務(wù)要求將傳統(tǒng)的2D卷積擴(kuò)展到3D上,在視頻中滑動(dòng)并池化實(shí)現(xiàn)特征提取。如圖所示,3D卷積相比于2D卷積多了一個(gè)時(shí)間維度。
圖3. 2D卷積池化與3D卷積池化操作示意圖
本文使用了新近提出的Inception-V1 C3D(I3D)模型,該模型將傳統(tǒng)的Inception-V1模型擴(kuò)展到3D維度,在Kinetics, HMDB51, UCF101數(shù)據(jù)集上取得了目前最好的效果。I3D模型框圖如圖所示。示意圖中所有的卷積與池化操作都是3D層次上進(jìn)行的,其中Mix模塊是Inception V1模型中的Inception感知子模塊,由4個(gè)branch構(gòu)成,如右側(cè)所示。
圖4. I3D模型框圖(左)與Inception 子模塊結(jié)構(gòu)
實(shí)際應(yīng)用在商超顧客行為理解的任務(wù)中時(shí),我們發(fā)現(xiàn)3D卷積帶來模型參數(shù)過多,極容易過擬合,同時(shí)網(wǎng)絡(luò)程度過深也導(dǎo)致模型泛化能力差,dropout作用微弱等問題,因此我們對Inception-V1模型作了簡化,去除了模型中不必要的多層Inception模塊(Mix_4c, Mix_4d, Mix_4e, Mix_4f, Mix_5c),并將每個(gè)Inception模塊的卷積核數(shù)量(depth)調(diào)少至原來的1/2,將模型簡化為如圖所示:
圖5. I3D模型的裁剪改進(jìn)
該簡化操作將模型分類準(zhǔn)確度(Accuracy)從80.5%提高到87.0%,進(jìn)一步調(diào)試超參,最終分類Accuracy提高至92%.
1.1.3 結(jié)論與分析
我們將樣本使用tfrecords處理之后,上傳到了集團(tuán)數(shù)據(jù)存儲(chǔ)中心,并使用PAI在分布式環(huán)境中進(jìn)行了模型訓(xùn)練(30張GPU卡),并將訓(xùn)練所得的模型應(yīng)用于理解顧客的動(dòng)作,算法目前實(shí)現(xiàn)的實(shí)際預(yù)測效果如視頻動(dòng)作檢測結(jié)果.mp4所示,目前在服務(wù)器下可以實(shí)現(xiàn)實(shí)時(shí)的對單路視頻中的顧客動(dòng)作進(jìn)行檢測,但是視頻動(dòng)作分類檢測相比于傳統(tǒng)的圖像分類任務(wù)存在的問題主要有:
模型復(fù)雜度高,三維卷積(C3D, Convolutional 3D)需要同時(shí)在時(shí)間與空間上進(jìn)行;
數(shù)據(jù)規(guī)模巨大,訓(xùn)練困難,相比于圖片,視頻數(shù)據(jù)規(guī)模擴(kuò)大了數(shù)百倍到數(shù)萬倍;
實(shí)際部署模型挑戰(zhàn)大,視頻動(dòng)作模型在實(shí)用過程中的預(yù)測時(shí)間效率,組織時(shí)序樣本,滾動(dòng)窗口預(yù)測等方面都存在極大的挑戰(zhàn)。
1.2 單幀圖像動(dòng)作檢測
1.2.1 問題分析
基于視頻卷積的顧客動(dòng)作檢測算法有較高的精度(92%), 并能給出準(zhǔn)確的動(dòng)作位置(精確到手腕位置),但是由于視頻3D卷積模型和Pose模型參數(shù)多復(fù)雜度高,一臺(tái)服務(wù)器只能跑一路檢測算法,給計(jì)算性能帶來沉重的負(fù)擔(dān),同時(shí)三維卷積算法要求精準(zhǔn)關(guān)聯(lián)一段時(shí)間以內(nèi)的手部連續(xù)視頻,給Tracking算法也帶來很大挑戰(zhàn)。為了讓動(dòng)作檢測算法可以適應(yīng)于多路監(jiān)控信號(hào)多個(gè)店鋪的場景中,我們進(jìn)一步發(fā)展了基于單張圖片的可疑動(dòng)作檢測算法,對單張圖片直接進(jìn)行疑似動(dòng)作的分類檢測。單張圖片的可疑動(dòng)作檢測由于信息較少,準(zhǔn)確性相對于基于視頻的動(dòng)作檢測算法偏低,但是通過與RFID檢測結(jié)果相互融合校正,可以彌補(bǔ)其準(zhǔn)確率較低的缺陷。
1.2.2 模型及其優(yōu)化
基于單張圖片的疑似動(dòng)作檢測是經(jīng)典的二分類問題,為了減小對計(jì)算能力的需求,我們使用了MobileNet[6]作為分類模型。MobileNet是微軟提出的一種高效輕量的網(wǎng)絡(luò)模型,主要基于depth-wise convolutions和point-wise convolutions對傳統(tǒng)的卷積層進(jìn)行了計(jì)算量上的優(yōu)化。與傳統(tǒng)卷積網(wǎng)絡(luò)相比,MobileNet在保持精度幾乎不變的同時(shí)計(jì)算量和參數(shù)數(shù)量可以降到原來的10%~20%左右。本文中,使用了MobileNet_V1版本模型,并設(shè)置卷積通道數(shù)因子Depth multiplier為0.5以進(jìn)一步減小模型規(guī)模。我們通過外包標(biāo)注了圖片動(dòng)作數(shù)據(jù)集,并對樣本作了均衡處理以保證訓(xùn)練過程中正負(fù)樣本數(shù)量一致。同時(shí),考慮到業(yè)務(wù)場景中希望盡可能捕捉到用戶有動(dòng)作的瞬間,因此我們根據(jù)模型Logits輸出進(jìn)行了最優(yōu)化參數(shù)尋優(yōu),在保持分類精度(accu)89.0%左右時(shí),提高正例召回率(recall)達(dá)到90%,確保正例盡可能被召回,如下圖所示。
圖6. MobileNet模型優(yōu)化
1.2.3 結(jié)論與擴(kuò)展
基于圖片的動(dòng)作檢測算法對動(dòng)作的分類精度可達(dá)89%(略低于基于視頻的動(dòng)作檢測算法,同時(shí)無法精確到手腕位置),召回90%。下圖展示了模型預(yù)測出的行人是否有拿取衣物的動(dòng)作,其中圖片下方灰白色條紋表示模型檢測動(dòng)作為正例,圖片下方黑色條紋表示模型檢測動(dòng)作為負(fù)例。
圖7. 基于圖片的動(dòng)作分類結(jié)果示例
由于基于圖片的動(dòng)作檢測算法基于輕便的MobileNet模型,大大降低了計(jì)算復(fù)雜度,對一家門店全天的數(shù)萬張可疑圖片進(jìn)行預(yù)測耗時(shí)只需要十分鐘左右。同時(shí)算法可以只對回傳到后端的圖像處理,大大降低了現(xiàn)場設(shè)備與服務(wù)器的負(fù)擔(dān)。但是基于圖片的動(dòng)作檢測算法只精確到行人位置,不能給出精確的動(dòng)作位置,同時(shí)同一個(gè)動(dòng)作在前后若干秒內(nèi)的圖片都有可能被檢測為正例,對時(shí)間關(guān)聯(lián)準(zhǔn)確性也有一定影響。
2. 基于射頻信號(hào)的商品翻動(dòng)檢測算法
2.1 問題分析
當(dāng)顧客翻動(dòng)衣服時(shí),掛扣在衣服上的RFID標(biāo)簽會(huì)隨之發(fā)生微小抖動(dòng),RFID接收機(jī)設(shè)備記錄標(biāo)簽反射的信號(hào)RSSI,Phase等特征值的變化,回傳到后臺(tái),算法通過對每個(gè)天線回傳的信號(hào)值進(jìn)行分析判斷商品是否發(fā)生翻動(dòng)?;赗FID信號(hào)判斷商品翻動(dòng)存在諸多問題,包括信號(hào)自身噪聲、環(huán)境多徑效應(yīng)、偶然電磁噪聲、貨柜對信號(hào)遮擋的影響等。同時(shí)RFID反射信號(hào)的大小與接收器離標(biāo)簽距離遠(yuǎn)近存在非線性關(guān)系[7],
其中,d代表RFID標(biāo)簽與接收器之間距離, l=d mod λ, γ受Multipath和當(dāng)前環(huán)境的影響,μ表示各種靜態(tài)設(shè)備誤差帶來的偏移。從公式中可以看出,接收器安裝的位置,商店環(huán)境等都會(huì)給RFID信號(hào)帶來很大影響,尋找統(tǒng)一的可以適用于不同商店、不同位置接收器的翻動(dòng)判斷算法存在很大挑戰(zhàn)。
2.2 翻動(dòng)檢測算法及其優(yōu)化
我們首先嘗試了建立監(jiān)督模型檢測商品是否被翻動(dòng),通過收集門店中實(shí)際布署的兩個(gè)不同RFID天線采集的標(biāo)簽RSSI與Phase時(shí)序信號(hào),并手工組合了以下特征:
其中Ant1, Ant2表示兩個(gè)不同天線對同一個(gè)標(biāo)簽采集到的信號(hào),Diff表示對信號(hào)的差分運(yùn)算,Avg表示對信號(hào)的均值處理。最終以每秒50幀,每個(gè)樣本采集8秒連續(xù)信號(hào)形成400×10的二維特征。并使用自主構(gòu)造的數(shù)據(jù)集基于以下模型進(jìn)行訓(xùn)練,最終實(shí)際分類精度為91.9%。
圖8. RFID CNN模型
使用基于有監(jiān)督模型的檢測算法可以獲得較高的商品翻動(dòng)檢測精度,但是實(shí)際應(yīng)用過程中發(fā)現(xiàn)模型泛化能力很差,當(dāng)?shù)赇佖浌癜l(fā)生移動(dòng)或者天線位置發(fā)生移動(dòng)時(shí),信號(hào)發(fā)生劇烈變化,基于原先數(shù)據(jù)集訓(xùn)練好的模型很難泛化到新的場景中去。因此,我們進(jìn)一步嘗試了基于無監(jiān)督模型的算法,力圖提高檢測算法的泛化能力。特別的,我們注意到:相位信息與空間位置無關(guān),但是與相對位移有關(guān):相位信息頻率分布圖;頻率信息與空間位置無關(guān),但是與動(dòng)作快慢有關(guān):頻域信息頻率分布圖。
嚴(yán)格意義上,頻率信息中的幅度信息與空間位置存在關(guān)系,但是當(dāng)我們只關(guān)注于頻率分布(不同頻率成份的占比)時(shí),可以將頻率信息也當(dāng)成與空間位置信息無關(guān)的特征。頻率信息的獲取需要對RSSI信號(hào)與Phase信號(hào)進(jìn)行離散傅利葉變換:
然后統(tǒng)計(jì)頻率信號(hào)與相位信號(hào)的分布圖。對得到的分布圖,計(jì)算當(dāng)前分布與前一個(gè)時(shí)刻分布的JS散度(相對于KL散度,JS散度具有加法的對稱性,因此可以用來衡量多個(gè)分布之間的相對距離)。
基于相鄰時(shí)刻前后兩個(gè)樣本的JS散差異對商品的翻動(dòng)行為進(jìn)行檢測,根據(jù)場景調(diào)節(jié)最終JS散度差異值域值可以得到與基于監(jiān)督模型相近的動(dòng)作檢測精度。
2.3 結(jié)論與分析
基于監(jiān)督模型與無監(jiān)督模型對商品的翻動(dòng)情況進(jìn)行了檢測,算法給出了精確的被翻動(dòng)的商品(SKU),監(jiān)督模型檢測精度可達(dá)91.9%,無監(jiān)督模型的檢測精度可達(dá)94%(高于監(jiān)督模型),同時(shí)使用JS散度度量提高了算法的泛化性能,根據(jù)不同場景輕微修正域值,檢測算法就可以適用于不同的場景。
3. 基于二部圖匹配的人貨關(guān)聯(lián)算法
3.1 問題分析
顯然,基于圖像的顧客行為檢測與基于RFID的商品翻動(dòng)情況檢測是分離的兩個(gè)過程:
基于RFID的檢測給出了商品被翻動(dòng)的情況,但是不能給出翻動(dòng)動(dòng)作對應(yīng)的顧客;
基于圖片的動(dòng)作檢測給出疑似在翻動(dòng)商品的顧客,但是不能給出是哪些商品被翻動(dòng)。
在實(shí)際場景中,同一位置同一時(shí)刻通常只有少數(shù)的幾個(gè)動(dòng)作發(fā)生,因此可以根據(jù)RFID檢測出的商品被翻動(dòng)的時(shí)刻和圖像檢測出的在翻動(dòng)商品的顧客的時(shí)刻進(jìn)行匹配,將翻動(dòng)商品的顧客與被翻動(dòng)的商品關(guān)聯(lián)起來。但是存在的問題是:
圖像檢測出的動(dòng)作時(shí)刻與RFID檢測出的動(dòng)作時(shí)刻累計(jì)誤差可達(dá)5~15秒。RFID信號(hào)、監(jiān)控視頻信號(hào)回傳到服務(wù)端過程的傳輸時(shí)間差、現(xiàn)場設(shè)備時(shí)鐘不同步導(dǎo)致的時(shí)間差、算法估計(jì)動(dòng)作時(shí)刻不準(zhǔn)都會(huì)帶來兩種檢測算法的時(shí)刻不一致。
鄰近時(shí)刻鄰近位置可能有多個(gè)可疑顧客和多個(gè)可疑被翻動(dòng)商品。
3.2 人貨關(guān)聯(lián)算法及其優(yōu)化
我們對同一個(gè)貨架附近的RFID設(shè)備檢測出的動(dòng)作與圖像檢測出的動(dòng)作進(jìn)行關(guān)聯(lián),并在關(guān)聯(lián)動(dòng)作時(shí),同時(shí)考慮了時(shí)刻一致性與動(dòng)作可疑程度的匹配性。確保同一貨架同一時(shí)刻確實(shí)有拿取商品的顧客關(guān)聯(lián)上確實(shí)被拿取的商品。當(dāng)有多個(gè)顧客在同一個(gè)區(qū)域均有可疑動(dòng)作或者多個(gè)商品在同一個(gè)區(qū)域均有可疑的被翻動(dòng)情況時(shí),進(jìn)一步通過二部圖匹配算法,找到多個(gè)商品與多個(gè)顧客之間的最佳匹配。 本文中,顧客與商品的匹配程度(邊權(quán))定義為:
表示第i個(gè)顧客翻動(dòng)第j個(gè)商品的可能程度,其中
是基于Sigmoid函數(shù)描述的顧客與商品動(dòng)作時(shí)間一致性函數(shù),
是MobileNet模型對輸入顧客圖片預(yù)測的動(dòng)作概率,
是模型對輸入RFID信號(hào)預(yù)測的動(dòng)作概率。最大化顧客與商品的匹配程度是一個(gè)帶權(quán)二部圖匹配問題,我們使用了的Hungarian[8]匹配算法對商品與顧客進(jìn)行匹配,考慮到業(yè)務(wù)場景中顧客常常分批次進(jìn)店購物(通常間隔十幾分鐘同時(shí)進(jìn)店兩三個(gè)人),商品與顧客通常只在很短的幾分鐘時(shí)間內(nèi)存在可能的匹配關(guān)系,該二部圖實(shí)際上由多個(gè)不連通的子圖構(gòu)成(如圖所示):
圖9. 人貨匹配的二部圖中存在多個(gè)子圖
因此我們在匹配算法之前先將二部圖分成了多個(gè)不連通的子圖,對每個(gè)子圖單獨(dú)進(jìn)行匹配以降低計(jì)算與存儲(chǔ)復(fù)雜度。在使用鄰接矩陣存儲(chǔ)邊權(quán)關(guān)系時(shí),分成子圖匹配大大提高了算法效率,將匹配全天數(shù)百至數(shù)千個(gè)顧客與商品所耗費(fèi)時(shí)間從數(shù)個(gè)小時(shí)降低到了幾分鐘的量級。
3.3 結(jié)論與分析
基于二部圖匹配的人貨關(guān)聯(lián)算法可以得到商品與顧客之間的全天最佳匹配,改進(jìn)后的算法大大提高了計(jì)算效率,將匹配全天顧客與行人耗費(fèi)計(jì)算時(shí)間從數(shù)個(gè)小時(shí)降低到幾分鐘以內(nèi)。同時(shí),人貨關(guān)聯(lián)算法是整體人貨關(guān)聯(lián)的最終環(huán)節(jié),人貨關(guān)聯(lián)的準(zhǔn)確性受到顧客檢測準(zhǔn)確性、基于單幀圖片檢測的顧客動(dòng)作準(zhǔn)確性(89%)、基于RFID的商品翻動(dòng)行為檢測準(zhǔn)確性(94%)以及人貨關(guān)聯(lián)匹配程度準(zhǔn)確性等各個(gè)上游算法模型準(zhǔn)確性的影響。
4. 結(jié)論與分析
我們整合了上述算法:
基于圖像的顧客動(dòng)作檢測算法;
基于射頻信號(hào)的商品翻動(dòng)檢測算法;
基于二部圖匹配的人貨關(guān)聯(lián)算法。
并在門店中進(jìn)行實(shí)際預(yù)測。為了便于理解,這里給出了算法檢測出的若干示例結(jié)果:“何時(shí)(時(shí)刻)、何地(圖像坐標(biāo))、何人(行人ID)、與何種商品(商品SKU)發(fā)生交互”。
其中行人ID是顧客檢測算法為進(jìn)店用戶賦予的編號(hào),坐標(biāo)這里給出的是圖像中的坐標(biāo),并在下游流程中可以變換至其在店鋪中的物理位置,SnapShot是算法匹配上的顧客在翻動(dòng)商品的瞬間。
基于單幀圖片的動(dòng)作檢測盡管精度偏低,但是對提高顧客與商品的關(guān)聯(lián)準(zhǔn)確性卻有明顯的作用。我們對比分析了不作單幀圖片動(dòng)作檢測關(guān)聯(lián)得到的人貨數(shù)據(jù)與基于單幀圖片動(dòng)作檢測關(guān)聯(lián)得到的人貨數(shù)據(jù),發(fā)現(xiàn)基于單幀圖片的動(dòng)作檢測算法將匹配的最終準(zhǔn)確率從40.6%提高到了85.8%。
由于人貨關(guān)聯(lián)算法是整體人貨關(guān)聯(lián)的最終環(huán)節(jié),人貨關(guān)聯(lián)的準(zhǔn)確性受到各個(gè)上游算法模型準(zhǔn)確性的影響,我們通過時(shí)間關(guān)聯(lián)程度與動(dòng)作可疑程度兩個(gè)維度同時(shí)進(jìn)行匹配,使得最終的匹配行人與翻動(dòng)商品的準(zhǔn)確率可以達(dá)到85.8%。說明了:
人貨場精細(xì)到商品SKU與行人動(dòng)作秒級的關(guān)聯(lián)是切實(shí)可行的;
基于無監(jiān)督的RFID檢測算法可以降低規(guī)?;渴鹕唐贩瓌?dòng)檢測算法的難度;
基于單幀圖片的行人動(dòng)作檢測算法切實(shí)有效并可以直接在后端服務(wù)器環(huán)境規(guī)?;际穑?/p>
同時(shí),算法目前仍處于初級階段,在以下若干個(gè)方向中仍需進(jìn)一步化化擴(kuò)展:
1.基于單幀圖片的行人動(dòng)作檢測算法仍有很大的優(yōu)化空間:數(shù)據(jù)集從千張正例提升到數(shù)萬張正例可能可以帶來顯著性能提升,服務(wù)器可以承受更多的計(jì)算壓力,因此分類模型可以嘗試VGG, ResNet, Inception等更優(yōu)的模型。
2.目前的單幀圖片動(dòng)作檢測算法位置上只精確到行人位置,可以嘗試檢測模型將定位精度精確到動(dòng)作發(fā)生位置。
3.目前RFID接收器只能檢測附近1~3米內(nèi)幾十個(gè)商品到幾百個(gè)商品的信號(hào),同時(shí)RFID接收器的采集頻率,天線輪詢機(jī)制對RFID檢測的容量與范圍帶來很大限制。RFID檢測算法從硬件層開始優(yōu)化可以實(shí)現(xiàn)大大降低成本并提升檢測容量、范圍與精度。
4.無監(jiān)督的RFID商品翻動(dòng)檢測算法依賴域值調(diào)試,尋找可以泛化到不同門店的無監(jiān)督檢測算法仍然有很大優(yōu)化空間。
5.關(guān)聯(lián)人貨目前基于時(shí)間與動(dòng)作可疑程度,進(jìn)一步可以依據(jù)粗略的商品位置與行人位置進(jìn)行關(guān)聯(lián),對于提高關(guān)聯(lián)準(zhǔn)確率將會(huì)有較大作用。