互聯(lián)網(wǎng)傳播的絕大部分內(nèi)容都是視頻數(shù)據(jù)。這些視頻都是什么內(nèi)容?是否包含危害公共安全的內(nèi)容或者不良信息?能否設(shè)計(jì)一個(gè)系統(tǒng),對(duì)實(shí)時(shí)傳輸中的視頻流與事先收集的樣本庫(kù)進(jìn)行實(shí)時(shí)比對(duì),把完全一致的和近似的視頻內(nèi)容挑選出來(lái)?實(shí)現(xiàn)這個(gè)目的的技術(shù)即為視頻檢索。視頻檢索是一項(xiàng)基礎(chǔ)技術(shù),是機(jī)器視覺(jué)的一個(gè)分支。很多應(yīng)用依賴于視頻檢索,如視頻拷貝檢測(cè)、視頻內(nèi)容分類、輿情監(jiān)測(cè)和公共安全等。
高性能檢索的難度
視頻傳播和存儲(chǔ)的形式是經(jīng)過(guò)編碼壓縮的數(shù)據(jù),即碼流。當(dāng)前普遍使用的壓縮編解碼標(biāo)準(zhǔn)有H.264和 H.265,具有很好的壓縮效果和較快的解碼速率。視頻碼流只要經(jīng)過(guò)一次解碼再編碼,就會(huì)有很大變化,這是因?yàn)榫幋a過(guò)程有信號(hào)失真。如果對(duì)視頻進(jìn)行剪輯、編輯、渲染、加字幕、改變分辨率等處理,處理后的視頻,即使內(nèi)容基本相同,其碼流也會(huì)有很大區(qū)別。因此無(wú)法根據(jù)碼流判斷視頻內(nèi)容。
對(duì)視頻的任何改變就會(huì)引起再編碼,比如改變分辨率、加字幕、加LOGO等。視頻可以分解為圖像幀。視頻檢索的問(wèn)題轉(zhuǎn)化為圖像幀比對(duì)。
一個(gè)高清視頻(1080P)用H.264編碼后的碼流約為6 Mbps,解碼后的數(shù)據(jù)量為720 Mbps。一臺(tái)高配置的服務(wù)器,用解碼軟件可以同時(shí)解碼8路1080P視頻。提取圖像幀特征的常用算法是SIFT和SURF。提取的速度一般為2~4路視頻的實(shí)時(shí)計(jì)算。特征檢索的性能與樣本庫(kù)的容量有關(guān)。傳統(tǒng)的K-D樹(shù)進(jìn)行大規(guī)模高維數(shù)據(jù)的比對(duì),速度非常慢,可能達(dá)不到2路視頻的實(shí)時(shí)比對(duì)。如果要對(duì)超過(guò)8路高清視頻進(jìn)行大規(guī)模樣本庫(kù)的檢索,視頻解碼、特征提取和特征檢索都有很大挑戰(zhàn)。
恒揚(yáng)數(shù)據(jù)研發(fā)的高性能視頻檢索(HVR,High-performance Video Retrieval)系統(tǒng)根據(jù)性能不同有兩種規(guī)格(HVR-384和HVR-192)。HVR采用恒揚(yáng)數(shù)據(jù)開(kāi)發(fā)的專用硬件,具有業(yè)界領(lǐng)先水平。本產(chǎn)品集成了專用SOC硬件芯片實(shí)現(xiàn)視頻解碼,采用最新卷積神經(jīng)網(wǎng)絡(luò)CNN技術(shù)實(shí)現(xiàn)了圖像特征計(jì)算,運(yùn)用基于圖論的大規(guī)模高維度數(shù)據(jù)搜索算法實(shí)現(xiàn)了億級(jí)圖像毫秒級(jí)搜索的功能,是一個(gè)軟件和專用硬件結(jié)合的高性能解決方案,引領(lǐng)高性能視頻和圖片檢索的最新技術(shù)方向。