有声读物,天下高月小说

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

我們是否需要視頻搜索？

或許文字和圖片就已經(jīng)足夠了。

創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比延慶網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式延慶網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們，業(yè)務(wù)覆蓋延慶地區(qū)。費(fèi)用合理售后完善，十載實(shí)體公司更值得信賴。

編者按：本文來自微信公眾號“品玩”（ID:pinwancool），作者：油醋，36氪經(jīng)授權(quán)發(fā)布。

這個(gè)片段的出處是哪兒？這種問題就像是手撓不到后背的癢。

大部分時(shí)候，遇到這樣的情況，你可以做的就是把視頻里的金句摘出來，用文字去網(wǎng)上問。不然，就截圖去搜索引擎或者視頻平臺上搜。兩者的前提都是把你看到的視頻片段再降些維度，抽象成更簡單的東西。但如果碰上冷門的視頻或者視頻中的語言你無法聽懂，難題就來了。

所以，能不能直接用視頻搜視頻呢？

文字搜萬物

目前來看，人們討論的“視頻搜索”更多依托于傳統(tǒng)的輸入文字完成搜索的模式。

抖音方面此前表示，抖音搜索在技術(shù)上會(huì)重點(diǎn)關(guān)注多模態(tài)信號補(bǔ)充，基于此，有兩項(xiàng)技術(shù)在輔佐著這種傳統(tǒng)意義上的視頻搜索的精確性——OCR（光學(xué)文字識別）和ASR（語音識別）。

OCR全稱Optical Character Recognition，直白點(diǎn)說就是能把圖像中的（換到視頻就是其中某幾楨）出現(xiàn)的文字識別出來。路況監(jiān)控讀取車牌，拍照上傳銀行卡面讀取卡號都是這項(xiàng)技術(shù)的日常應(yīng)用。目前常用的OCR庫有Google的開源項(xiàng)目tesseract以及微軟提供ApI的Azure。在國內(nèi)機(jī)器學(xué)習(xí)技術(shù)頂尖的百度也在去年開源了自己的OCR庫paddleOCR。

ASR（Automatic Speech Recognition）則與OCR對應(yīng)，可以用于將視頻內(nèi)容中的語音內(nèi)容提取出來，成為被檢索的標(biāo)記。SIRI與微信語音轉(zhuǎn)文字都是這項(xiàng)技術(shù)的應(yīng)用。

但這兩項(xiàng)技術(shù)實(shí)際上只能完成最淺的視頻搜索情景，它們的基礎(chǔ)是“我知道我要看的東西叫什么”，并且最好視頻本身已經(jīng)預(yù)制了文本標(biāo)簽。

如果只是依靠OCR與ASR技術(shù)，同樣的一只老虎在理論上需要脖子上掛一塊牌子寫著“老虎”才能被搜索出來。并且很可能脖子上寫的是“我不是老虎”的那些，也會(huì)出現(xiàn)在搜索結(jié)果里。

但比如我想要搜索電影《機(jī)器人總動(dòng)員》里的“瓦力”，又不知道電影和機(jī)器人的名字，我可能就只能搜“長得一個(gè)垃圾桶的機(jī)器人”，然后期待茫茫人海中有人給“瓦力”標(biāo)記“垃圾桶”，之后托付給偉大的機(jī)器學(xué)習(xí)。

而它仍然很有可能把天行者盧克身邊的R2-D2推給我。

其實(shí)谷歌在2017年就已經(jīng)對視頻搜索技術(shù)做了推進(jìn)。

當(dāng)時(shí)的Google Cloud Next云端大會(huì)上，谷歌公開了一個(gè)基于深度機(jī)器學(xué)習(xí)的視頻技術(shù)應(yīng)用Cloud Video Intelligence ApI。當(dāng)時(shí)的谷歌副總裁李飛飛現(xiàn)場演示了谷歌在深度機(jī)器學(xué)習(xí)的基礎(chǔ)上，已經(jīng)可以做到在視頻中精確定位某個(gè)客體出現(xiàn)的時(shí)間。

這項(xiàng)技術(shù)在視頻搜索上的意義是可以將純粹的圖像信息進(jìn)行歸類，讓它們可以被檢索。比如搜索“老虎”，在視頻資料庫中所有與老虎相關(guān)的視頻都會(huì)被標(biāo)記并且按相關(guān)程度列出。這項(xiàng)技術(shù)解決了搜索過程中只能將一切轉(zhuǎn)化為文字再進(jìn)行機(jī)器學(xué)習(xí)或者匹配的一般邏輯，李飛飛也視其為“黑暗中為數(shù)字世界點(diǎn)燃一盞燭光”。

同樣是2017年，阿里文娛和達(dá)摩院在視頻搜索上也進(jìn)行了關(guān)于語言、語音等多模態(tài)視頻搜索的實(shí)踐。其中一個(gè)技術(shù)方案是利用人臉識別的技術(shù)，識別出視頻中出現(xiàn)的人物如黃子韜、易烊千璽，“再通過 OCR/ASR 技術(shù)，識別各視頻中的對話內(nèi)容并轉(zhuǎn)化成文本，然后基于文本去做結(jié)構(gòu)化理解”。

2019年事情又往前推進(jìn)了一步。谷歌開始嘗試在涉及Youtube的英文視頻搜索中直接顯示視頻中段的相關(guān)內(nèi)容。Engadget的報(bào)道稱，這意味著如果你要搜索某支曲子，搜索結(jié)果會(huì)顯示某場包含這首曲子的音樂會(huì)，并且進(jìn)度條直接拉到這首曲子的位置。

但這項(xiàng)技術(shù)目前仍然依賴上傳者在視頻中手動(dòng)添加時(shí)間標(biāo)記。并且這樣的技術(shù)本質(zhì)上仍然是將其他模態(tài)形式的信息轉(zhuǎn)譯成文本，并沒有動(dòng)搖傳統(tǒng)搜索模式以文字輸入為基礎(chǔ)的基本形態(tài)。

丟掉文字，視頻搜視頻？

回到開頭的問題，我如果手頭上只有一個(gè)視頻片段，要怎么搜索呢？依賴文字輸入的搜索功能并不能完成這個(gè)任務(wù)。這時(shí)候只能以視頻搜索視頻。

現(xiàn)實(shí)的情況是，把一整個(gè)視頻作為搜索依據(jù)還有點(diǎn)難，不過可以將視頻定格在某一楨，而這其實(shí)就是現(xiàn)在已經(jīng)隨處可見的圖片搜索。

圖片搜索最早要追溯到28年前。

1992年，日本學(xué)者T.Kato在一篇論文里首次提出了基于內(nèi)容的圖像檢索（CbIR）概念。CbIR技術(shù)通俗來說是一種匹配技術(shù)。在輸入一個(gè)樣本圖片文件時(shí)，將圖像中的色彩（顏色直方圖、顏色一致性矢量等參數(shù)）、形狀（面積、曲率等）和紋理等信息進(jìn)行特征提取，進(jìn)行編碼，然后將圖像編碼放到信息庫中去尋找相似圖像。

基于此，IbM Aimaden研究中心開發(fā)了第一個(gè)商用的CbIR系統(tǒng)QbIC。谷歌也在2001年推出了圖片搜索服務(wù)。而在精確度方面的發(fā)展，則托付給了深度學(xué)習(xí)技術(shù)。

抖音在2019年曾推出過抖音識圖的功能，用戶可以通過這個(gè)功能搜索到一則短視頻中出現(xiàn)人物的所有抖音視頻。但抖音推出識圖功能的主要?jiǎng)恿€是其在電商方面的潛力。利用這項(xiàng)技術(shù)，抖音博主自己帶貨的衣服可以直接被識別出來鏈接到商品，節(jié)約了中間更多的跳轉(zhuǎn)步驟。

而在2020年，阿里巴巴淘系技術(shù)部與北京大學(xué)前沿計(jì)算研究中心CVDA實(shí)驗(yàn)室、英國愛丁堡大學(xué)等合作，正式開源業(yè)界首個(gè)大規(guī)模的多模態(tài)直播服飾檢索數(shù)據(jù)集（Watch and buy）。借助pixelAI 商品識別算法，商品的圖片識別已經(jīng)可以被應(yīng)用在直播環(huán)境中。

但圖片搜索所面臨的風(fēng)險(xiǎn)也高于文字，美國媒體DIGITAL TREND在抖音識圖上線后不久就表示出對于私人視頻信息安全的質(zhì)疑，而這個(gè)實(shí)驗(yàn)性的功能目前也已經(jīng)從抖音的側(cè)欄里下線。

不過，這些技術(shù)已經(jīng)基本能滿足大多數(shù)的視頻搜索需求?？梢钥闯?，目前的搜索邏輯都是從低維到高維（文字搜圖片，圖片搜視頻），在各種媒介形式中，視頻是復(fù)雜程度最高的。另一方面，視頻形式對于用戶來說完成度太高，把所有東西都揉在一起。如果能通過搜索功能把與視頻相關(guān)的文字和圖片搜索結(jié)果拆解出來，這可能才是視頻媒介越來越成為主流之后，我們對視頻搜索的期待。

但鑒于在視頻在保存和格式統(tǒng)一上的高門檻，其作為搜索輸入端的價(jià)值不高。并且由于版權(quán)限制，視頻素材未來會(huì)越來越被各個(gè)平臺圈地保護(hù)，這又導(dǎo)致視頻搜索先天性地只能變成某種形式的站內(nèi)搜索，而失去了作為一個(gè)開放搜索平臺的內(nèi)容寬度。

所以無論怎么看，用視頻搜索內(nèi)容可能仍然是個(gè)遙遠(yuǎn)的事情

文章題目：我們是否需要視頻搜索？
當(dāng)前URL：http://fisionsoft.com.cn/article/sccisi.html

新聞中心

其他資訊