新聞中心
或許文字和圖片就已經(jīng)足夠了。
創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比延慶網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式延慶網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋延慶地區(qū)。費(fèi)用合理售后完善,十載實(shí)體公司更值得信賴。
編者按:本文來自微信公眾號“品玩”(ID:pinwancool),作者:油醋,36氪經(jīng)授權(quán)發(fā)布。
這個(gè)片段的出處是哪兒?這種問題就像是手撓不到后背的癢。
大部分時(shí)候,遇到這樣的情況,你可以做的就是把視頻里的金句摘出來,用文字去網(wǎng)上問。不然,就截圖去搜索引擎或者視頻平臺上搜。兩者的前提都是把你看到的視頻片段再降些維度,抽象成更簡單的東西。但如果碰上冷門的視頻或者視頻中的語言你無法聽懂,難題就來了。
所以,能不能直接用視頻搜視頻呢?
文字搜萬物
目前來看,人們討論的“視頻搜索”更多依托于傳統(tǒng)的輸入文字完成搜索的模式。
抖音方面此前表示,抖音搜索在技術(shù)上會(huì)重點(diǎn)關(guān)注多模態(tài)信號補(bǔ)充,基于此,有兩項(xiàng)技術(shù)在輔佐著這種傳統(tǒng)意義上的視頻搜索的精確性——OCR(光學(xué)文字識別)和ASR(語音識別)。
OCR全稱Optical Character Recognition,直白點(diǎn)說就是能把圖像中的(換到視頻就是其中某幾楨)出現(xiàn)的文字識別出來。路況監(jiān)控讀取車牌,拍照上傳銀行卡面讀取卡號都是這項(xiàng)技術(shù)的日常應(yīng)用。目前常用的OCR庫有Google的開源項(xiàng)目tesseract以及微軟提供ApI的Azure。在國內(nèi)機(jī)器學(xué)習(xí)技術(shù)頂尖的百度也在去年開源了自己的OCR庫paddleOCR。
ASR(Automatic Speech Recognition)則與OCR對應(yīng),可以用于將視頻內(nèi)容中的語音內(nèi)容提取出來,成為被檢索的標(biāo)記。SIRI與微信語音轉(zhuǎn)文字都是這項(xiàng)技術(shù)的應(yīng)用。
但這兩項(xiàng)技術(shù)實(shí)際上只能完成最淺的視頻搜索情景,它們的基礎(chǔ)是“我知道我要看的東西叫什么”,并且最好視頻本身已經(jīng)預(yù)制了文本標(biāo)簽。
如果只是依靠OCR與ASR技術(shù),同樣的一只老虎在理論上需要脖子上掛一塊牌子寫著“老虎”才能被搜索出來。并且很可能脖子上寫的是“我不是老虎”的那些,也會(huì)出現(xiàn)在搜索結(jié)果里。
但比如我想要搜索電影《機(jī)器人總動(dòng)員》里的“瓦力”,又不知道電影和機(jī)器人的名字,我可能就只能搜“長得一個(gè)垃圾桶的機(jī)器人”,然后期待茫茫人海中有人給“瓦力”標(biāo)記“垃圾桶”,之后托付給偉大的機(jī)器學(xué)習(xí)。
而它仍然很有可能把天行者盧克身邊的R2-D2推給我。
其實(shí)谷歌在2017年就已經(jīng)對視頻搜索技術(shù)做了推進(jìn)。
當(dāng)時(shí)的Google Cloud Next云端大會(huì)上,谷歌公開了一個(gè)基于深度機(jī)器學(xué)習(xí)的視頻技術(shù)應(yīng)用Cloud Video Intelligence ApI。當(dāng)時(shí)的谷歌副總裁李飛飛現(xiàn)場演示了谷歌在深度機(jī)器學(xué)習(xí)的基礎(chǔ)上,已經(jīng)可以做到在視頻中精確定位某個(gè)客體出現(xiàn)的時(shí)間。
這項(xiàng)技術(shù)在視頻搜索上的意義是可以將純粹的圖像信息進(jìn)行歸類,讓它們可以被檢索。比如搜索“老虎”,在視頻資料庫中所有與老虎相關(guān)的視頻都會(huì)被標(biāo)記并且按相關(guān)程度列出。這項(xiàng)技術(shù)解決了搜索過程中只能將一切轉(zhuǎn)化為文字再進(jìn)行機(jī)器學(xué)習(xí)或者匹配的一般邏輯,李飛飛也視其為“黑暗中為數(shù)字世界點(diǎn)燃一盞燭光”。
同樣是2017年,阿里文娛和達(dá)摩院在視頻搜索上也進(jìn)行了關(guān)于語言、語音等多模態(tài)視頻搜索的實(shí)踐。其中一個(gè)技術(shù)方案是利用人臉識別的技術(shù),識別出視頻中出現(xiàn)的人物如黃子韜、易烊千璽,“再通過 OCR/ASR 技術(shù),識別各視頻中的對話內(nèi)容并轉(zhuǎn)化成文本,然后基于文本去做結(jié)構(gòu)化理解”。
2019年事情又往前推進(jìn)了一步。谷歌開始嘗試在涉及Youtube的英文視頻搜索中直接顯示視頻中段的相關(guān)內(nèi)容。Engadget的報(bào)道稱,這意味著如果你要搜索某支曲子,搜索結(jié)果會(huì)顯示某場包含這首曲子的音樂會(huì),并且進(jìn)度條直接拉到這首曲子的位置。
但這項(xiàng)技術(shù)目前仍然依賴上傳者在視頻中手動(dòng)添加時(shí)間標(biāo)記。并且這樣的技術(shù)本質(zhì)上仍然是將其他模態(tài)形式的信息轉(zhuǎn)譯成文本,并沒有動(dòng)搖傳統(tǒng)搜索模式以文字輸入為基礎(chǔ)的基本形態(tài)。
丟掉文字,視頻搜視頻?
回到開頭的問題,我如果手頭上只有一個(gè)視頻片段,要怎么搜索呢?依賴文字輸入的搜索功能并不能完成這個(gè)任務(wù)。這時(shí)候只能以視頻搜索視頻。
現(xiàn)實(shí)的情況是,把一整個(gè)視頻作為搜索依據(jù)還有點(diǎn)難,不過可以將視頻定格在某一楨,而這其實(shí)就是現(xiàn)在已經(jīng)隨處可見的圖片搜索。
圖片搜索最早要追溯到28年前。
1992年,日本學(xué)者T.Kato在一篇論文里首次提出了基于內(nèi)容的圖像檢索(CbIR)概念。CbIR技術(shù)通俗來說是一種匹配技術(shù)。在輸入一個(gè)樣本圖片文件時(shí),將圖像中的色彩(顏色直方圖、顏色一致性矢量等參數(shù))、形狀(面積、曲率等)和紋理等信息進(jìn)行特征提取,進(jìn)行編碼,然后將圖像編碼放到信息庫中去尋找相似圖像。
基于此,IbM Aimaden研究中心開發(fā)了第一個(gè)商用的CbIR系統(tǒng)QbIC。谷歌也在2001年推出了圖片搜索服務(wù)。而在精確度方面的發(fā)展,則托付給了深度學(xué)習(xí)技術(shù)。
抖音在2019年曾推出過抖音識圖的功能,用戶可以通過這個(gè)功能搜索到一則短視頻中出現(xiàn)人物的所有抖音視頻。但抖音推出識圖功能的主要?jiǎng)恿€是其在電商方面的潛力。利用這項(xiàng)技術(shù),抖音博主自己帶貨的衣服可以直接被識別出來鏈接到商品,節(jié)約了中間更多的跳轉(zhuǎn)步驟。
而在2020年,阿里巴巴淘系技術(shù)部與北京大學(xué)前沿計(jì)算研究中心CVDA實(shí)驗(yàn)室、英國愛丁堡大學(xué)等合作,正式開源業(yè)界首個(gè)大規(guī)模的多模態(tài)直播服飾檢索數(shù)據(jù)集(Watch and buy)。借助pixelAI 商品識別算法,商品的圖片識別已經(jīng)可以被應(yīng)用在直播環(huán)境中。
但圖片搜索所面臨的風(fēng)險(xiǎn)也高于文字,美國媒體DIGITAL TREND在抖音識圖上線后不久就表示出對于私人視頻信息安全的質(zhì)疑,而這個(gè)實(shí)驗(yàn)性的功能目前也已經(jīng)從抖音的側(cè)欄里下線。
不過,這些技術(shù)已經(jīng)基本能滿足大多數(shù)的視頻搜索需求??梢钥闯?,目前的搜索邏輯都是從低維到高維(文字搜圖片,圖片搜視頻),在各種媒介形式中,視頻是復(fù)雜程度最高的。另一方面,視頻形式對于用戶來說完成度太高,把所有東西都揉在一起。如果能通過搜索功能把與視頻相關(guān)的文字和圖片搜索結(jié)果拆解出來,這可能才是視頻媒介越來越成為主流之后,我們對視頻搜索的期待。
但鑒于在視頻在保存和格式統(tǒng)一上的高門檻,其作為搜索輸入端的價(jià)值不高。并且由于版權(quán)限制,視頻素材未來會(huì)越來越被各個(gè)平臺圈地保護(hù),這又導(dǎo)致視頻搜索先天性地只能變成某種形式的站內(nèi)搜索,而失去了作為一個(gè)開放搜索平臺的內(nèi)容寬度。
所以無論怎么看,用視頻搜索內(nèi)容可能仍然是個(gè)遙遠(yuǎn)的事情
文章題目:我們是否需要視頻搜索?
當(dāng)前URL:http://fisionsoft.com.cn/article/sccisi.html