新聞中心
抖音云原生向量數(shù)據(jù)庫(kù)從“非主流”到“新常態(tài)”的演變
作者:楊濤 2023-10-31 07:45:02
云計(jì)算
云原生
其他數(shù)據(jù)庫(kù) 隨著深度學(xué)習(xí)廣泛應(yīng)用于多種場(chǎng)景,一切皆可Embedding已成為行業(yè)共識(shí),同時(shí)對(duì)embedding的產(chǎn)物——向量的檢索需求也隨之出現(xiàn)。然而,向量檢索和傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)檢索所面臨的挑戰(zhàn)并不完全相同。本文將介紹抖音在向量檢索方面逐步迭代的工程實(shí)踐經(jīng)驗(yàn)。

德宏州網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)建站!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營(yíng)維護(hù)。創(chuàng)新互聯(lián)建站公司2013年成立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)建站。
一、向量數(shù)據(jù)庫(kù)產(chǎn)生的背景
1、非結(jié)構(gòu)化數(shù)據(jù)檢索問(wèn)題
結(jié)構(gòu)化數(shù)據(jù)是指可以表示成二維表格的數(shù)據(jù),它有明確固定的字段和類型。而非結(jié)構(gòu)化數(shù)據(jù)是指不能表示成二維表格的數(shù)據(jù),例如:文本、圖片、視頻。抖音集團(tuán)的產(chǎn)品矩陣每天都會(huì)產(chǎn)生海量的數(shù)據(jù),其中結(jié)構(gòu)化數(shù)據(jù)只占一小部分,大部分?jǐn)?shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),業(yè)界通常認(rèn)為非結(jié)構(gòu)化數(shù)據(jù)會(huì)占全部數(shù)據(jù)的80%,但是對(duì)于抖音集團(tuán)的業(yè)務(wù)形態(tài),非結(jié)構(gòu)化數(shù)據(jù)的占比只會(huì)更高。如何利用好這些非結(jié)構(gòu)化數(shù)據(jù)對(duì)我們產(chǎn)品功能的完善,業(yè)務(wù)效果的提升都至關(guān)重要。
對(duì)非結(jié)構(gòu)化數(shù)據(jù)的檢索,以文本檢索為例,傳統(tǒng)上使用倒排索引,結(jié)合BM25,TF-IDF算法進(jìn)行。這種方法有一些問(wèn)題:
- 文本泛化能力、語(yǔ)義檢索能力不足。
- 基于切詞結(jié)果,難以推廣到圖片視頻等多模態(tài)場(chǎng)景。
- 數(shù)據(jù)持續(xù)增長(zhǎng)時(shí)性能不足。
但是,現(xiàn)在有了深度學(xué)習(xí),這產(chǎn)生了向量表示法,通過(guò)語(yǔ)言模型(如doc2vec、bert、LLM等),將文本轉(zhuǎn)換為向量,從而將非結(jié)構(gòu)化數(shù)據(jù)檢索問(wèn)題轉(zhuǎn)化為向量近似檢索問(wèn)題。
2、向量檢索的核心概念
向量檢索是從一堆向量里找到和某個(gè)給定向量相似的一批向量,這里有三個(gè)問(wèn)題需要明確:
- 如何衡量向量間的相似性?通常使用的度量方式有歐氏距離、內(nèi)積和余弦距離。
- 需要檢索出多少個(gè)結(jié)果?通常指定一個(gè)整數(shù)topK。
- 如何評(píng)估檢索效果?需要平衡檢索精度和檢索效率兩個(gè)指標(biāo)
通常受限于算力和響應(yīng)時(shí)間,向量檢索得到的是近似最優(yōu)結(jié)果。常見(jiàn)的做法可以分為三類(三類也可結(jié)合進(jìn)行):
- 近似最近鄰算法(ANN)。借助輔助結(jié)構(gòu)進(jìn)行剪枝,以加快檢索速度,常見(jiàn)的有:HNSW,IVF。
- 量化算法。通過(guò)降低相關(guān)性計(jì)算開銷來(lái)加速檢索過(guò)程,如PQ算法,標(biāo)量量化。
- 實(shí)現(xiàn)上的優(yōu)化。SIMD硬件指令集加速方案;內(nèi)存編排:提高cache命中率。
抖音集團(tuán)實(shí)踐:
- 在ANN算法方面,我們對(duì)開源HNSW進(jìn)行了優(yōu)化,并自主研發(fā)了IVF算法,在保持檢索精度的同時(shí)提高了性能;
- 在量化方面,除了PQ量化外,我們還自主研發(fā)了一套標(biāo)量量化算法,支持int16、int8和int4量化,實(shí)現(xiàn)了單張T4顯卡(2億候選向量)的檢索;
- 在SIMD和內(nèi)存編排等實(shí)現(xiàn)層面的優(yōu)化上也做了大量的工作。
3、從檢索算法到向量數(shù)據(jù)庫(kù)
把向量檢索的這些功能整合起來(lái),就形成了向量數(shù)據(jù)庫(kù)。
向量數(shù)據(jù)庫(kù)的接口包括存儲(chǔ)和檢索向量。在功能劃分上,包含存儲(chǔ)、檢索和分析。同時(shí),作為在線服務(wù),高可用、高性能和易用性都要具備。
完成這些后,一個(gè)具備核心向量檢索功能的向量數(shù)據(jù)庫(kù)就誕生了。這是一個(gè)存算一體的向量數(shù)據(jù)庫(kù)。
二、向量數(shù)據(jù)庫(kù)的技術(shù)演進(jìn)
1、向量標(biāo)量混合檢索
當(dāng)向量數(shù)據(jù)庫(kù)推向業(yè)務(wù)場(chǎng)景時(shí),我們發(fā)現(xiàn),向量數(shù)據(jù)通常與結(jié)構(gòu)化數(shù)據(jù)配合使用。例如,在將文檔表示為向量的同時(shí),還需要存儲(chǔ)文檔所屬的部門,以方便在檢索時(shí)進(jìn)行權(quán)限過(guò)濾。這類需求可以抽象為使用與向量相關(guān)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行過(guò)濾。
業(yè)界對(duì)于這種過(guò)濾需求通常有兩種解決方案:
- 后過(guò)濾。將topK的結(jié)果擴(kuò)大一定倍數(shù),檢索出更多的向量,然后用結(jié)構(gòu)化數(shù)據(jù)做過(guò)濾,留下topK個(gè)。對(duì)于向量檢索和DSL過(guò)濾結(jié)果的重合較少的情況,可能會(huì)出現(xiàn)召回結(jié)果不足topK的情況。因此,這種方法適用于結(jié)構(gòu)化過(guò)濾掉的比例較低,向量召回結(jié)果比例較高的場(chǎng)景。
- 先過(guò)濾。先使用DSL過(guò)濾數(shù)據(jù)集,然后在結(jié)果中進(jìn)行向量檢索。這種方案適用于DSL過(guò)濾結(jié)果較少的場(chǎng)景;如果結(jié)果較大的話,性能會(huì)有明顯的下降。
業(yè)界通常結(jié)合兩種方案,對(duì)檢索任務(wù)進(jìn)行編排,通過(guò)分析數(shù)據(jù)分布,來(lái)決定使用哪種方案。但是,隨著數(shù)據(jù)量的增加,仍然可能會(huì)出現(xiàn)兩種檢索鏈路性能都不好的情況。
抖音集團(tuán)實(shí)踐:為解決這一問(wèn)題,技術(shù)團(tuán)隊(duì)研發(fā)了DSL定向引擎,支持在檢索過(guò)程中同時(shí)進(jìn)行向量檢索和DSL過(guò)濾(結(jié)構(gòu)化過(guò)濾)。該引擎具有以下特點(diǎn):
- 高性能:因?yàn)樵谶M(jìn)行DSL過(guò)濾時(shí),只需提取部分向量進(jìn)行相似度計(jì)算,這會(huì)打斷內(nèi)存連續(xù)性,從而降低向量檢索的性能。因此,DSL過(guò)濾判斷的開銷必須足夠低,要求它遠(yuǎn)低于向量檢索的開銷,以確保在線檢索性能。
- 邏輯完備:DSL語(yǔ)法可以支持根據(jù)場(chǎng)景和用戶的不同定制相應(yīng)的檢索過(guò)濾條件,以支持業(yè)務(wù)在線檢索。
- 按需終止:如果在向量檢索和過(guò)濾過(guò)程中遍歷了足夠多的節(jié)點(diǎn),可以保證檢索效果,則應(yīng)盡快退出該檢索過(guò)程。
- 執(zhí)行計(jì)劃優(yōu)化:根據(jù)DSL過(guò)濾結(jié)果預(yù)估結(jié)合向量分布情況,綜合決策要執(zhí)行的檢索鏈路。
除了DSL定向引擎之外,我們還實(shí)現(xiàn)了子索引拆分、自適應(yīng)精度調(diào)節(jié)和在線多路索引歸并等多種定制化能力,打造了一整套向量檢索工具庫(kù)。
2、存算一體升級(jí)為存算分離
盡管功能逐漸完備,但我們向量數(shù)據(jù)庫(kù)在初期是基于存算一體(存儲(chǔ)和計(jì)算都在同一臺(tái)機(jī)器上)的架構(gòu)實(shí)現(xiàn)的,但在推廣過(guò)程中,這種架構(gòu)在使用上的一些問(wèn)題也逐漸顯現(xiàn)出來(lái)。比如在文檔檢索的場(chǎng)景中,一部分文檔質(zhì)量較高,需要高精度的召回,全局的文檔作為補(bǔ)充,我們還需要區(qū)分部門內(nèi)和部門外的文檔列表來(lái)分開展示。這就要求在同一份向量數(shù)據(jù)上產(chǎn)生不同的可檢索集、不同精度的索引以及不同的候選集。
在存算一體框架下,為了避免影響線上檢索流程,我們使用少量線程異步地完成索引的重建流程。為適配數(shù)據(jù)分布的變化,這個(gè)索引還要定期重建。另外,在有些業(yè)務(wù)場(chǎng)景中,需要使用不同候選、不同精度的檢索策略。如果為每種策略都建立一套索引,這會(huì)進(jìn)一步放大索引構(gòu)建的資源消耗,導(dǎo)致索引構(gòu)建效率低、還會(huì)影響在線服務(wù)穩(wěn)定性。
為此,我們逐步開展了存算分離的架構(gòu)升級(jí)工作。
我們的存算分離架構(gòu),主要分成三個(gè)部分:
- 向量存儲(chǔ)。用戶將他們的向量存儲(chǔ)在向量存儲(chǔ)中。
- 批式構(gòu)建。批式構(gòu)建集群自動(dòng)調(diào)度向量索引的構(gòu)建流程。在此過(guò)程中,會(huì)篩選候選集,根據(jù)不同的精度要求適配不同的參數(shù),構(gòu)建相應(yīng)的索引,然后通過(guò)P2P管道分發(fā)給在線的多副本檢索服務(wù)。
- 在線檢索服務(wù)。負(fù)責(zé)實(shí)時(shí)在線檢索。
這種設(shè)計(jì)除了解決一份向量多個(gè)索引、支持多個(gè)場(chǎng)景的問(wèn)題,還帶來(lái)以下優(yōu)勢(shì):
- 節(jié)省了索引構(gòu)建資源,一次構(gòu)建,多處分發(fā)。
- 加快索引構(gòu)建,因?yàn)榇嫠阋惑w中,為了不影響實(shí)時(shí)檢索性能,構(gòu)建過(guò)程只能使用少量線程(不能使CPU滿負(fù)荷運(yùn)行),而存算分離后,就沒(méi)有這個(gè)限制,可以將CPU滿負(fù)荷運(yùn)行。
- 在線檢索服務(wù)穩(wěn)定性得到明顯提升,因?yàn)闃?gòu)建過(guò)程不再影響在線檢索服務(wù)。
- 對(duì)自動(dòng)調(diào)參特別友好。基于這套存算分離的框架,我們搭建了一套自動(dòng)調(diào)參的工具庫(kù),支持用戶在寫入向量數(shù)據(jù)后、在索引構(gòu)建前以及上線后,持續(xù)對(duì)索引的構(gòu)建參數(shù)和檢索參數(shù)進(jìn)行調(diào)優(yōu)。
3、流式更新
隨著對(duì)時(shí)效性要求較高的業(yè)務(wù)接入,如何有效的提升新內(nèi)容的檢索效率,成為業(yè)務(wù)關(guān)注的重點(diǎn)。例如,在文檔檢索場(chǎng)景中,如果一篇文檔剛寫完,或者新授權(quán)了一個(gè)文檔,用戶需要等待半個(gè)小時(shí)才能檢索到,這在業(yè)務(wù)上是無(wú)法接受的。為了解決這個(gè)問(wèn)題,我們開發(fā)了流式更新能力。
加入了流式更新能力的索引構(gòu)建過(guò)程分為兩個(gè)部分。
- 優(yōu)化批式加流式的更新事件產(chǎn)生過(guò)程。在新版本的索引上線之前,有一個(gè)批式構(gòu)建過(guò)程,這個(gè)過(guò)程需要一些時(shí)間。在構(gòu)建過(guò)程中,仍有新的數(shù)據(jù)更新事件出現(xiàn),這需要在批式版本更新完成時(shí),將流式更新事件訂閱回?fù)艿脚礁麻_始時(shí)的事件時(shí)間。等到追平這個(gè)延遲后,再繼續(xù)流式更新事件。
- 對(duì)索引更新的改造。為了實(shí)時(shí)更新索引,我們對(duì)向量索引進(jìn)行了并發(fā)安全的改造,包括HNSW和IVF索引。在提供在線檢索服務(wù)的同時(shí),我們基本可以實(shí)現(xiàn)向量的增刪改查。這里單獨(dú)把DSL索引提出來(lái),是因?yàn)镈SL索引對(duì)數(shù)據(jù)一致性的要求比較高,一條DSL更新操作寫入的字段較多,數(shù)據(jù)一致性安全和更新并發(fā)性安全會(huì)明顯影響在線檢索性能。因此,我們采用了雙buf的方案,寫入操作只發(fā)生在更新buf上,檢索Buf支持無(wú)鎖的檢索流程,整體的雙buf方案也能做到秒級(jí)的更新延遲。
4、云原生轉(zhuǎn)變
隨著抖音集團(tuán)產(chǎn)品矩陣中的產(chǎn)品越來(lái)越多接入向量數(shù)據(jù)庫(kù),為每個(gè)業(yè)務(wù)都搭建一套存算分離的框架的成本較高,包括部署成本、運(yùn)維成本和硬件成本。為解決這一問(wèn)題,我們對(duì)存算分離的框架進(jìn)行了進(jìn)一步迭代。
- 多租戶編排改造
①向量存儲(chǔ)部分改造為向量存儲(chǔ)集群。
②索引構(gòu)建部分改造為索引構(gòu)建集群。
③在線檢索服務(wù)改造成支持多租戶形式。
我們的資源調(diào)度模塊可以自動(dòng)化的去拉取數(shù)據(jù)開始索引構(gòu)建任務(wù),然后分發(fā)給在線多租戶檢索服務(wù)。改造后的在線檢索服務(wù)支持多路索引,這能進(jìn)一步降低在線服務(wù)的開銷。在初期,為了保證服務(wù)穩(wěn)定性,我們的在線檢索服務(wù)編排是手動(dòng)進(jìn)行的。
- 自動(dòng)化調(diào)度
隨著業(yè)務(wù)增長(zhǎng),索引體積越來(lái)越大,為了保證多租戶服務(wù)的穩(wěn)定性。優(yōu)化手動(dòng)編排,人工選擇集群不合理等問(wèn)題。我們開發(fā)了自動(dòng)化調(diào)度框架。
對(duì)在線檢索服務(wù)編排的改造,主要采用slot化的方式。一個(gè)slot是索引的一個(gè)最小調(diào)度單元。通過(guò)索引元信息管理調(diào)度服務(wù)會(huì)根據(jù)在線檢索服務(wù)配額和實(shí)時(shí)調(diào)用流量,自動(dòng)調(diào)入調(diào)出slot。
為了配合自動(dòng)化調(diào)度方案的上線,我們開發(fā)了很多輔助模塊。例如,索引的流量感知模塊,用于為調(diào)度服務(wù)提供信息,以盡快響應(yīng)整個(gè)索引的流量變化。再比如索引配額管理系統(tǒng),避免有的索引流量突增,影響整個(gè)在線檢索集群的穩(wěn)定性。
其中一個(gè)關(guān)鍵的模塊是索引的精確計(jì)價(jià)系統(tǒng)。為了降低整體在線服務(wù)的計(jì)算成本,我們會(huì)將一些小內(nèi)存的、低請(qǐng)求量的索引調(diào)度到同一個(gè)實(shí)例上。此時(shí),如何統(tǒng)計(jì)和分?jǐn)偝杀揪秃荜P(guān)鍵了。我們實(shí)現(xiàn)了一個(gè)精確到時(shí)鐘周期的開銷監(jiān)控,以進(jìn)行服務(wù)的成本統(tǒng)計(jì)和分?jǐn)偂?/p>
5、火山引擎向量數(shù)據(jù)庫(kù)VikingDB技術(shù)全景
隨著大語(yǔ)言模型的浪潮興起,向量數(shù)據(jù)庫(kù)的商業(yè)價(jià)值也慢慢凸顯出來(lái)。我們決定在火山引擎上線我們的云原生向量數(shù)據(jù)庫(kù),提供和抖音集團(tuán)內(nèi)部向量數(shù)據(jù)庫(kù)完全一致的服務(wù),也會(huì)把內(nèi)部探索和優(yōu)化的成果同步到這個(gè)產(chǎn)品上。
它整體的產(chǎn)品結(jié)構(gòu)如下圖所示。整個(gè)產(chǎn)品基于火山引擎的云基礎(chǔ)設(shè)施,提供經(jīng)過(guò)我們深度打磨和優(yōu)化的各個(gè)引擎,提供從多模態(tài)數(shù)據(jù)寫入,到向量生成,再到在線檢索,以及上線后的彈性調(diào)度和監(jiān)控的一整套全鏈路解決方案。
用戶接入時(shí),通過(guò)我們的多語(yǔ)言SDK或http API寫入自己的非結(jié)構(gòu)化數(shù)據(jù)。然后,使用查詢分析工具對(duì)數(shù)據(jù)進(jìn)行管理和分析。進(jìn)行簡(jiǎn)單配置后,即可自動(dòng)化調(diào)度。從非結(jié)構(gòu)化數(shù)據(jù)到向量生產(chǎn)的pipeline,都通過(guò)平臺(tái)自動(dòng)化調(diào)度實(shí)現(xiàn)。數(shù)據(jù)寫入完成后,還支持在索引上線前進(jìn)行自動(dòng)調(diào)參,上線后進(jìn)行流式更新,以及持續(xù)的自動(dòng)調(diào)參以優(yōu)化整體在線檢索效果和資源成本。在在線檢索階段,支持整體服務(wù)的按需自適應(yīng)彈性調(diào)度。從數(shù)據(jù)寫入到在線檢索的各個(gè)階段,有全鏈路的監(jiān)控和告警,以保證在線服務(wù)的穩(wěn)定性?;谶@套產(chǎn)品,我們預(yù)期會(huì)在大語(yǔ)言模型的智能問(wèn)答、智能搜索、智能推薦廣告、版權(quán)去重等場(chǎng)景下展開廣泛應(yīng)用。
這套云原生向量數(shù)據(jù)庫(kù)有以下幾個(gè)關(guān)鍵優(yōu)勢(shì)。
- 極致性能:內(nèi)置多種火山引擎內(nèi)部自研索引算法,支持內(nèi)部多個(gè)百億庫(kù),百億級(jí)向量檢索規(guī)模,檢索性能在10ms內(nèi)。
- 實(shí)時(shí)性:支持向量數(shù)據(jù)實(shí)時(shí)寫入、實(shí)時(shí)更新,支持實(shí)時(shí)索引、自動(dòng)索引。
- 穩(wěn)定高效:存算分離架構(gòu),單數(shù)據(jù)多場(chǎng)景,節(jié)約計(jì)算資源,提高在線穩(wěn)定性,保證高可用性。
- 多場(chǎng)景最佳實(shí)踐:20+內(nèi)部業(yè)務(wù),多個(gè)百億級(jí)別庫(kù)檢索實(shí)踐,內(nèi)部多個(gè)大模型場(chǎng)景的落地實(shí)踐,例如:飛書問(wèn)答,飛書文檔,搜索中臺(tái)、電商搜索等。
三、向量數(shù)據(jù)庫(kù)的應(yīng)用展望
介紹完我們?cè)谠圃蛄繑?shù)據(jù)庫(kù)上的技術(shù)和優(yōu)勢(shì)后,這一節(jié)對(duì)向量數(shù)據(jù)庫(kù)做一些展望。
1、對(duì)大語(yǔ)言模型(LLM)的能力補(bǔ)充
在大語(yǔ)言模型中,prompt是給大語(yǔ)言模型的輸入。prompt的信息含量會(huì)影響最終回答的質(zhì)量。然而,由于算法原理和計(jì)算能力的限制,prompt的長(zhǎng)度是有限制的。無(wú)論是多輪調(diào)校,還是個(gè)性化問(wèn)答的感知,還是特定領(lǐng)域的知識(shí)灌入,都需要更長(zhǎng)的prompt。其次,由于訓(xùn)練樣本的限制,大語(yǔ)言模型的時(shí)效性存在缺陷,只能知道訓(xùn)練數(shù)據(jù)截止時(shí)輸入的信息,對(duì)于需要時(shí)效性回答的場(chǎng)景需要支持手段。對(duì)于這個(gè)問(wèn)題,向量數(shù)據(jù)庫(kù)可以在一定程度上解決。
- 補(bǔ)充大模型長(zhǎng)期記憶。對(duì)于多輪調(diào)校和個(gè)性化回答,把調(diào)校過(guò)程和用戶的問(wèn)答結(jié)果都通過(guò)文本編碼寫入向量數(shù)據(jù)庫(kù)中,然后在用戶提問(wèn)的過(guò)程中,把問(wèn)題轉(zhuǎn)化為向量,在向量數(shù)據(jù)庫(kù)中查找長(zhǎng)期記憶去回顧歷史,找到和當(dāng)前問(wèn)題最相近的歷史調(diào)校結(jié)果和用戶自己的問(wèn)答,灌入大語(yǔ)言模型的context中優(yōu)化整個(gè)回答的質(zhì)量。
- 補(bǔ)充特定領(lǐng)域知識(shí)。可以在向量數(shù)據(jù)庫(kù)中灌入領(lǐng)域知識(shí)。在用戶提問(wèn)的時(shí)候,提前把相關(guān)的文本信息檢索出來(lái),灌入大模型的context中,去優(yōu)化大語(yǔ)言模型在專業(yè)領(lǐng)域的回答效果。
- 優(yōu)化大模型的時(shí)效性問(wèn)題。比如實(shí)時(shí)熱點(diǎn)新聞,可以通過(guò)流式更新能力,把實(shí)時(shí)信息寫入向量數(shù)據(jù)庫(kù)中。在用戶提問(wèn)實(shí)時(shí)熱點(diǎn)問(wèn)題時(shí),通過(guò)向量數(shù)據(jù)庫(kù)把熱點(diǎn)信息檢索出來(lái),放到大語(yǔ)言模型的上下文中去優(yōu)化回答效果。
2、大語(yǔ)言模型(LLM)潛在的安全解決方案
大語(yǔ)言模型除了prompt長(zhǎng)度限制外,另一個(gè)突出問(wèn)題是數(shù)據(jù)安全問(wèn)題。例如,支付行業(yè)建議大家在支付場(chǎng)景謹(jǐn)慎使用chatGPT。而在互聯(lián)網(wǎng)行業(yè),很多公司也禁用了chatGPT,這都是出于安全角度考慮。
目前,在安全方面有兩個(gè)關(guān)注點(diǎn):
第一,用戶的提問(wèn)會(huì)被記錄下來(lái),這可能導(dǎo)致問(wèn)題被泄露。
第二,A用戶的提問(wèn)可能被作為訓(xùn)練數(shù)據(jù)訓(xùn)練模型,導(dǎo)致其他用戶B在使用時(shí)獲得A用戶提問(wèn)時(shí)提供的隱私信息。這些問(wèn)題預(yù)期可以通過(guò)控制問(wèn)答數(shù)據(jù)的使用方式來(lái)解決。
但是,另一類問(wèn)題從大語(yǔ)言模型的機(jī)制上就難以解決。大語(yǔ)言模型中包含的信息越多,回答質(zhì)量就越好。理論上,我們?cè)谟?xùn)練大語(yǔ)言模型的時(shí)候,或者優(yōu)化它的時(shí)候,希望它具有全局所有的信息。然而,回歸到業(yè)務(wù)場(chǎng)景,企業(yè)內(nèi)部可能會(huì)有密級(jí)比較高的文檔,或者說(shuō)不同人對(duì)信息的權(quán)限是不一樣的。如果大語(yǔ)言模型擁有了全局的信息,也就包含了高密級(jí)的信息,那么沒(méi)有權(quán)限的用戶就可能通過(guò)大語(yǔ)言模型的問(wèn)答來(lái)獲取自己權(quán)限以外的信息。使用向量數(shù)據(jù)庫(kù)后,這一問(wèn)題就可以大大緩解。我們可以通過(guò)向量數(shù)據(jù)庫(kù)的管理機(jī)制,制定分層權(quán)限的知識(shí)庫(kù)體系。這樣,每個(gè)用戶在提問(wèn)時(shí),只能從自己有權(quán)限的知識(shí)庫(kù)中檢索信息,并將檢索到的信息作為context來(lái)優(yōu)化當(dāng)前這輪回答。
最后,基于向量數(shù)據(jù)庫(kù)在非結(jié)構(gòu)化數(shù)據(jù)檢索方面的能力,我們甚至整個(gè)行業(yè)都認(rèn)為,向量數(shù)據(jù)庫(kù)將成為整個(gè)大模型生態(tài)的基礎(chǔ)設(shè)施,支撐大模型在業(yè)界的推廣和應(yīng)用。
當(dāng)前題目:抖音云原生向量數(shù)據(jù)庫(kù)從“非主流”到“新常態(tài)”的演變
標(biāo)題路徑:http://fisionsoft.com.cn/article/dhjjscj.html


咨詢
建站咨詢
