新聞中心
引 言

在息縣等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站建設(shè)、成都做網(wǎng)站 網(wǎng)站設(shè)計(jì)制作按需搭建網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站制作,營(yíng)銷(xiāo)型網(wǎng)站建設(shè),外貿(mào)營(yíng)銷(xiāo)網(wǎng)站建設(shè),息縣網(wǎng)站建設(shè)費(fèi)用合理。
對(duì)抗攻擊(也稱為對(duì)抗樣本生成)是近幾年人工智能領(lǐng)域新興的研究方向,最初是針對(duì)圖像所提出,在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了豐碩的研究成果,提出了很多實(shí)用的攻擊算法。最近,研究人員在不斷尋找新的應(yīng)用場(chǎng)景,積極探索對(duì)抗攻擊在其他領(lǐng)域的應(yīng)用,針對(duì)文本的對(duì)抗攻擊已取得一些進(jìn)展。
基本概念
對(duì)抗樣本的概念最初是在2014年提出的,指的是一類(lèi)人為構(gòu)造的樣本,通過(guò)對(duì)原始的樣本數(shù)據(jù)添加針對(duì)性的微小擾動(dòng)所得到,其不會(huì)影響人類(lèi)的感知,但會(huì)使深度學(xué)習(xí)模型產(chǎn)生錯(cuò)誤的判斷[1]。對(duì)抗攻擊即指構(gòu)造對(duì)抗樣本的過(guò)程。
圖1展示了文本領(lǐng)域內(nèi)實(shí)現(xiàn)對(duì)抗攻擊的一個(gè)例子。語(yǔ)句(1)為原始樣本,語(yǔ)句(2)為經(jīng)過(guò)幾個(gè)字符變換后得到的對(duì)抗樣本。深度學(xué)習(xí)模型能正確地將原始樣本判為正面評(píng)論,而將對(duì)抗樣本誤判為負(fù)面評(píng)論。而顯然,這種微小擾動(dòng)并不會(huì)影響人類(lèi)的判斷。
關(guān)于對(duì)抗樣本存在的原因,有學(xué)者認(rèn)為是由于模型的高度非線性和過(guò)擬合,有學(xué)者認(rèn)為是由于特征維度過(guò)高和模型的線性性質(zhì),至今還未達(dá)成共識(shí),研究人員一般都會(huì)根據(jù)自己的研究成果來(lái)進(jìn)行解釋,每個(gè)人提出的觀點(diǎn)往往僅適用于局部現(xiàn)象。但不管是線性解釋還是非線性解釋,究其本質(zhì)是由于模型沒(méi)有學(xué)到完美的判別規(guī)則,模型的判斷邊界與真實(shí)的決策邊界不一致。深度學(xué)習(xí)模型由于能夠自動(dòng)學(xué)習(xí)特征的能力而得到廣泛應(yīng)用,但是這種由數(shù)據(jù)出發(fā)進(jìn)行自主學(xué)習(xí),所得到的特征并不一定就是我們所希望的特征,模型對(duì)數(shù)據(jù)的理解與人的理解有著很大的差異。因而模型學(xué)習(xí)到的特征,極有可能并非是人理解事物的特征,即對(duì)抗樣本的存在是深度學(xué)習(xí)模型的固有缺陷。
圖1 文本領(lǐng)域的對(duì)抗攻擊舉例
文本數(shù)據(jù)VS圖像數(shù)據(jù)
文本數(shù)據(jù)與圖像數(shù)據(jù)的不同,為文本領(lǐng)域的對(duì)抗攻擊研究帶來(lái)了巨大挑戰(zhàn)。[2]
1. 離散VS連續(xù)(Discrete VS Continucous)
圖像數(shù)據(jù)是連續(xù)的,易編碼為數(shù)值向量,預(yù)處理操作線性、可微,通常使用lp范數(shù)來(lái)度量原始樣本與對(duì)抗樣本間的距離;而文本數(shù)據(jù)是符號(hào)化的數(shù)據(jù),是離散的,預(yù)處理操作非線性、不可微,很難定義文本上的擾動(dòng)及度量文本序列改變前后的差異。
2. 易感知VS不易感知(Preceivable VS Unperceivable)
人類(lèi)通常不容易察覺(jué)到圖像像素的微小變化,因此圖像的對(duì)抗樣本不會(huì)改變?nèi)祟?lèi)的判斷力,只會(huì)影響深度學(xué)習(xí)模型的判別結(jié)果;而文本上的變化則很容易影響文本可讀性,在將文本數(shù)據(jù)輸入DNN模型之前通過(guò)拼寫(xiě)檢查和語(yǔ)法檢查來(lái)識(shí)別或糾正更改,極有可能導(dǎo)致攻擊失敗。
3. 富有語(yǔ)義VS無(wú)語(yǔ)義(Semanic VS Semanic-less)
像素的微小變化不會(huì)改變圖像的語(yǔ)義,但對(duì)文本的擾動(dòng)可輕易改變單詞和句子的語(yǔ)義。例如,干擾單個(gè)像素不會(huì)將圖像從貓變?yōu)榱硪环N動(dòng)物,而刪除否定詞將改變句子的情感。更改樣本的語(yǔ)義有悖于對(duì)抗樣本的定義,文本領(lǐng)域的對(duì)抗樣本應(yīng)在使深度學(xué)習(xí)模型發(fā)生誤判的同時(shí)保持?jǐn)?shù)據(jù)樣本的真實(shí)標(biāo)簽不變。
針對(duì)以上挑戰(zhàn),有些學(xué)者首先將文本數(shù)據(jù)映射為連續(xù)數(shù)據(jù),然后借鑒計(jì)算機(jī)視覺(jué)領(lǐng)域的一些對(duì)抗攻擊算法生成對(duì)抗樣本,有些學(xué)者針對(duì)文本數(shù)據(jù)的特性直接通過(guò)插入、刪除、替換等文本編輯操作生成對(duì)抗樣本。
算法分類(lèi)
如圖2所示,對(duì)抗攻擊算法可以從不同的角度進(jìn)行分類(lèi)。
根據(jù)模型訪問(wèn)權(quán)限可以分為白盒攻擊和黑盒攻擊,白盒攻擊需要獲取模型的結(jié)構(gòu)和參數(shù)等詳細(xì)信息;而黑盒攻擊不需要模型知識(shí),只需訪問(wèn)模型獲取輸入的對(duì)應(yīng)輸出即可。
根據(jù)攻擊目標(biāo)設(shè)定可以分為有目標(biāo)攻擊和無(wú)目標(biāo)攻擊,無(wú)目標(biāo)攻擊旨在使模型的輸出為偏離正確結(jié)果的任意錯(cuò)誤預(yù)測(cè);而有目標(biāo)攻擊旨在使模型的輸出為某一特定結(jié)果。
根據(jù)添加擾動(dòng)時(shí)所操作的文本粒度可以分為字符級(jí)、單詞級(jí)和語(yǔ)句級(jí)攻擊。字符級(jí)攻擊通過(guò)插入、刪除或替換字符,以及交換字符順序?qū)崿F(xiàn);單詞級(jí)攻擊主要通過(guò)替換單詞實(shí)現(xiàn),基于近義詞、形近詞、錯(cuò)誤拼寫(xiě)等建立候選詞庫(kù);語(yǔ)句級(jí)攻擊主要通過(guò)文本復(fù)述或插入句子實(shí)現(xiàn)。
根據(jù)攻擊策略可以分為Image-to-Text(借鑒圖像領(lǐng)域的經(jīng)典算法)、基于優(yōu)化的攻擊、基于重要性的攻擊以及基于神經(jīng)網(wǎng)絡(luò)的攻擊。部分學(xué)者通過(guò)將文本數(shù)據(jù)映射到連續(xù)空間,然后借鑒圖像領(lǐng)域的一些經(jīng)典算法如FGSM、JSMA等,生成對(duì)抗樣本;基于優(yōu)化的攻擊將對(duì)抗攻擊表述為帶約束的優(yōu)化問(wèn)題,利用現(xiàn)有的優(yōu)化技術(shù)求解,如梯度優(yōu)化、遺傳算法優(yōu)化;基于重要性的攻擊通常首先利用梯度或文本特性設(shè)計(jì)評(píng)分函數(shù)鎖定關(guān)鍵詞,然后通過(guò)文本編輯添加擾動(dòng);基于神經(jīng)網(wǎng)絡(luò)的攻擊訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型自動(dòng)學(xué)習(xí)對(duì)抗樣本的特征,從而實(shí)現(xiàn)對(duì)抗樣本的自動(dòng)化生成。
圖2 文本領(lǐng)域的對(duì)抗攻擊算法分類(lèi)機(jī)制
代表性算法
文本領(lǐng)域的常見(jiàn)任務(wù)有文本分類(lèi)、情感分析、機(jī)器翻譯、閱讀理解、問(wèn)答系統(tǒng)、對(duì)話生成、文本蘊(yùn)含等,其中文本分類(lèi)與情感分析任務(wù)使用分類(lèi)器模型,其他任務(wù)使用seq2seq模型。針對(duì)分類(lèi)任務(wù)的研究較多,下文介紹幾種代表性算法,表1總結(jié)了其主要特點(diǎn)。
Papernot等人[3]最先研究了文本領(lǐng)域的對(duì)抗樣本問(wèn)題,提出了生成對(duì)抗性輸入序列的概念。作者將圖像對(duì)抗領(lǐng)域的JSMA算法遷移到文本領(lǐng)域,利用計(jì)算圖展開(kāi)技術(shù)來(lái)評(píng)估與單詞序列的嵌入輸入有關(guān)的前向?qū)?shù),構(gòu)建雅可比矩陣,并借鑒FGSM的思想計(jì)算對(duì)抗性擾動(dòng)。由于詞向量不能取任意實(shí)數(shù)值,作者建立了一個(gè)特定的詞典來(lái)選擇單詞以替換原始序列中的隨機(jī)詞。
Liang等人[4]提出了TextFool方法,首先針對(duì)白盒模型和黑盒模型使用不同的策略識(shí)別出對(duì)分類(lèi)具有重要貢獻(xiàn)的文本項(xiàng)(HTP、HSP),然后對(duì)這些重要的文本項(xiàng)通過(guò)單一或混合使用插入、修改和刪除三種擾動(dòng)策略,生成對(duì)抗樣本。對(duì)于白盒模型,作者借鑒FGSM的思想來(lái)估算文本項(xiàng)的重要度,但是通過(guò)損失函數(shù)的梯度大小而不是梯度符號(hào)來(lái)度量;對(duì)于黑盒模型,通過(guò)遮擋文本的策略來(lái)識(shí)別重要文本項(xiàng)。
Ebrahimi 等人[5]提出了HotFlip方法,基于one-hot表示的梯度來(lái)有效估計(jì)單個(gè)操作所造成的最大損失的變化,通過(guò)原子翻轉(zhuǎn)操作(將一個(gè)字符替換為另一個(gè)字符)生成對(duì)抗樣本,并通過(guò)一系列的字符翻轉(zhuǎn)來(lái)支持插入和刪除操作??紤]到梯度優(yōu)化的局限性,Alzantot等人[6]提出使用最優(yōu)化技術(shù)中的遺傳算法(Genetic Algorithm, GA)來(lái)生成與原始樣本具有相似語(yǔ)義和語(yǔ)法的對(duì)抗樣本。
Gao等人[7]提出了DeepWordBug方法,將對(duì)抗樣本的生成分為兩個(gè)階段。首先使用針對(duì)文本數(shù)據(jù)特性設(shè)計(jì)的評(píng)分函數(shù)來(lái)識(shí)別關(guān)鍵的Token,根據(jù)重要性進(jìn)行排名;然后對(duì)排名最高的m個(gè)Token通過(guò)簡(jiǎn)單的字符級(jí)操作(交換、替換、刪除和插入)進(jìn)行擾動(dòng),改變分類(lèi)結(jié)果。
Li等人[8]提出了TextBugger方法,首先針對(duì)白盒和黑盒模型通過(guò)不同策略識(shí)別影響模型分類(lèi)結(jié)果的重要詞,然后采取插入、刪除、字符交換、字符替換、單詞替換等五種擾動(dòng)策略分別生成擾動(dòng)從中選擇一個(gè)最優(yōu)擾動(dòng)。在白盒場(chǎng)景下,通過(guò)計(jì)算分類(lèi)器的雅可比矩陣來(lái)找到重要詞;在黑盒場(chǎng)景下,首先根據(jù)分類(lèi)置信度找到重要的句子,然后使用評(píng)分函數(shù)來(lái)找到重要單詞。
Gil 等人[9]提出了HotFlip的派生方法DISTFLIP,該算法提取HotFlip優(yōu)化過(guò)程中的知識(shí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來(lái)模擬攻擊從而生成對(duì)抗樣本,極大地節(jié)省了運(yùn)行時(shí)間,并可以遷移到黑盒場(chǎng)景下進(jìn)行攻擊。
Zhao等人[10]設(shè)計(jì)的用于生成對(duì)抗樣本的模型,首先使用一個(gè)逆變器將原始數(shù)據(jù)映射到向量空間,在數(shù)據(jù)對(duì)應(yīng)的稠密向量空間中進(jìn)行搜索添加擾動(dòng)得到對(duì)抗樣本;然后使用GAN作為生成器將向量空間中得到的對(duì)抗樣本映射回原始數(shù)據(jù)類(lèi)型。
表1 文本對(duì)抗領(lǐng)域的代表性算法
小 結(jié)
如今,深度神經(jīng)網(wǎng)絡(luò)(DNN)在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等各類(lèi)領(lǐng)域得到了廣泛應(yīng)用,涉及許多安全關(guān)鍵任務(wù),對(duì)抗樣本的存在給基于DNN模型部署的系統(tǒng)帶來(lái)了潛在的安全威脅。例如攻擊自動(dòng)駕駛系統(tǒng),可使其錯(cuò)誤識(shí)別路標(biāo)造成交通隱患;攻擊惡意軟件檢測(cè)器,可使惡意軟件逃過(guò)檢測(cè)被識(shí)別為健康軟件。
相較于圖像領(lǐng)域,在文本領(lǐng)域生成對(duì)抗樣本更具挑戰(zhàn)性,在擾動(dòng)離散數(shù)據(jù)的同時(shí)需要保留有效的句法、語(yǔ)法和語(yǔ)義。未來(lái)的研究可以考慮以下幾點(diǎn):
(1)提高不可感知性。許多研究工作是通過(guò)翻轉(zhuǎn)字符或改變單詞來(lái)實(shí)現(xiàn)對(duì)文本的擾動(dòng),這種擾動(dòng)較為明顯,錯(cuò)誤拼寫(xiě)的單詞和語(yǔ)法錯(cuò)誤的句子很容易被人發(fā)現(xiàn),也能被語(yǔ)法檢查軟件檢測(cè)出來(lái),因此這種擾動(dòng)很難攻擊實(shí)際的NLP系統(tǒng)。
(2)提高移植性。目前,文本對(duì)抗的研究主要集中在理論模型上,很少涉及到實(shí)際應(yīng)用。對(duì)于現(xiàn)實(shí)世界中的NLP系統(tǒng),模型訪問(wèn)受到限制,可移植性是實(shí)施攻擊的關(guān)鍵因素。
(3)實(shí)現(xiàn)自動(dòng)化。大多數(shù)研究工作在構(gòu)造文本擾動(dòng)時(shí),需要依靠人工操作,效率較低。如通過(guò)將手動(dòng)選擇的無(wú)意義段落串聯(lián)起來(lái)攻擊閱讀理解系統(tǒng),人工挑選形近詞等。
參考文獻(xiàn)
[1]Szegedy C, Zaremba W, Sutskever I, et al. Intriguing Properties of Neural Networks[C] // Proceedings of the 2th International Conference on Learning Representations, 2014.
[2]Zhang W E, Sheng Q Z, Alhazmi A, et al. Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey[J]. ACM Transactions on Intelligent Systems and Technology (TIST). 2020, 11(3): 1-41.
[3]Papernot N, McDaniel P, Swami A, et al. Crafting Adversarial Input Sequences for Recurrent Neural Networks[C]// Proceedings of MILCOM 2016-2016 IEEE Military Communications Conference. IEEE, 2016: 49-54.
[4]Liang B, Li H, Su M, et al. Deep Text Classification Can be Fooled[C]// Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence(IJCAI). 2018: 4208-4215.
[5]Ebrahimi J, Rao A, Lowd D, et al. HotFlip: White-Box Adversarial Examples for Text Classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018: 31-36.
[6]Alzantot M, Sharma Y, Elgohary A, et al. Generating Natural Language Adversarial Examples[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 2890-2896.
[7]Gao J, Lanchantin J, Soffa M L, et al. Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers[C]// Proceedings of 2018 IEEE Security and Privacy Workshops (SPW). IEEE, 2018: 50-56.
[8]Li J, Ji S, Du T, et al. TextBugger: Generating Adversarial Text Against Real-world Applications[C]// Proceedings of the 26th Annual Network and Distributed System Security Symposium. 2019.
[9]Gil Y, Chai Y, Gorodissky O, et al. White-to-Black: Efficient Distillation of Black-Box Adversarial Attacks[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 1373-1379.
[10]Zhao Z, Dua D, Singh S. Generating Natural Adversarial Examples[C]// Proceedings of the International Conference on Learning Representations. 2018.
新聞名稱:文本領(lǐng)域的對(duì)抗攻擊研究綜述
分享鏈接:http://fisionsoft.com.cn/article/cojdghs.html


咨詢
建站咨詢
