新聞中心
研究人員提出基于機(jī)器學(xué)習(xí)的CAPTCHA識(shí)別器,可以識(shí)別94.4%的暗網(wǎng)CAPTCHA。

當(dāng)前,網(wǎng)絡(luò)攻擊和數(shù)據(jù)泄露等網(wǎng)絡(luò)犯罪數(shù)量指數(shù)級(jí)增長。因此,使暗網(wǎng)變得更加透明對(duì)于針對(duì)性的網(wǎng)絡(luò)攻擊防御具有重要意義。研究人員想要?jiǎng)?chuàng)建一個(gè)將網(wǎng)絡(luò)威脅情報(bào)流水線化處理的系統(tǒng),這就需要系統(tǒng)能夠識(shí)別當(dāng)前需要手動(dòng)識(shí)別的CAPTCHA驗(yàn)證碼。
CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart,全自動(dòng)區(qū)分計(jì)算機(jī)和人類的圖靈測試)的目的是區(qū)分計(jì)算機(jī)和人類的一種程序算法,是一種區(qū)分用戶是計(jì)算機(jī)和人的計(jì)算程序,這種程序必須能生成并評(píng)價(jià)人類能很容易通過但計(jì)算機(jī)卻通不過的測試。
DW-GAN
暗網(wǎng)CAPTCHAs
為了保護(hù)暗網(wǎng)網(wǎng)站免受DDoS攻擊等的威脅,當(dāng)前暗網(wǎng)網(wǎng)站在登錄頁都使用了CAPTCHA。而且這些CAPTCHA都是定制的,使得開發(fā)一個(gè)高準(zhǔn)確率的CAPTCHA識(shí)別器非常困難。因此從暗網(wǎng)市場和論壇自動(dòng)化地收集網(wǎng)絡(luò)威脅情報(bào)都變得非常困難和昂貴。
DW-GAN方法
為解決這一問題,研究人員提出一種基于機(jī)器學(xué)習(xí)方法的CAPTCHA識(shí)別器——DW-GAN。與近年來基于人工智能方法的CAPTCHA識(shí)別器方法不同,DW-GAN 使用GAN來去除背景噪聲,使用增強(qiáng)的字母分割算法來處理可變字符長度的CAPTCHA圖像。
圖 邊界追蹤與區(qū)間識(shí)別
識(shí)別器可以通過去除圖像噪聲、識(shí)別字母之間的邊界、將內(nèi)容分割為單個(gè)字母的形式來區(qū)分字母與數(shù)字。
圖 去除CAPTCHA噪聲和分割字母
因此,CAPTCHA的大小并不影響識(shí)別器的有效性,尤其是識(shí)別3次的累計(jì)性能方面。不同CAPTCHA大小的識(shí)別準(zhǔn)確率如下圖所示:
圖 不同CAPTCHA大小的識(shí)別準(zhǔn)確率
從字符識(shí)別方面來看,識(shí)別器使用多個(gè)本地區(qū)域提取的樣本來識(shí)別線、邊等精細(xì)化特征,因此不會(huì)受到字符旋轉(zhuǎn)、字體大小變化、顏色混合等的影響。
圖 不同字體的數(shù)據(jù)樣本
現(xiàn)實(shí)場景測試
研究人員對(duì)DW-GAN方法在不同數(shù)據(jù)集上進(jìn)行了測試,其中包括在現(xiàn)實(shí)場景Yellow Brick的測試。研究人員從Yellow Brick收集了1831個(gè)非法產(chǎn)品,其中有286個(gè)網(wǎng)絡(luò)安全相關(guān)的項(xiàng)目,包括102個(gè)竊取的信用卡、131個(gè)竊取的賬戶、9個(gè)偽造的掃描文件、44個(gè)黑客工具和1223條毒品相關(guān)的信息。
圖 在Yellow Brick市場對(duì)數(shù)據(jù)集進(jìn)行測試
在DW-GAN的幫助下,對(duì)這1831個(gè)情報(bào)信息的數(shù)據(jù)花費(fèi); 5個(gè)小時(shí)。其中加載每個(gè)新頁面的HTTP請(qǐng)求花費(fèi)8.8秒,因此發(fā)起1831個(gè)頁面花費(fèi)了268.5秒,利用DW-GAN破解和識(shí)別CAPTCHA花費(fèi)18.6秒/個(gè)。
總體來看,DW-GAN可以在不超過3次嘗試的情況下破解CAPTCHA,破解1831個(gè)產(chǎn)品頁面的CAPTCHA驗(yàn)證碼花費(fèi)了76分鐘。
與其他基于機(jī)器學(xué)習(xí)的驗(yàn)證碼識(shí)別器的性能對(duì)比如下:
圖 其他基于機(jī)器學(xué)習(xí)的驗(yàn)證碼識(shí)別器的性能對(duì)比
相關(guān)研究成果發(fā)表在期刊ACM Transactions on Management Information Systems上,DW-GAN代碼也上傳到了GitHub,參見:https://github.com/johnnyzn/DW-GAN
論文下載地址:https://arxiv.org/pdf/2201.02799.pdf
本文翻譯自:https://www.bleepingcomputer.com/news/security/researchers-develop-captcha-solver-to-aid-dark-web-research/如若轉(zhuǎn)載,請(qǐng)注明原文地址。
文章標(biāo)題:CAPTCHA識(shí)別器可識(shí)別94.4%的暗網(wǎng)CAPTCHA
網(wǎng)址分享:http://fisionsoft.com.cn/article/dhdoeio.html


咨詢
建站咨詢
