新聞中心
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

創(chuàng)新互聯(lián)建站主營柳北網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,成都app軟件開發(fā)公司,柳北h5小程序開發(fā)搭建,柳北網(wǎng)站營銷推廣歡迎柳北等地區(qū)企業(yè)咨詢
當NLP模型產(chǎn)生了語法錯誤,怎么辦?
比如,He wants that you send him an email.
沒關(guān)系,現(xiàn)在可以像小時候的英語老師,改作文一樣簡單。
只要裝上一個專門糾正語法錯誤的庫就可以,還是毫秒鐘就可揪出來的那種。
這不,把“that”改成“to”不就可以了嗎~
糾正過來就是:
He wants you to send him an email.
(不會真有人看不出其中的語法錯誤吧)
再比如這句。
I can due his homework.
應(yīng)該變成:I can do his homework.
好像這些語法錯誤,都有點太過明顯了。那就來復(fù)雜一點的。
Thanks for your’s and Lucy’s help.
系統(tǒng)就會改成:
Thanks for yours and Lucy’s help.
這就是最近一位AI專業(yè)本科生Benjamin Minixhofer,利用假期時間開發(fā)出來的一款快速糾正語法錯誤的庫NLPRule。
[[376990]]
它是由Rust編寫的一個基于LanguageTool語法規(guī)則的逆向工程。
LanguageTool是一款開放源代碼校對軟件,適用于英語,法語,德語,波蘭語,俄語以及20多種其他語言,它可以發(fā)現(xiàn)許多拼寫檢查器無法檢測到的錯誤。
一經(jīng)發(fā)出,就在Reddit上獲得了200+的熱度。
如何實現(xiàn)?
NLPRule是將語法規(guī)則與ML模型結(jié)合起來,主要應(yīng)用于NLP的預(yù)處理和NLG的后處理。
在作者看來,使用基于語法規(guī)則的方法有兩大優(yōu)勢。
一是速度。作者使用第8代英特爾,糾正一個句子只需要不到1毫秒的時間。
二是語法錯誤的訓練數(shù)據(jù)極度稀少,ML模型無法處理。
比如,就像這句“It is enough for all intensive purposes. ”
就包含了一個錯誤。除非特別說明,ML模型基本上不能糾正這個錯誤,因為它幾乎不會出現(xiàn)在其訓練數(shù)據(jù)當中。
而若是放在其他語言數(shù)據(jù)中,肯定會比英語更少。
比如,中文。
作者創(chuàng)建這個庫的目的在于創(chuàng)建一個快速、輕量級的引擎來運行自然語言規(guī)則,無需依賴JVM(Java虛擬運行環(huán)境)速度、內(nèi)存的影響。
目前,這個庫支持英語和德語。
具體安裝可分成如下四個步驟,詳細可戳文末鏈接。
在GPT-2進行文本測試
接著,作者就嘗試用GPT-2生成的文本來測試,結(jié)果產(chǎn)生了大量的改進建議。
比如語法錯誤。
Before: …t out, as a condition of its being operated. Each lock keeper should ensure >that all locks are operated and tha…
After: …t out, as a condition of its being operated. Each lockkeeper should ensure that all locks are operated and tha…
Message: This noun is normally spelled as one word.
Type: grammar
再比如拼寫錯誤。
Before: …h(huán)e Z-machine version (in the standardised format) is comprised of 32 (in total) >bytes, one per line. …
After: …h(huán)e Z-machine version (in the standardised format) comprises 32 (in total) bytes, one per line. …
Message: Did you mean comprises or consists of or is composed of?
Type: misspelling
一經(jīng)發(fā)出,不少網(wǎng)友直呼:Fantastic!
也有網(wǎng)友想到,如果跟BERT或者其他Transformer模型結(jié)合起來,會不會生成更好的句子呢?
想要了解更多細節(jié),吶~傳送門送上!
分享文章:NLP模型也有“老師”了!裝上這個開源庫,1毫秒糾正語法錯誤
網(wǎng)頁路徑:http://fisionsoft.com.cn/article/cdhpjoi.html


咨詢
建站咨詢
