新聞中心
采用神經(jīng)元形式表達(dá)字典特征并使用CRF(Conditional Random Field)作為決策方法,能夠在大量真實數(shù)據(jù)集上實時進(jìn)行中文分詞;一、百度中文分詞三點原理

創(chuàng)新互聯(lián)公司是專業(yè)的石獅網(wǎng)站建設(shè)公司,石獅接單;提供成都網(wǎng)站制作、成都網(wǎng)站設(shè)計,網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行石獅網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!
1. 語義分析:通過對句子的語義分析,將句子劃分為最小的意義單位。
2. 利用上下文信息:根據(jù)上下文信息來調(diào)整詞性和詞頻,從而減少歧義。
3. 結(jié)合語法規(guī)律:根據(jù)不同的句式特征來實現(xiàn)對句子的最優(yōu)化處理。二、百度中文分詞技術(shù)
1. 核心NLP引擎——LAC(Light Automatic Chinese Word Segmentation) :采用神經(jīng)元形式表達(dá)字典特征并使用CRF(Conditional Random Field)作為決策方法,能夠在大量真實數(shù)據(jù)集上實時進(jìn)行中文分詞;
2. 高性能加速——HMM (Hidden Markov Model): 在LAC之前加入HMM,從而大幅度減少交互時間;
3. 多顆星圖——Star Graph: 針對不含正常成分的多錯字情況,采用Star Graph方法進(jìn)行處理;
4. 迷你字典——Mini Dictionary: 在LAC之前加入Mini Dictionary,從而減少部分非常規(guī)情況所帶來的影響;
5. 深度學(xué)習(xí)——Deep Learning: 針對一般情況使用CNN/RNN/Bi-GRU+CRF/Attention+CRF 等方法進(jìn)行中文分詞; 6 . 未登錄語計數(shù) ——Unseen Words Counting : 在 L A C / H M M / S t a r G r a p h / D e e p L e a r n i n g 的基礎(chǔ)上 , 添加 U n s e e n W o r d s C o u n t i n g , 進(jìn)一步優(yōu)化 N E P ; 7 . 多錯字優(yōu)化 ——Multi-Error Words Optimization : 針對多錯字情況 , 添加 Multi - Error Words Optimization , 進(jìn)一步優(yōu)化 N E P ;
網(wǎng)頁題目:網(wǎng)站優(yōu)化seo中需要注意的百度的中文分詞三點原理
標(biāo)題來源:http://fisionsoft.com.cn/article/djceped.html


咨詢
建站咨詢
