最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯網營銷解決方案
Python中怎么使用樸素貝葉斯進行垃圾短信識別

這篇文章主要講解了“Python中怎么使用樸素貝葉斯進行垃圾短信識別”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Python中怎么使用樸素貝葉斯進行垃圾短信識別”吧!

興山網站制作公司哪家好,找創(chuàng)新互聯!從網頁設計、網站建設、微信開發(fā)、APP開發(fā)、響應式網站開發(fā)等網站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯成立于2013年到現在10年的時間,我們擁有了豐富的建站經驗和運維經驗,來保證我們的工作的順利進行。專注于網站建設就選創(chuàng)新互聯。

一、引子

現在的很多手機管理軟件都有垃圾短信攔截的功能,很智能很貼心是不是
嗯~ o( ̄▽ ̄)o
對于經常被垃圾短信騷擾的人來說,很是有用。(??????)??
但是很多的攔截軟件在攔截到垃圾短信之后……又發(fā)個通知提示攔截到了垃圾短信╮(﹀_﹀)╭
好奇心害死貓,你告訴了我你攔截到了垃圾短信,我當然想知道你攔截的是什么垃圾短信了╮(╯_╰)╭ 

二、分類與垃圾短信識別

機器學習按性質來看,可以分為三大類:

  • 分類(監(jiān)督)

  • 回歸(監(jiān)督)

  • 聚類(半監(jiān)督)
    垃圾短信通常用已標記的短信數據,對未知的短信進行判斷,其屬于機器學習中的分類性質。
    在Python中有很多機器學習的模塊,比如Sklearn、Tensorflow、Caffe等,可以很方便地調用一些機器學習的算法。 

三、垃圾短信識別

嗯,直接上手干……( ̄_, ̄ )
80w訓練數據集和20w測試數據集均來源于github上的一位小哥哥,在此謝過d=====( ̄▽ ̄*)b 

1、數據處理

嗯,先看看數據長啥樣:

import pandas as pd
data = pd.read_csv(r"H:\RubbishMessage\data\80w.txt",encoding='utf-8',sep='    ',header=None)
data.head()
 

Python中怎么使用樸素貝葉斯進行垃圾短信識別


最后一列為短信的內容,倒數第二列則是短信的類型,0表示正常短信,1表示垃圾短信。
然后,我們對短信內容按照不同的類型(正常短信和垃圾短信)進行分割和分詞:

# 垃圾短信import jieba
spam = data[data[1] == 1]
spam[2] = spam[2].map(lambda x:' '.join(jieba.cut(x)))
spam.head()
# 正常短信
normal = data[data[1] == 0] normal[2] = normal[2].map(lambda x:' '.join(jieba.cut(x))) normal.head()
 

Python中怎么使用樸素貝葉斯進行垃圾短信識別


分別將不同類型分詞后的短信保存為不同的文件:

spam.to_csv('soam.csv',encoding='utf-8',header=False,index=False,columns=[2])
normal.to_csv('normal.csv',encoding='utf-8',header=False,index=False,columns=[2])
   
2、模型選擇和訓練

在此我們沒有選擇Sklearn或是其他的深度學習庫,而是選用NLTK自然語言處理庫來進行貝葉斯分類。
導入模塊:

import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import PlaintextCorpusReaderimport random
 

加載剛剛導出的短信文件:

加載短信語料庫
message_corpus = PlaintextCorpusReader('./',['soam.csv','normal.csv'])
all_message = message_corpus.words()
 

定義一個特征函數,用于生成特征:

def massage_feature(word,num_letter=1):
    return {'feature':word[-num_letter:]}
 

對短信特征進行標記提?。?/p>

labels_name = ([(massage,'垃圾') for massage in message_corpus.words('soam.csv')]+[(massage,'正常') for massage in message_corpus.words('normal.csv')])
random.seed(7)
random.shuffle(labels_name)
 

訓練并預測模型

from nltk.classify import accuracy as nltk_accuracy
featuresets = [(massage_feature(n),massage) for (n,massage) in labels_name]
train_set,test_set = featuresets[2000:],featuresets[:2000]
classifier = NaiveBayesClassifier.train(train_set)
 

最后,咱們看看預測的準確率怎么樣:

print('結果準確率:',str(100*nltk_accuracy(classifier,test_set))+str('%'))
 

Python中怎么使用樸素貝葉斯進行垃圾短信識別

感謝各位的閱讀,以上就是“Python中怎么使用樸素貝葉斯進行垃圾短信識別”的內容了,經過本文的學習后,相信大家對Python中怎么使用樸素貝葉斯進行垃圾短信識別這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯,小編將為大家推送更多相關知識點的文章,歡迎關注!


分享標題:Python中怎么使用樸素貝葉斯進行垃圾短信識別
網站鏈接:http://fisionsoft.com.cn/article/jhddei.html