新聞中心
我們試著利用代碼可視化來提高模型預(yù)測能力。

成都創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的南京網(wǎng)站設(shè)計(jì)、移動媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
比如說,你正在編寫一個漂亮清晰的機(jī)器學(xué)習(xí)代碼(例如線性回歸)。你的代碼還不錯,首先按照往常一樣用 train_test_split 這樣的函數(shù)將數(shù)據(jù)集分成「訓(xùn)練集和測試集」兩個部分,并加入一些隨機(jī)因素。你的預(yù)測可能稍微欠擬合或過擬合,如下圖所示。
圖:欠擬合和過擬合情況下的預(yù)測結(jié)果
這些結(jié)果沒有變化。這個時候我們能做什么呢?
正如題目所建議的,在學(xué)習(xí)了線性回歸之后,下一件有趣的事情就是交叉驗(yàn)證了,因?yàn)樗梢允褂?K 折策略(K-Fold strategy)提高模型的預(yù)測能力。那 K 折究竟是什么呢?下面我們將用代碼對此進(jìn)行解釋。
完整的代碼如下:
圖:交叉驗(yàn)證的可視化
代碼解析:
以上代碼可分為 4 個步驟。
1. 加載并分割目標(biāo)數(shù)據(jù)集。
圖:加載數(shù)據(jù)集
將該數(shù)據(jù)集中的目標(biāo)復(fù)制到 y 變量中。如果想看到數(shù)據(jù)集,請將 print 行的注釋符「#」刪除。
2. 模型選擇
圖:模型選擇(LinearRegression())
為簡化過程,我們將選擇使用線性回歸。如果想了解更多,請查看文章《Linear Regression: The Easier Way》。
3. 交叉驗(yàn)證
圖:在 sklearn 中進(jìn)行交叉驗(yàn)證
這是 sklearn 中的流程,也是一個函數(shù):
- cross_val_predict(model, data, target, cv)
其中,
- model 是我們選來要進(jìn)行交叉驗(yàn)證的模型。
- data 是數(shù)據(jù)。
- target 是數(shù)據(jù)的目標(biāo)值。
- cv(可選項(xiàng))是數(shù)據(jù)折疊的總次數(shù)(K 折)。
在這個流程中,我們不像往常一樣將數(shù)據(jù)集分成訓(xùn)練集和測試集兩部分,如下圖所示。
圖:訓(xùn)練集(藍(lán)色)和測試集(紅色)
我們將數(shù)據(jù)集平均分成 K 個部分(K 折或者 cv)。為了提高預(yù)測精度并實(shí)現(xiàn)更好地泛化,我們會在較大的數(shù)據(jù)集中進(jìn)行模型訓(xùn)練,在較小的數(shù)據(jù)集上測試。這里,我們把 cv 設(shè)置成 6。
圖:6 個相同的部分
現(xiàn)在,模型分割的***次迭代如下圖所示,其中紅色的是測試集,藍(lán)色的是訓(xùn)練集。
圖:交叉驗(yàn)證的***次迭代
第二次迭代如下圖所示:
圖:交叉驗(yàn)證的第二次迭代
以此類推,直到***一次迭代,如下圖所示:
圖:交叉驗(yàn)證的第六次迭代
4. 使用 Matplotlib 進(jìn)行數(shù)據(jù)可視化
圖:使用 Matplotlib 進(jìn)行可視化
為了將結(jié)果可視化,我們導(dǎo)入了 matplotlib 庫,然后創(chuàng)建一個 subplot(子圖)。
創(chuàng)建采用黑色(即 (0,0,0))邊框的散點(diǎn)。
使用 ax.plot 計(jì)算兩個軸的***最小值,k-- 代表線型,lw=4 代表寬度。然后,給 x 軸和 y 軸加上標(biāo)簽。***,用 plt.show() 展示圖像。
結(jié)果如下:
圖:預(yù)測結(jié)果
這張圖展示了使用線性回歸模型對 Boston 數(shù)據(jù)集進(jìn)行 K 折交叉驗(yàn)證的結(jié)果。
我知道其實(shí)還有很多種交叉驗(yàn)證方法,但 K 折交叉驗(yàn)證是一個很好、很簡單的起點(diǎn)。
完整代碼地址:https://github.com/Sagarsharma4244/Cross-Validation
【本文是專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】
分享名稱:手把手教你可視化交叉驗(yàn)證代碼,提高模型預(yù)測能力
文章鏈接:http://fisionsoft.com.cn/article/cddosje.html


咨詢
建站咨詢
