完美世界有声小说,雪鹰领主,欢乐颂第一季

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

重采樣技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用

譯者 | 崔皓

公司主營業(yè)務(wù)：成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對我們的高要求，感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn)，讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)推出普蘭免費做網(wǎng)站回饋大家。

審校 | 孫淑娟

摘要

本文介紹什么是重采樣以及如何使用重采樣技術(shù)提高模型的整體性能。

在使用數(shù)據(jù)模型時，由于模型的算法不同而導(dǎo)致接受數(shù)據(jù)時有不同的學(xué)習(xí)模式。通過這種直觀的學(xué)習(xí)方式，讓模型通過給定數(shù)據(jù)集的學(xué)習(xí)從而找出其中的規(guī)律，這個過程稱為訓(xùn)練模型。

然后，將訓(xùn)練完畢的模型在測試數(shù)據(jù)集上測試，這些測試數(shù)據(jù)是模型之前沒有見過的。實際上，我們希望達到的最佳效果是模型在訓(xùn)練和測試數(shù)據(jù)集上都能產(chǎn)生準(zhǔn)確的輸出，也就是模型在訓(xùn)練集和測試集上的表現(xiàn)一致。

你可能也聽說過驗證集的方式。這種方式是將數(shù)據(jù)集分成兩部分：訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。一部分的數(shù)據(jù)被用來訓(xùn)練模型，而另一部分的數(shù)據(jù)被用來測試訓(xùn)練好的模型。

然而，這種驗證集的方法有缺點。

該模型將學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的所有模式，由于它從來沒有接觸過測試集的數(shù)據(jù)，因此它可能遺漏測試數(shù)據(jù)集中的相關(guān)信息。這導(dǎo)致模型失去了提高整體性能的重要信息。

另一個缺點是，訓(xùn)練數(shù)據(jù)集可能面臨數(shù)據(jù)中的異常值或錯誤，而模型將學(xué)習(xí)這些有問題的數(shù)據(jù)，并將這些數(shù)據(jù)作為模型知識庫的一部分，然后在第二階段的測試中應(yīng)用。

那么，我們?nèi)绾渭m正上述的缺點呢？答案是：重新采樣。

什么是重采樣？

重采樣是一種方法，包括從訓(xùn)練數(shù)據(jù)集中反復(fù)抽取樣本。然后，這些樣本被用來重新擬合一個特定的模型，以檢索更多關(guān)于擬合模型的信息。其目的是收集更多關(guān)于樣本的信息，提高準(zhǔn)確性并估計不確定性。

例如，如果你正在研究線性回歸擬合，并想檢查變異性。就可以重復(fù)使用訓(xùn)練數(shù)據(jù)中的不同樣本，并對每個樣本進行線性回歸擬合。這將使你能夠檢查結(jié)果在不同樣本上的不同表現(xiàn)，從而獲得新的信息。

重新取樣的顯著優(yōu)勢是，你可以從同一群體中反復(fù)抽取小樣本，直到你的模型達到最佳性能。由于能夠循環(huán)使用同一個數(shù)據(jù)集，你將節(jié)省大量的時間和金錢，而不必去尋找新的數(shù)據(jù)。

欠采樣和過度采樣

如果你正在處理高度不平衡的數(shù)據(jù)集，重采樣是可以提升模型準(zhǔn)確率的一種技術(shù)。

欠采樣是指從多數(shù)類中移除樣本，以提供更多的平衡。

過度采樣是指由于收集的數(shù)據(jù)不足，從少數(shù)類別中復(fù)制隨機樣本并充當(dāng)樣本。

然而，上述的兩種方法都存在劣勢，在取樣不足的情況下刪除樣本會導(dǎo)致信息的損失。從少數(shù)類中重復(fù)隨機樣本會導(dǎo)致過度擬合。

數(shù)據(jù)科學(xué)中經(jīng)常使用兩種重抽樣方法：

Bootstrap法（引導(dǎo)法）
交叉驗證法

Bootstrap法

這種方法用在一些不遵循典型正態(tài)分布的數(shù)據(jù)集。因此，可以應(yīng)用Bootstrap方法來檢查數(shù)據(jù)集的隱藏信息和分布。

在使用Bootstrap方法時，抽出的樣本會被替換，而不包括在樣本中的數(shù)據(jù)被用來測試模型。它是一種靈活的統(tǒng)計方法，可以幫助數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師量化不確定性。

其過程包括如下：

1. 反復(fù)從數(shù)據(jù)集中抽取樣本觀測值

2. 替換這些樣本，以確保原始數(shù)據(jù)集保持在相同的規(guī)模。

3. 一個觀察值可以出現(xiàn)不止一次，也可以完全不出現(xiàn)。

你可能聽說過Bagging，即合集技術(shù)。它是Bootstrap Aggregation的簡稱，它結(jié)合了Bootstrap和聚合來形成一個集合模型。它創(chuàng)建了多個原始訓(xùn)練數(shù)據(jù)集，然后匯總得出最終的預(yù)測結(jié)果。每個模型都會學(xué)習(xí)前一個模型的錯誤。

引導(dǎo)法的一個優(yōu)點是，與上面提到的訓(xùn)練-測試分割法相比，它們的方差較低。

交叉驗證法

當(dāng)你重復(fù)地隨機分割數(shù)據(jù)集時，會導(dǎo)致樣本最終進入訓(xùn)練集或測試集。這可能會不幸地對你的模型產(chǎn)生不平衡的影響，使其無法做出準(zhǔn)確的預(yù)測。

為了避免這種情況，你可以使用K-Fold交叉驗證法來更有效地分割數(shù)據(jù)。在這個過程中，數(shù)據(jù)被分為k個相等的集合，其中一個集合被定義為測試集，而其余的集合則用于訓(xùn)練模型。這個過程將一直持續(xù)到每個集合都作為測試集，并且所有的集合都經(jīng)過了訓(xùn)練階段。

其個過程包括：

1. 數(shù)據(jù)被分割成k個部分。例如，一個數(shù)據(jù)集被分成10個部分--10個相等的集合。

2. 在第一次迭代中，模型在（k-1）上進行訓(xùn)練，并在剩余的一組上進行測試。假設(shè)每個數(shù)據(jù)集合都有編號，第一次訓(xùn)練把1-9號數(shù)據(jù)集合作為訓(xùn)練集，把10號集合作為測試集。第二訓(xùn)練把1-8號集合以及10號集合作為測試集，把9號集合作為測試集。第三次把1-7號集合以及9、10號集合作為訓(xùn)練集合，把8號集合作為測試集合。

3. 這個過程不斷重復(fù)（10次），直到所有的集合都作為測試集合進行訓(xùn)練為止。

這使每個樣本有平衡的代表性，確保所有的數(shù)據(jù)都被用來改善模型的學(xué)習(xí)，以及測試模型的性能。

總結(jié)

在這篇文章中，你將了解什么是重采樣，以及如何以3種不同的方式對你的數(shù)據(jù)集進行采樣：訓(xùn)練-測試分割、bootstrap和交叉驗證。

所有這些方法的目標(biāo)是幫助模型以有效的方式吸收盡可能多的信息。確保模型成功學(xué)習(xí)的唯一方法是在數(shù)據(jù)集中的各種數(shù)據(jù)點上訓(xùn)練模型。

重新采樣是預(yù)測性建模階段的一個重要元素；確保準(zhǔn)確的輸出、創(chuàng)建高性能的模型和有效的工作流程。

譯者介紹

崔皓，社區(qū)編輯，資深架構(gòu)師，擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗，10年分布式架構(gòu)經(jīng)驗。

原文標(biāo)題：??The Role of Resampling Techniques in Data Science??，作者：Nisha Arya

文章標(biāo)題：重采樣技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用
文章網(wǎng)址：http://fisionsoft.com.cn/article/cosiois.html