新聞中心
在 pandas 中,DataFrame 是我們經(jīng)常用到的工具。有時(shí)候,我們可能會(huì)需要對數(shù)據(jù)按某個(gè)字段進(jìn)行分組,然后每個(gè)組取N項(xiàng)。例如:

現(xiàn)在,我想每個(gè)職位任取三個(gè)用戶。
相信有同學(xué)會(huì)使用 for 循環(huán),依次循環(huán)每一行,每個(gè)職位選3個(gè),存入一個(gè)臨時(shí)的列表里面。循環(huán)完成以后再轉(zhuǎn)成一個(gè)新的 DataFrame。但這個(gè)方式顯然不夠智能。
那么,我們有沒有什么辦法能夠不使用循環(huán)就做到這一步呢?也許有同學(xué)想到了使用 groupby。我們來看看效果。
看起來僅僅是統(tǒng)計(jì)了每個(gè)職位的數(shù)量。那么,如何才能保留所有字段呢?
實(shí)際上我們可以把.size()改成.head(3):
看起來這里的.head(3)似乎沒有什么作用。這個(gè)時(shí)候,我們思考一下 Python 里面,如果要使用itertools.groupby,官方文檔里面有這樣一段話:
Generally, the iterable needs to already be sorted on the same key function.
如下圖所示:
這段話告訴我們,要使用itertools.groupby,我們需要提前對被分組的字段進(jìn)行排序。
那么,我們試一試在如果提前對 DataFrame 進(jìn)行排序,然后再 groupby 會(huì)怎么樣:
成功了。每個(gè)職位都取了3個(gè)。
可能大家發(fā)現(xiàn)最左邊的索引是亂序,看起來不好看。那么我們還可以重設(shè)一下索引:
至此,問題完美解決。
本文轉(zhuǎn)載自微信公眾號「未聞Code」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系未聞Code公眾號。
本文標(biāo)題:一日一技:Pandas中,如何分組再取N項(xiàng)?
標(biāo)題URL:http://fisionsoft.com.cn/article/dppiogh.html


咨詢
建站咨詢
