新聞中心
python中簡單的概率計算
實驗室室間質(zhì)評項目繞不開的大佬——李金明,前一段時間看基因谷發(fā)了他的PPT(但是水印怎么是基因狐啊喂),正好從中了解些的臨床的相關規(guī)范(其實我想找生信相關要點,但好像并沒有...)。
網(wǎng)站建設公司,為您提供網(wǎng)站建設,網(wǎng)站制作,網(wǎng)頁設計及定制網(wǎng)站建設服務,專注于企業(yè)網(wǎng)站制作,高端網(wǎng)頁制作,對成都辦公窗簾等多個行業(yè)擁有豐富的網(wǎng)站建設經(jīng)驗的網(wǎng)站建設公司。專業(yè)網(wǎng)站設計,網(wǎng)站優(yōu)化推廣哪家好,專業(yè)seo優(yōu)化優(yōu)化,H5建站,響應式網(wǎng)站。
說實話,之前在上家做微生物多樣性相關科研服務時候,對參數(shù)這塊定的不是特別死,有時候流程固定參數(shù)達不到合同要求交付的測序量,經(jīng)常會改改overlap,改改最大錯配。可能也是因為這種比較低端,pipeline不斷,每天流水線式的能交100來個,頗有種來測序、送分析的意思。
簡單記錄下其中幾個概率的計算
題為:平常病人陽性率為10%,一次檢測25個標本,求獲得6個陽性或6個以上結果的概率,概率為1-(獲得0個或1個或2個或3個或4個或5個陽性結果的概率)
注:細看ppt其實是有些小問題的,沒有寫P(5)
題為:一個實驗室中,一個項目每次檢測結果陽性率為2%,100個樣本中出現(xiàn)8個陽性結果概率
題為:一次檢測100個標本的項目中,2個陽性結果連續(xù)出現(xiàn)的概率
題為:一次檢測100個標本的項目中,3個陽性結果連續(xù)出現(xiàn)的概率
注:樣本間交叉污染的概率解讀
首先假設每次檢測樣本,是陰性或是陽性都是獨立的事件,那么
做n個樣本,任意取其中r個,相鄰的情況有 n-r+1 種
做n個樣本,任意取其中r個,所有情況有 種
P=
假定檢測樣本的結果都是獨立的,那么其r個陽性連續(xù)出現(xiàn)概率大于P,則說明r次連續(xù)的陽性結果存在正相關,可能是樣本間污染(小概率事件在小規(guī)模樣本數(shù)中發(fā)生)
那么,當樣本數(shù)極大時候,如果其r個陽性連續(xù)出現(xiàn)概率小于P,那么也能說明r次連續(xù)的陽性結果存在負相關,相鄰樣本間結果存在拮抗(小概率事件在大規(guī)模樣本數(shù)中仍不發(fā)生)
李金明:臨床基因擴增檢測質(zhì)量保證(PPT全文)
如何在Python中實現(xiàn)這五類強大的概率分布
R編程語言已經(jīng)成為統(tǒng)計分析中的事實標準。但在這篇文章中,我將告訴你在Python中實現(xiàn)統(tǒng)計學概念會是如此容易。我要使用Python實現(xiàn)一些離散和連續(xù)的概率分布。雖然我不會討論這些分布的數(shù)學細節(jié),但我會以鏈接的方式給你一些學習這些統(tǒng)計學概念的好資料。在討論這些概率分布之前,我想簡單說說什么是隨機變量(random variable)。隨機變量是對一次試驗結果的量化。 舉個例子,一個表示拋硬幣結果的隨機變量可以表示成 Python 1 2 X = {1 如果正面朝上, 2 如果反面朝上} 隨機變量是一個變量,它取值于一組可能的值(離散或連續(xù)的),并服從某種隨機性。隨機變量的每個可能取值的都與一個概率相關聯(lián)。隨機變量的所有可能取值和與之相關聯(lián)的概率就被稱為概率分布(probability distributrion)。 我鼓勵大家仔細研究一下scipy.stats模塊。 概率分布有兩種類型:離散(discrete)概率分布和連續(xù)(continuous)概率分布。 離散概率分布也稱為概率質(zhì)量函數(shù)(probability mass function)。離散概率分布的例子有伯努利分布(Bernoulli distribution)、二項分布(binomial distribution)、泊松分布(Poisson distribution)和幾何分布(geometric distribution)等。 連續(xù)概率分布也稱為概率密度函數(shù)(probability density function),它們是具有連續(xù)取值(例如一條實線上的值)的函數(shù)。正態(tài)分布(normal distribution)、指數(shù)分布(exponential distribution)和β分布(beta distribution)等都屬于連續(xù)概率分布。 若想了解更多關于離散和連續(xù)隨機變量的知識,你可以觀看可汗學院關于概率分布的視頻。
統(tǒng)計學入門級:常見概率分布+python繪制分布圖
如果隨機變量X的所有取值都可以逐個列舉出來,則稱X為離散型隨機變量。相應的概率分布有二項分布,泊松分布。
如果隨機變量X的所有取值無法逐個列舉出來,而是取數(shù)軸上某一區(qū)間內(nèi)的任一點,則稱X為連續(xù)型隨機變量。相應的概率分布有正態(tài)分布,均勻分布,指數(shù)分布,伽馬分布,偏態(tài)分布,卡方分布,beta分布等。(真多分布,好恐怖~~)
在離散型隨機變量X的一切可能值中,各可能值與其對應概率的乘積之和稱為該隨機變量X的期望值,記作E(X) 。比如有隨機變量,取值依次為:2,2,2,4,5。求其平均值:(2+2+2+4+5)/5 = 3。
期望值也就是該隨機變量總體的均值。 推導過程如下:
= (2+2+2+4+5)/5
= 1/5 2 3 + 4/5 + 5/5
= 3/5 2 + 1/5 4 + 1/5 5
= 0.6 2 + 0.2 4 + 0.2 5
= 60% 2 + 20% 4 + 20%*5
= 1.2 + 0.8 + 1
= 3
倒數(shù)第三步可以解釋為值為2的數(shù)字出現(xiàn)的概率為60%,4的概率為20%,5的概率為20%。 所以E(X) = 60% 2 + 20% 4 + 20%*5 = μ = 3。
0-1分布(兩點分布),它的隨機變量的取值為1或0。即離散型隨機變量X的概率分布為:P{X=0} = 1-p, P{X=1} = p,即:
則稱隨機變量X服從參數(shù)為p的0-1分布,記作X~B(1,p)。
在生活中有很多例子服從兩點分布,比如投資是否中標,新生嬰兒是男孩還是女孩,檢查產(chǎn)品是否合格等等。
大家非常熟悉的拋硬幣試驗對應的分布就是二項分布。拋硬幣試驗要么出現(xiàn)正面,要么就是反面,只包含這兩個結果。出現(xiàn)正面的次數(shù)是一個隨機變量,這種隨機變量所服從的概率分布通常稱為 二項分布 。
像拋硬幣這類試驗所具有的共同性質(zhì)總結如下:(以拋硬幣為例)
通常稱具有上述特征的n次重復獨立試驗為n重伯努利試驗。簡稱伯努利試驗或伯努利試驗概型。特別地,當試驗次數(shù)為1時,二項分布服從0-1分布(兩點分布)。
舉個栗子:拋3次均勻的硬幣,求結果出現(xiàn)有2個正面的概率 。
已知p = 0.5 (出現(xiàn)正面的概率) ,n = 3 ,k = 2
所以拋3次均勻的硬幣,求結果出現(xiàn)有2個正面的概率為3/8。
二項分布的期望值和方差 分別為:
泊松分布是用來描述在一 指定時間范圍內(nèi)或在指定的面積或體積之內(nèi)某一事件出現(xiàn)的次數(shù)的分布 。生活中服從泊松分布的例子比如有每天房產(chǎn)中介接待的客戶數(shù),某微博每月出現(xiàn)服務器癱瘓的次數(shù)等等。 泊松分布的公式為 :
其中 λ 為給定的時間間隔內(nèi)事件的平均數(shù),λ = np。e為一個數(shù)學常數(shù),一個無限不循環(huán)小數(shù),其值約為2.71828。
泊松分布的期望值和方差 分別為:
使用Python繪制泊松分布的概率分布圖:
因為連續(xù)型隨機變量可以取某一區(qū)間或整個實數(shù)軸上的任意一個值,所以通常用一個函數(shù)f(x)來表示連續(xù)型隨機變量,而f(x)就稱為 概率密度函數(shù) 。
概率密度函數(shù)f(x)具有如下性質(zhì) :
需要注意的是,f(x)不是一個概率,即f(x) ≠ P(X = x) 。在連續(xù)分布的情況下,隨機變量X在a與b之間的概率可以寫成:
正態(tài)分布(或高斯分布)是連續(xù)型隨機變量的最重要也是最常見的分布,比如學生的考試成績就呈現(xiàn)出正態(tài)分布的特征,大部分成績集中在某個范圍(比如60-80分),很小一部分往兩端傾斜(比如50分以下和90多分以上)。還有人的身高等等。
正態(tài)分布的定義 :
如果隨機變量X的概率密度為( -∞x+∞):
則稱X服從正態(tài)分布,記作X~N(μ,σ2)。其中-∞μ+∞,σ0, μ為隨機變量X的均值,σ為隨機變量X的標準差。 正態(tài)分布的分布函數(shù)
正態(tài)分布的圖形特點 :
使用Python繪制正態(tài)分布的概率分布圖:
正態(tài)分布有一個3σ準則,即數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6827,分布在(μ-2σ,μ+2σ)中的概率為0.9545,分布在(μ-3σ,μ+3σ)中的概率為0.9973,也就是說大部分數(shù)值是分布在(μ-3σ,μ+3σ)區(qū)間內(nèi),超出這個范圍的可能性很小很小,僅占不到0.3%,屬于極個別的小概率事件,所以3σ準則可以用來檢測異常值。
當μ=0,σ=1時,有
此時的正態(tài)分布N(0,1) 稱為標準正態(tài)分布。因為μ,σ都是確定的取值,所以其對應的概率密度曲線是一條 形態(tài)固定 的曲線。
對標準正態(tài)分布,通常用φ(x)表示概率密度函數(shù),用Φ(x)表示分布函數(shù):
假設有一次物理考試特別難,滿分100分,全班只有大概20個人及格。與此同時語文考試很簡單,全班絕大部分都考了90分以上。小明的物理和語文分別考了60分和80分,他回家后告訴家長,這時家長能僅僅從兩科科目的分值直接判斷出這次小明的語文成績要比物理好很多嗎?如果不能,應該如何判斷呢?此時Z-score就派上用場了。 Z-Score的計算定義 :
即 將隨機變量X先減去總體樣本均值,再除以總體樣本標準差就得到標準分數(shù)啦。如果X低于平均值,則Z為負數(shù),反之為正數(shù) 。通過計算標準分數(shù),可以將任何一個一般的正態(tài)分布轉(zhuǎn)化為標準正態(tài)分布。
小明家長從老師那得知物理的全班平均成績?yōu)?0分,標準差為10,而語文的平均成績?yōu)?2分,標準差為4。分別計算兩科成績的標準分數(shù):
物理:標準分數(shù) = (60-40)/10 = 2
語文:標準分數(shù) = (85-95)/4 = -2.5
從計算結果來看,說明這次考試小明的物理成績在全部同學中算是考得很不錯的,而語文考得很差。
指數(shù)分布可能容易和前面的泊松分布混淆,泊松分布強調(diào)的是某段時間內(nèi)隨機事件發(fā)生的次數(shù)的概率分布,而指數(shù)分布說的是 隨機事件發(fā)生的時間間隔 的概率分布。比如一班地鐵進站的間隔時間。如果隨機變量X的概率密度為:
則稱X服從指數(shù)分布,其中的參數(shù)λ0。 對應的分布函數(shù) 為:
均勻分布的期望值和方差 分別為:
使用Python繪制指數(shù)分布的概率分布圖:
均勻分布有兩種,分為 離散型均勻分布和連續(xù)型均勻分布 。其中離散型均勻分布最常見的例子就是拋擲骰子啦。拋擲骰子出現(xiàn)的點數(shù)就是一個離散型隨機變量,點數(shù)可能有1,2,3,4,5,6。每個數(shù)出現(xiàn)的概率都是1/6。
設連續(xù)型隨機變量X具有概率密度函數(shù):
則稱X服從區(qū)間(a,b)上的均勻分布。X在等長度的子區(qū)間內(nèi)取值的概率相同。對應的分布函數(shù)為:
f(x)和F(x)的圖形分別如下圖所示:
均勻分布的期望值和方差 分別為:
Python怎么計算概率
c(下面是總數(shù),上面是出現(xiàn)的次數(shù))??词阶颖容^容易明白。如:c(上面是2,下面是3)=(3*2)/(2*1)=3。上面的數(shù)規(guī)定幾個數(shù)相乘,數(shù)是從大往小
python求概率和是條件應該怎么寫
random.seed()用來設置初始值,這里random.seed(0)是從0開始。
random.choice() 用來隨機分配,這里表示隨機分配從20,20,40,50,60,70里隨機分配。
random.random() 用于隨機生成從0到1的浮點數(shù),即0=n=1.0。
“_” 是占位符,表示不在意變量的值,用來循環(huán)n次。
二、安裝python的科學計算包scipy
在python的科學計算包scipy的stats模塊計算出常見概率分布的概率值,并用matplotlib包進行繪圖。
在notebook環(huán)境下安裝科學計算包scipy。如果已安裝忽略下面安裝步驟。
安裝步驟:
1)打開終端Anaconda Prompt
2)在conda中運行以下命令:conda install scipy
如果存在多個python環(huán)境,先進入想要的環(huán)境再安裝,比如我自己設置了py2和py3兩個環(huán)境,先在conda中進入python環(huán)境:activate py3,再按上面步驟2執(zhí)行
如果還沒有安裝numpy包和matplotlib包,也按上述命令安裝這些包
網(wǎng)站名稱:python概率函數(shù)腳本 python中函數(shù)例題
轉(zhuǎn)載注明:http://fisionsoft.com.cn/article/hpscpc.html