新聞中心
在數(shù)據(jù)分析過(guò)程中,一個(gè)關(guān)鍵問(wèn)題是如何將多個(gè)數(shù)據(jù)集整合成一個(gè)完整的數(shù)據(jù)庫(kù),以便進(jìn)行更細(xì)致的分析。針對(duì)這個(gè)問(wèn)題,Stata 提供了一系列強(qiáng)大的合并工具,使得數(shù)據(jù)整合變得十分簡(jiǎn)單與高效。

威遠(yuǎn)ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來(lái)市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書合作)期待與您的合作!
本文將介紹 Stata 數(shù)據(jù)庫(kù)合并的幾種方法,包括 append、merge、join 和 reshape 等,通過(guò)實(shí)例演示每種方法的應(yīng)用,讓讀者能夠更直觀地理解和掌握這些工具的使用方法,從而在數(shù)據(jù)分析過(guò)程中提高效率和準(zhǔn)確性。
一、append 合并
append 合并是一種簡(jiǎn)單的將兩個(gè)數(shù)據(jù)集垂直拼接的方法,通常用于兩個(gè)數(shù)據(jù)集的變量完全一致,且觀測(cè)值之間沒(méi)有交集的情況下。下面是一個(gè)示例:
use dataset1.dta, clear
append using dataset2.dta
使用 append,我們將 dataset2.dta 插入 dataset1.dta 中,并將合并后的數(shù)據(jù)存放在 dataset1.dta 中。這種合并方式常常用于數(shù)據(jù)量較小,但不方便在源數(shù)據(jù)集上進(jìn)行修改的情況,比如多個(gè)用戶分別分析同一個(gè)數(shù)據(jù)集,每個(gè)用戶只需要將數(shù)據(jù)導(dǎo)入后進(jìn)行分析,最后把分析結(jié)果合并在一起即可。
二、merge 合并
merge 合并是一種將兩個(gè)數(shù)據(jù)集按照某些共同的變量合并成一個(gè)數(shù)據(jù)集的方法,通常用于兩個(gè)數(shù)據(jù)集的某些變量完全一致,但觀測(cè)值之間存在交集的情況下。下面是一個(gè)示例:
use dataset3.dta, clear
merge 1:1 id using dataset4.dta
上述語(yǔ)句執(zhí)行了一個(gè) 1:1 的 merge,即按照變量 id 進(jìn)行合并,其中 dataset3.dta 中沒(méi)有的 id 僅保留 dataset4.dta 中的變量。如果執(zhí)行一個(gè) n:1 的 merge,即使用合并變量中重復(fù)的之一個(gè) id 值,那么 dataset4.dta 中無(wú)法與 dataset3.dta 相對(duì)應(yīng)的觀測(cè)值將會(huì)被舍棄。
三、join 合并
除了 merge,Stata 還提供了一種更靈活的 join 合并方式,可以根據(jù)變量的相似度來(lái)進(jìn)行模糊匹配。下面是一個(gè)示例:
use dataset5.dta, clear
joinby id using dataset6.dta, type(1) gen(matchid)
上述語(yǔ)句執(zhí)行了一個(gè)基于 id 進(jìn)行 join 的操作,如果兩個(gè)數(shù)據(jù)集中的 id 存在不匹配的情況,那么 join 將會(huì)嘗試將它們進(jìn)行模糊匹配。同時(shí),join 還可以支持不同類型的變量之間的匹配,比如字符串和數(shù)值之間的匹配,讓數(shù)據(jù)合并更加靈活和高效。
四、reshape 合并
除了以上的兩種合并方式,還存在一種類型的合并方式是 reshape,它可以將數(shù)據(jù)集重新排列,并根據(jù)指定的變量進(jìn)行合并。下面是一個(gè)示例:
use dataset7.dta, clear
reshape long x, i(id) j(year)
上述語(yǔ)句將 dataset7.dta 中的 x 變量排列成 long 格式,并根據(jù) id 變量和 year 變量將數(shù)據(jù)集重新合并。這種合并方式通常用于將寬格式的數(shù)據(jù)集轉(zhuǎn)化為長(zhǎng)格式,更便于統(tǒng)計(jì)和分析。
Stata 提供了多種數(shù)據(jù)合并方式,針對(duì)不同類型的數(shù)據(jù)整合需求,可以靈活選擇合適的合并方式。實(shí)際工作中,數(shù)據(jù)合并是數(shù)據(jù)分析中不可或缺的一環(huán),精細(xì)的數(shù)據(jù)合并能夠優(yōu)化數(shù)據(jù)分析流程,提高研究效率和準(zhǔn)確性。本文介紹了 append、merge、join 和 reshape 等幾種數(shù)據(jù)合并方式,并通過(guò)實(shí)例演示了其使用方法,希望能夠?qū)ψx者在數(shù)據(jù)分析過(guò)程中提供一定參考和幫助。
成都網(wǎng)站建設(shè)公司-創(chuàng)新互聯(lián)為您提供網(wǎng)站建設(shè)、網(wǎng)站制作、網(wǎng)頁(yè)設(shè)計(jì)及定制高端網(wǎng)站建設(shè)服務(wù)!
stata怎么讓皮爾遜相關(guān)系數(shù)展示星號(hào)
stata怎么讓皮爾遜相關(guān)系數(shù)展示星號(hào)?STATA 常用命令集
一、調(diào)整變量格式:
format x1 %10.3f ——將x1的列寬固定為10,小數(shù)點(diǎn)后取三位
format x1 %10.3g ——將x1的列寬固定為10,有效數(shù)字取三位
format x1 %10.3e ——將x1的列寬固定為10,采用科學(xué)計(jì)數(shù)法
format x1 %10.3fc ——將x1的列寬固定為10,小數(shù)點(diǎn)后取三位,加入千分位分隔符
format x1 %10.3gc ——將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符
format x1 %-10.3gc ——將x1的戚搏答列寬固定為10,有效數(shù)字取三位,加入千分位分隔符,加入“-”表示左對(duì)齊。
二、合并數(shù)據(jù):
use “C:\Documents and Settings\xks\桌面\2023.dta”, clear
merge using “C:\Documents and Settings\xks\桌面\1999.dta”
——將1999和2023的數(shù)據(jù)按照樣本(observation)排列的自然順序合并起來(lái)
use “C:\Documents and Settings\xks\桌面\2023.dta”, clear
merge id using “C:\Documents and Settings\xks\桌面\1999.dta” ,unique sort
——將1999和2023的數(shù)據(jù)按照唯一的(unique)變量id來(lái)合并,在合并時(shí)對(duì)id進(jìn)行排序(sort)
建議采用之一種方法。
三、對(duì)樣本進(jìn)行隨機(jī)篩選:
sample 50
在觀測(cè)案例中隨機(jī)選取50%的樣本,其余刪除
sample 50,count
在觀測(cè)案例中隨機(jī)選取50個(gè)樣本,其余刪除
四、查看與編輯數(shù)據(jù):
browse x1 x2 if x3>3 (按所列變量與條件打開(kāi)數(shù)據(jù)查看器)
edit x1 x2 if x3>3 (按所列變量與條件打開(kāi)數(shù)據(jù)編輯器)
五、數(shù)據(jù)合并(merge)與擴(kuò)展(append)
merge表示樣本量不變,但增加了一些新變量;append表示樣本總量增加了,但變量數(shù)目不變。
one-to-one merge:
數(shù)據(jù)源自stata tutorial中的exampw1和exampw2
之一步:將exampw1按v001~v003這三個(gè)編碼排序,并建立臨時(shí)數(shù)據(jù)庫(kù)tempw1
clear
use “t:\statatut\exampw1.dta”
su ——summarize的簡(jiǎn)寫
sort v001 v002 v003
save tempw1
第二步:對(duì)exampw2做同樣的處理
clear
use “t:\statatut\exampw2.dta”
su
sort v001 v002 v003
save tempw2
第三步:使用tempw1數(shù)據(jù)庫(kù),將其與tempw2合并:
clear
use tempw1
merge v001 v002 v003 using tempw2
第四步:查銀襪看合并后的數(shù)據(jù)狀況:
ta _merge ——tabulate _merge的簡(jiǎn)寫
su
第五步:清理臨時(shí)數(shù)據(jù)庫(kù),并刪高慧除_merge,以免日后合并新變量時(shí)出錯(cuò)
erase tempw1.dta
erase tempw2.dta
drop _merge
數(shù)據(jù)擴(kuò)展append:
數(shù)據(jù)源自stata tutorial中的fac19和newfac
clear
use “t:\statatut\fac19.dta”
ta region
append using “t:\statatut\newfac”
ta region
合并后樣本量增加,但變量數(shù)不變
六、做圖
莖葉圖:
stem x1,line(2) (做x1的莖葉圖,每一個(gè)十分位的樹(shù)莖都被拆分成兩段來(lái)顯示,前半段為0~4,后半段為5~9)
stem x1,width(2) (做x1的莖葉圖,每一個(gè)十分位的樹(shù)莖都被拆分成五段來(lái)顯示,每個(gè)小樹(shù)莖的組距為2)
stem x1,round(100) (將x1除以100后再做x1的莖葉圖)
直方圖
采用auto數(shù)據(jù)庫(kù)
histogram mpg, discrete frequency normal xlabel(1(1)5)
(discrete表示變量不連續(xù),frequency表示顯示頻數(shù),normal加入正太分布曲線,xlabel設(shè)定x軸,1和5為極端值,(1)為單位)
histogram price, fraction norm
(fraction表示y軸顯示小數(shù),除了frequency和fraction這兩個(gè)選擇之外,該命令可替換為“percent”百分比,和“density”密度;未加上discrete就表示將price當(dāng)作連續(xù)變量來(lái)繪圖)
histogram price, percent by(foreign)
(按照變量“foreign”的分類,將不同類樣本的“price”繪制出來(lái),兩個(gè)圖分左右排布)
histogram mpg, discrete by(foreign, col(1))
(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來(lái),兩個(gè)圖分上下排布)
STATA直接不能這樣咐沒(méi)絕做察辯,你要去下載一個(gè)連玉君做衡姿的文件:pwcorr_a.rar,里面有2個(gè)文件:pwcorr_a.ado和pwcorr_a.hlp,你把它放在你的STATA安裝目錄的ADO->BASE->P目錄中,命令pwcorr_a x y ,sig就可以出星號(hào),但是連老師是把0.1、0.05、0.01定為*、**、***,這樣與我們的習(xí)慣不同,
我修改為以下語(yǔ)句就可以變成:0.05、0.01、0.001定為*、**、***,
pwcorr_a x y, star1(0.001) star5(0.01) star10(0.05) sig
STATA 常用命令集
一、調(diào)整變量格式:
format x1 %10.3f ——將x1的列寬固定為10,小數(shù)點(diǎn)后取三位
format x1 %10.3g ——將x1的列寬固定為10,有效數(shù)字取三位
format x1 %10.3e ——將x1的列寬固定為10,采用科學(xué)計(jì)數(shù)法
format x1 %10.3fc ——將x1的列寬固定為10,小數(shù)點(diǎn)后取三位,加入千分位分隔符
format x1 %10.3gc ——將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符
format x1 %-10.3gc ——將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符,加入“-”表示左對(duì)齊。
二、合并數(shù)據(jù):
use “C:\Documents and Settings\xks\桌面\2023.dta”, clear
merge using “C:\Documents and Settings\xks\桌面\1999.dta”
——將1999和2023的數(shù)據(jù)按照樣本(observation)排列的自然順序合并起來(lái)
use “C:\Documents and Settings\xks\桌面\2023.dta”, clear
merge id using “C:\Documents and Settings\xks\桌面\1999.dta” ,unique sort
——將1999和2023的數(shù)據(jù)按照唯一的(unique)變量id來(lái)合并,在合并時(shí)對(duì)id進(jìn)行排序(sort)慧瞎
建議采用之一種方法。
三、對(duì)樣本進(jìn)行隨機(jī)篩選:
sample 50
在觀測(cè)案例中隨機(jī)選取50%的樣本,其余刪除
sample 50,count
在觀測(cè)案例中隨機(jī)選取50個(gè)樣本,其余刪除
四、查看與編輯數(shù)據(jù):
browse x1 x2 if x3>3 (按所列變量與條件打開(kāi)數(shù)據(jù)查看器)
edit x1 x2 if x3>3 (按所列變量與條件打開(kāi)數(shù)據(jù)編輯器)
五、數(shù)據(jù)合并(merge)與擴(kuò)展(append)
merge表示樣本量不變,但增加了一些新變量;append表示樣本總量增加了,但變量數(shù)目不變。
one-to-one merge:
數(shù)據(jù)源自stata tutorial中的exampw1和exampw2
之一步:將exampw1按v001~v003這三個(gè)編碼排序,并建立臨時(shí)數(shù)據(jù)庫(kù)tempw1
clear
use “t:\statatut\exampw1.dta”
su ——summarize的簡(jiǎn)寫
sort v001 v002 v003
save tempw1
第二步:對(duì)exampw2做同樣的處理
clear
use “t:\statatut\exampw2.dta”
su
sort v001 v002 v003
save tempw2
第三步:使用tempw1數(shù)據(jù)庫(kù),將其與tempw2合并:
clear
use tempw1
merge v001 v002 v003 using tempw2
第四步:查看合并后的數(shù)據(jù)狀況:
ta _merge ——tabulate _merge的簡(jiǎn)寫
su
第五步:清理臨時(shí)數(shù)據(jù)庫(kù),并刪除_merge,以免日后合并新變量時(shí)出錯(cuò)
erase tempw1.dta
erase tempw2.dta
drop _merge
數(shù)據(jù)擴(kuò)展append:
數(shù)據(jù)源自stata tutorial中的fac19和newfac
clear
use “t:\statatut\fac19.dta”
ta region
append using “t:\statatut\newfac”
ta region
合并后樣本量增加,但變量數(shù)喊猜不變
六、做圖
莖葉圖:
stem x1,line(2) (做x1的莖葉圖,每一個(gè)十分位的樹(shù)莖都被拆分成兩段來(lái)顯示,前半段為0~4,后半段為5~9)
stem x1,width(2) (做x1的莖葉圖,每一個(gè)十分位的樹(shù)莖都被拆分成五段來(lái)顯示,每個(gè)小樹(shù)莖的組距為2)鄭碧型
stem x1,round(100) (將x1除以100后再做x1的莖葉圖)
直方圖
采用auto數(shù)據(jù)庫(kù)
histogram mpg, discrete frequency normal xlabel(1(1)5)
(discrete表示變量不連續(xù),frequency表示顯示頻數(shù),normal加入正太分布曲線,xlabel設(shè)定x軸,1和5為極端值,(1)為單位)
histogram price, fraction norm
(fraction表示y軸顯示小數(shù),除了frequency和fraction這兩個(gè)選擇之外,該命令可替換為“percent”百分比,和“density”密度;未加上discrete就表示將price當(dāng)作連續(xù)變量來(lái)繪圖)
histogram price, percent by(foreign)
(按照變量“foreign”的分類,將不同類樣本的“price”繪制出來(lái),兩個(gè)圖分左右排布)
histogram mpg, discrete by(foreign, col(1))
(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來(lái),兩個(gè)圖分上下排布)
關(guān)于stata 合并數(shù)據(jù)庫(kù)的介紹到此就結(jié)束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關(guān)注本站。
四川成都云服務(wù)器租用托管【創(chuàng)新互聯(lián)】提供各地服務(wù)器租用,電信服務(wù)器托管、移動(dòng)服務(wù)器托管、聯(lián)通服務(wù)器托管,云服務(wù)器虛擬主機(jī)租用。成都機(jī)房托管咨詢:13518219792
創(chuàng)新互聯(lián)(www.cdcxhl.com)擁有10多年的服務(wù)器租用、服務(wù)器托管、云服務(wù)器、虛擬主機(jī)、網(wǎng)站系統(tǒng)開(kāi)發(fā)經(jīng)驗(yàn)、開(kāi)啟建站+互聯(lián)網(wǎng)銷售服務(wù),與企業(yè)客戶共同成長(zhǎng),共創(chuàng)價(jià)值。
本文名稱:Stata數(shù)據(jù)庫(kù)合并:精簡(jiǎn)數(shù)據(jù)分析全容易(stata合并數(shù)據(jù)庫(kù))
網(wǎng)站URL:http://fisionsoft.com.cn/article/dphedsd.html


咨詢
建站咨詢
