新聞中心
在Linux操作系統(tǒng)中,IO(Input/Output)使用情況是非常重要的一項(xiàng)系統(tǒng)資源。IO的使用情況將直接影響系統(tǒng)的性能和穩(wěn)定性,因此必須定期進(jìn)行監(jiān)控和管理。本文將介紹如何在Linux系統(tǒng)中查詢每個(gè)用戶的IO使用情況,以便于進(jìn)行性能分析和優(yōu)化。

10年積累的網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有北塔免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
一、使用iostat命令查詢
iostat是一個(gè)可以查詢磁盤IO情況的命令。使用該命令可以查看系統(tǒng)中每個(gè)用戶的IO使用情況。具體操作步驟如下:
1.打開終端窗口,輸入以下命令:
iostat -x 1 | awk ‘{if($1 ~ /Device:/) {flag=0};if(flag) {print}};{if($1 ~ /avg-cpu:/) {flag=1}}’
2.按回車鍵,等待命令執(zhí)行完畢后,系統(tǒng)將會(huì)顯示每個(gè)用戶的IO使用情況。
該命令將顯示每個(gè)用戶的IO使用情況,包括IO速率、塊讀寫、平均等待時(shí)間和平均服務(wù)時(shí)間等信息。您可以根據(jù)這些信息來(lái)評(píng)估每個(gè)用戶的IO使用情況,進(jìn)而進(jìn)行性能優(yōu)化。
二、使用iotop命令查詢
iotop是一個(gè)可以查詢IO的命令,它比iostat更加詳細(xì),可以查看每個(gè)進(jìn)程的IO使用情況。具體操作步驟如下:
1.打開終端窗口,輸入以下命令:
iotop -b -n 1 | awk ‘{if(NR>7) {print}}’
2.按回車鍵,系統(tǒng)將會(huì)顯示每個(gè)用戶的IO情況。
與iostat不同,iotop可以查看到每個(gè)進(jìn)程的IO信息。您可以根據(jù)這些信息來(lái)評(píng)估每個(gè)用戶的IO使用情況和進(jìn)程的IO使用情況,進(jìn)而進(jìn)行性能優(yōu)化。
三、使用pidstat命令查詢
pidstat是一個(gè)可以查詢進(jìn)程ID的命令,它可以用于查詢每個(gè)進(jìn)程的IO使用情況。具體操作步驟如下:
1.打開終端窗口,輸入以下命令:
pidstat -d 1 | awk ‘{if($1 ~ /[0-9]/) {print}}’
2.按回車鍵,系統(tǒng)將會(huì)顯示每個(gè)用戶的IO情況。
與iotop不同,pidstat可以查看到每個(gè)進(jìn)程的IO使用情況和當(dāng)前用戶的IO使用情況。您可以根據(jù)這些信息來(lái)評(píng)估每個(gè)用戶的IO使用情況和進(jìn)程的IO使用情況,進(jìn)而進(jìn)行性能優(yōu)化。
四、使用sar命令查詢
sar是一個(gè)可以查詢系統(tǒng)活動(dòng)信息的命令,它可以用于查詢每個(gè)用戶的IO使用情況。具體操作步驟如下:
1.打開終端窗口,輸入以下命令:
sar -d 1 | awk ‘{if(NR>2) {print}}’
2.按回車鍵,系統(tǒng)將會(huì)顯示每個(gè)用戶的IO情況。
與其他命令不同,sar可以查看所有用戶的IO使用情況,您可以根據(jù)這些信息來(lái)評(píng)估系統(tǒng)的性能和穩(wěn)定性,進(jìn)而進(jìn)行性能優(yōu)化。
在Linux操作系統(tǒng)中,IO的使用情況是一個(gè)非常重要的指標(biāo)。通過(guò)查詢每個(gè)用戶的IO情況,您可以評(píng)估系統(tǒng)的性能和穩(wěn)定性,并提升系統(tǒng)的性能。在本文中,我們介紹了四種查詢每個(gè)用戶的IO使用情況的方法,您可以根據(jù)實(shí)際情況選擇適合自己的方法。希望本文能夠幫助您更好地了解Linux系統(tǒng)中的IO使用情況。
成都網(wǎng)站建設(shè)公司-創(chuàng)新互聯(lián),建站經(jīng)驗(yàn)豐富以策略為先導(dǎo)10多年以來(lái)專注數(shù)字化網(wǎng)站建設(shè),提供企業(yè)網(wǎng)站建設(shè),高端網(wǎng)站設(shè)計(jì),響應(yīng)式網(wǎng)站制作,設(shè)計(jì)師量身打造品牌風(fēng)格,熱線:028-86922220如何找出Linux系統(tǒng)高IO的思路總結(jié)
前言
I/O Wait是一個(gè)需要使用高級(jí)的工具來(lái)debug問(wèn)題原因,當(dāng)然也有許多基本工具的高級(jí)用法。I/O wait的問(wèn)題難以定位的原因是:因?yàn)槲覀冇泻芏喙ぞ呖梢愿嬖V你I/O 受限了,但是并沒(méi)有告訴你具體是哪個(gè)進(jìn)程引起的。
1. 如何確認(rèn),是否是I/O問(wèn)題導(dǎo)致系統(tǒng)緩慢
確認(rèn)是否是I/O導(dǎo)致的系統(tǒng)緩慢我們可以使用多個(gè)命令,但是,最簡(jiǎn)單的是unix的命令 top
# top
top – 14:31:20 up 35 min, 4 users, load average: 2.25, 1.74, 1.68
Tasks: 71 total, 1 running, 70 sleeping, 0 stopped, 0 zombie
Cpu(s): 2.3%us, 1.7%sy, 0.0%ni, 0.0%id, 96.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem:k total,k used, 4436k free, 496k buffers
Swap:k total, 5436k used,k free,k cached
從CPU這行,可以發(fā)現(xiàn)CPU的io wait;這里是96.0%。越高就代表CPU用于io wait的資源越多。
2. 找出哪個(gè)磁盤正在被寫入
上邊的top命令從一個(gè)整體上說(shuō)明了I/O wait,但是并沒(méi)有說(shuō)明是哪塊磁盤影響的,想知道是哪塊磁盤引發(fā)的問(wèn)題,可以使用另外一個(gè)命令 iostat 命令
$ iostat -x 2 5
avg-cpu: %user %nice %system %iowait %steal %idle
3.66 0.00 47.64 48.69 0.00 0.00
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 44.50 39.27 117.28 29…70 332.17 65.77 462.79 9..71 7.60 111.41
dm-0 0.00 0.00 83.25 9…29 317.84 57.01 648.54 16..79 11.48 107.02
dm-1 0.00 0.00 57.07 40.84 228.27 163.35 8.00 93.84 979.61 13..08 10.93 107.02
iostat 會(huì)每2秒更新一次,一共打印5次信息, -x 的選項(xiàng)是打印出擴(kuò)展信息
之一個(gè)iostat 報(bào)告會(huì)打印出系統(tǒng)最后一次啟動(dòng)后的統(tǒng)計(jì)信息,這也就是說(shuō),在多數(shù)情況下,之一個(gè)打印出來(lái)的信息應(yīng)該被忽略,剩下的報(bào)告,都是基于上一次間隔的時(shí)間。舉例子來(lái)說(shuō),這個(gè)命令會(huì)打印5次,第二次的報(bào)告是從之一次報(bào)告出來(lái)一個(gè)后的統(tǒng)計(jì)信息,第三次是基于第二次 ,依次類推
所以,一定記?。褐粋€(gè)忽略!
在上面的例子中,sda的%utilized 是111.41%,這個(gè)很好的說(shuō)明了有進(jìn)程正在寫入到sda磁盤中。
除了%utilized 外,我們可以從iostat得到更加豐富的資源信息,例如每毫秒讀寫請(qǐng)求(rrqm/s & wrqm/s)),每秒讀寫的((r/s & w/s)。在上邊的例子中,我們的項(xiàng)目看起來(lái)正在讀寫非常多的信息。這個(gè)對(duì)我們查找相應(yīng)的進(jìn)程非常有用。
3. 找出導(dǎo)致高IO的進(jìn)程
# iotop
Total DISK READ: 8.00 M/s | Total DISK WRITE: 20.36 M/s
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
be/4 root 7.99 M/s 8.01 M/s 0.00 % 61.97 % bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
最簡(jiǎn)單的方法就是用iotop找出哪個(gè)進(jìn)程用了最多的存儲(chǔ)資源,從上面可以看到是bonnie++。
iotop很好用,但是不是默認(rèn)安裝的。
如果沒(méi)有iotop,下面的方式也可以讓你有種方法縮小范圍,盡快找到是哪個(gè)進(jìn)程。
ps 命令對(duì)內(nèi)存和CPU有一個(gè)統(tǒng)計(jì),但是他沒(méi)有對(duì)磁盤I/O的統(tǒng)計(jì),雖然他沒(méi)有顯示磁盤I/O,但是它顯示進(jìn)行的狀態(tài),我們可以用來(lái)知道一個(gè)進(jìn)程是否正在等待I/O
主要的進(jìn)程狀態(tài)有:
PROCESS STATE CODES
D uninterruptible sleep (usually IO)
R running or runnable (on run queue)
S interruptible sleep (waiting for an event to complete)
T stopped, either by a job control signal or because it is being traced.
W paging (not valid since the 2.6.xx kernel)
X dead (should never be seen)
Z defunct (“zombie”) process, terminated but not reaped by its parent.
等待I/O的進(jìn)程的狀態(tài)一般是“uninterruptible sleep”,或者“D”,我們可以很容易的查找到正在等待I/O的進(jìn)程
# for x in `seq`; do ps -eo state,pid,cmd | grep “^D”; echo “—-“; sleep 5; done
D 248
Dbonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
—-
D 22
Dbonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
—-
D 22
Dbonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
—-
D 22
Dbonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
—-
Dbonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
上邊的例子會(huì)循環(huán)的輸出狀態(tài)是D的進(jìn)程,每5秒一次,一共10次
從輸出我們可以知道 bonnie++ 的pid是16528 ,在waiting,bonnie++看起來(lái)就是我們想找到的進(jìn)程,但是,只是從它的狀態(tài),我們沒(méi)有辦法證明就是bonnie++引起的I/O等待。
為了證明,我們可以可以查看/proc,每個(gè)進(jìn)程目錄下都有一個(gè)叫io的文件,里邊保存這和iotop類似的信息。
# cat /proc/16528/io
rchar:
wchar:
syscr: 5967
syscw: 67138
read_bytes:
write_bytes:
cancelled_write_bytes: 0
read_bytes和write_bytes是這個(gè)進(jìn)程從磁盤讀寫的字節(jié),在這個(gè)例子中,bonnie++進(jìn)程讀取了46M的數(shù)據(jù)并且寫入了524MB的數(shù)據(jù)到磁盤上。
4. 找出哪個(gè)文件正在被大量寫入
lsof 命令可以展示一個(gè)進(jìn)程打開的所有文件。從這個(gè)列表中,我們可以找到哪個(gè)文件被寫入。
# lsof -p 16528
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
bonnie++root cwd DIR 252,/tmp
bonnie++root 8u REG 252,1869 /tmp/Bonnie.16528
bonnie++root 9u REG 252,1869 /tmp/Bonnie.16528
bonnie++root 10u REG 252,1869 /tmp/Bonnie.16528
bonnie++root 11u REG 252,1869 /tmp/Bonnie.16528
/tmp/Bonnie.16528
# df /tmp
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/workstation-root% /
# pvdisplay
Physical volume —
PV Name /dev/sda5
VG Name workstation
PV Size 7.76 GiB / not usable 2.00 MiB
Allocatable yes
PE Size 4.00 MiB
Total PE 1986
Free PE 8
Allocated PE 1978
PV UUID CLbABb-GcLB-l5z3-TCj3-IOK3-SQ2p-RDPW5S
使用pvdisplay可以看到,pv設(shè)備就是/dev/sda5,正是我們前面找到的sda。
參考文檔:
Linux 磁盤IO
磁盤結(jié)構(gòu)與數(shù)據(jù)存儲(chǔ)方式, 數(shù)據(jù)是如何存儲(chǔ)的,又通過(guò)怎樣的方式被訪問(wèn)?
機(jī)械硬盤主要由磁盤盤片、磁頭、主軸與傳動(dòng)軸等組成;數(shù)據(jù)就存放在磁盤盤片中
現(xiàn)代硬盤尋道都是采用CHS( Cylinder Head Sector )的方式,硬盤讀取數(shù)據(jù)時(shí),讀寫磁頭沿徑向移動(dòng),移到要讀取的扇區(qū)所在磁道的上方,這段時(shí)間稱為
尋道時(shí)間(seek time)
。
因讀寫磁頭的起始位置與目標(biāo)位置之間的距離不同,尋道時(shí)間也不同
。磁頭到達(dá)指定磁道后,然后通過(guò)盤片的旋轉(zhuǎn),使得要讀取的扇區(qū)轉(zhuǎn)到讀寫磁頭的下方,這段時(shí)間稱為
旋轉(zhuǎn)延遲時(shí)間(rotational latencytime)
。然后再讀寫數(shù)據(jù),讀寫數(shù)據(jù)也需要時(shí)間,這段時(shí)間稱為
傳輸時(shí)間(transfer time)
。
固態(tài)硬盤主要由主控芯片、閃存顆粒與緩存組成;數(shù)據(jù)就存放在閃存芯片中
通過(guò)主控芯片進(jìn)行尋址, 因?yàn)槭请娦盘?hào)方式, 沒(méi)有任何物理結(jié)構(gòu), 所以尋址速度非??烨遗c數(shù)據(jù)存儲(chǔ)位置無(wú)關(guān)
如何查看系統(tǒng)IO狀態(tài)
查看磁盤空間
調(diào)用 open , fwrite 時(shí)到底發(fā)生了什么?
在一個(gè)IO過(guò)程中,以下5個(gè)API/系統(tǒng)調(diào)用是必不可少的
Create 函數(shù)用來(lái)打開一個(gè)文件,如果該文件不存在,那么需要在磁盤上創(chuàng)建該文件
Open 函數(shù)用于打開一個(gè)指定的文件。如果在 Open 函數(shù)中指定 O_CREATE 標(biāo)記,那么 Open 函數(shù)同樣可以實(shí)現(xiàn) Create 函數(shù)的功能
Clos e函數(shù)用于釋放文件句柄
Write 和 Read 函數(shù)用于實(shí)現(xiàn)文件的讀寫過(guò)程
O_SYNC (先寫緩存, 但是需要實(shí)際落盤之后才返回, 如果接下來(lái)有讀請(qǐng)求, 可以從內(nèi)存讀 ), write-through
O_DSYNC (D=data, 類似O_SYNC, 但是只同步數(shù)據(jù), 不同步元數(shù)據(jù))
O_DIRECT (直接寫盤, 不經(jīng)過(guò)緩存)
O_ASYNC (異步IO, 使用信號(hào)機(jī)制實(shí)現(xiàn), 不推薦, 直接用aio_xxx)
O_NOATIME (讀取的時(shí)候不更新文件 atime(access time))
sync() 全局緩存寫回磁盤
fsync() 特定fd的sync()
fdatasync() 只刷數(shù)據(jù), 不同步元數(shù)據(jù)
mount noatime(全局不記錄atime), re方式(只讀), sync(同步方式)
一個(gè)IO的傳奇一生 這里有一篇非常好的資料,講述了整個(gè)IO過(guò)程;
下面簡(jiǎn)單記錄下自己的理解的一次常見的Linux IO過(guò)程, 想了解更詳細(xì)及相關(guān)源碼,非常推薦閱讀上面的原文
Linux IO體系結(jié)構(gòu)
Superblock
超級(jí)描述了整個(gè)文件系統(tǒng)的信息。為了保證可靠性,可以在每個(gè)塊組中對(duì)superblock進(jìn)行備份。為了避免superblock冗余過(guò)多,可以采用稀疏存儲(chǔ)的方式,即在若干個(gè)塊組中對(duì)superblock進(jìn)行保存,而不需要在所有的塊組中都進(jìn)行備份
GDT 組描述符表
組描述符表對(duì)整個(gè)組內(nèi)的數(shù)據(jù)布局進(jìn)行了描述。例如,數(shù)據(jù)塊位圖的起始地址是多少?inode位圖的起始地址是多少?inode表的起始地址是多少?塊組中還有多少空閑塊資源等。組描述符表在superblock的后面
數(shù)據(jù)塊位圖
數(shù)據(jù)塊位圖描述了塊組內(nèi)數(shù)據(jù)塊的使用情況。如果該數(shù)據(jù)塊已經(jīng)被某個(gè)文件使用,那么位圖中的對(duì)應(yīng)位會(huì)被置1,否則該位為0
Inode位圖
Inode位圖描述了塊組內(nèi)inode資源使用情況。如果一個(gè)inode資源已經(jīng)使用,那么對(duì)應(yīng)位會(huì)被置1
Inode表
(即inode資源)和數(shù)據(jù)塊。這兩塊占據(jù)了塊組內(nèi)的絕大部分空間,特別是數(shù)據(jù)塊資源
一個(gè)文件是由inode進(jìn)行描述的。一個(gè)文件占用的數(shù)據(jù)塊block是通過(guò)inode管理起來(lái)的
。在inode結(jié)構(gòu)中保存了直接塊指針、一級(jí)間接塊指針、二級(jí)間接塊指針和三級(jí)間接塊指針。對(duì)于一個(gè)小文件,直接可以采用直接塊指針實(shí)現(xiàn)對(duì)文件塊的訪問(wèn);對(duì)于一個(gè)大文件,需要采用間接塊指針實(shí)現(xiàn)對(duì)文件塊的訪問(wèn)
最簡(jiǎn)單的調(diào)度器。它本質(zhì)上就是一個(gè)鏈表實(shí)現(xiàn)的
fifo
隊(duì)列,并對(duì)請(qǐng)求進(jìn)行簡(jiǎn)單的
合并
處理。
調(diào)度器本身并沒(méi)有提供任何可以配置的參數(shù)
讀寫請(qǐng)求被分成了兩個(gè)隊(duì)列, 一個(gè)用訪問(wèn)地址作為索引,一個(gè)用進(jìn)入時(shí)間作為索引,并且采用兩種方式將這些request管理起來(lái);
在請(qǐng)求處理的過(guò)程中,deadline算法會(huì)優(yōu)先處理那些訪問(wèn)地址臨近的請(qǐng)求,這樣可以更大程度的減少磁盤抖動(dòng)的可能性。
只有在有些request即將被餓死的時(shí)候,或者沒(méi)有辦法進(jìn)行磁盤順序化操作的時(shí)候,deadline才會(huì)放棄地址優(yōu)先策略,轉(zhuǎn)而處理那些即將被餓死的request
deadline算法可調(diào)整參數(shù)
read_expire
: 讀請(qǐng)求的超時(shí)時(shí)間設(shè)置(ms)。當(dāng)一個(gè)讀請(qǐng)求入隊(duì)deadline的時(shí)候,其過(guò)期時(shí)間將被設(shè)置為當(dāng)前時(shí)間+read_expire,并放倒fifo_list中進(jìn)行排序
write_expire
:寫請(qǐng)求的超時(shí)時(shí)間設(shè)置(ms)
fifo_batch
:在順序(sort_list)請(qǐng)求進(jìn)行處理的時(shí)候,deadline將以batch為單位進(jìn)行處理。每一個(gè)batch處理的請(qǐng)求個(gè)數(shù)為這個(gè)參數(shù)所限制的個(gè)數(shù)。在一個(gè)batch處理的過(guò)程中,不會(huì)產(chǎn)生是否超時(shí)的檢查,也就不會(huì)產(chǎn)生額外的磁盤尋道時(shí)間。這個(gè)參數(shù)可以用來(lái)平衡順序處理和饑餓時(shí)間的矛盾,當(dāng)饑餓時(shí)間需要盡可能的符合預(yù)期的時(shí)候,我們可以調(diào)小這個(gè)值,以便盡可能多的檢查是否有饑餓產(chǎn)生并及時(shí)處理。增大這個(gè)值當(dāng)然也會(huì)增大吞吐量,但是會(huì)導(dǎo)致處理饑餓請(qǐng)求的延時(shí)變長(zhǎng)
writes_starved
:這個(gè)值是在上述deadline出隊(duì)處理之一步時(shí)做檢查用的。用來(lái)判斷當(dāng)讀隊(duì)列不為空時(shí),寫隊(duì)列的饑餓程度是否足夠高,以時(shí)deadline放棄讀請(qǐng)求的處理而處理寫請(qǐng)求。當(dāng)檢查存在有寫請(qǐng)求的時(shí)候,deadline并不會(huì)立即對(duì)寫請(qǐng)求進(jìn)行處理,而是給相關(guān)數(shù)據(jù)結(jié)構(gòu)中的starved進(jìn)行累計(jì),如果這是之一次檢查到有寫請(qǐng)求進(jìn)行處理,那么這個(gè)計(jì)數(shù)就為1。如果此時(shí)writes_starved值為2,則我們認(rèn)為此時(shí)饑餓程度還不足夠高,所以繼續(xù)處理讀請(qǐng)求。只有當(dāng)starved >= writes_starved的時(shí)候,deadline才回去處理寫請(qǐng)求??梢哉J(rèn)為這個(gè)值是用來(lái)平衡deadline對(duì)讀寫請(qǐng)求處理優(yōu)先級(jí)狀態(tài)的,這個(gè)值越大,則寫請(qǐng)求越被滯后處理,越小,寫請(qǐng)求就越可以獲得趨近于讀請(qǐng)求的優(yōu)先級(jí)
front_merges
:當(dāng)一個(gè)新請(qǐng)求進(jìn)入隊(duì)列的時(shí)候,如果其請(qǐng)求的扇區(qū)距離當(dāng)前扇區(qū)很近,那么它就是可以被合并處理的。而這個(gè)合并可能有兩種情況,一個(gè)是向當(dāng)前位置后合并,另一種是向前合并。在某些場(chǎng)景下,向前合并是不必要的,那么我們就可以通過(guò)這個(gè)參數(shù)關(guān)閉向前合并。默認(rèn)deadline支持向前合并,設(shè)置為0關(guān)閉
在調(diào)度一個(gè)request時(shí),首先需要選擇一個(gè)一個(gè)合適的cfq_group。Cfq調(diào)度器會(huì)為每個(gè)cfq_group分配一個(gè)時(shí)間片,當(dāng)這個(gè)時(shí)間片耗盡之后,會(huì)選擇下一個(gè)cfq_group。每個(gè)cfq_group都會(huì)分配一個(gè)vdisktime,并且通過(guò)該值采用紅黑樹對(duì)cfq_group進(jìn)行排序。在調(diào)度的過(guò)程中,每次都會(huì)選擇一個(gè)vdisktime最小的cfq_group進(jìn)行處理。
一個(gè)cfq_group管理了7棵service tree,每棵service tree管理了需要調(diào)度處理的對(duì)象cfq_queue。因此,一旦cfq_group被選定之后,需要選擇一棵service tree進(jìn)行處理。這7棵service tree被分成了三大類,分別為RT、BE和IDLE。這三大類service tree的調(diào)度是按照優(yōu)先級(jí)展開的
通過(guò)優(yōu)先級(jí)可以很容易的選定一類Service tree。當(dāng)一類service tree被選定之后,采用service time的方式選定一個(gè)合適的cfq_queue。每個(gè)Service tree是一棵紅黑樹,這些紅黑樹是按照service time進(jìn)行檢索的,每個(gè)cfq_queue都會(huì)維護(hù)自己的service time。分析到這里,我們知道,cfq算法通過(guò)每個(gè)cfq_group的vdisktime值來(lái)選定一個(gè)cfq_group進(jìn)行服務(wù),在處理cfq_group的過(guò)程通過(guò)優(yōu)先級(jí)選擇一個(gè)最需要服務(wù)的service tree。通過(guò)該Service tree得到最需要服務(wù)的cfq_queue。該過(guò)程在 cfq_select_queue 函數(shù)中實(shí)現(xiàn)
一個(gè)cfq_queue被選定之后,后面的過(guò)程和deadline算法有點(diǎn)類似。在選擇request的時(shí)候需要考慮每個(gè)request的延遲等待時(shí)間,選擇那種等待時(shí)間最長(zhǎng)的request進(jìn)行處理。但是,考慮到磁盤抖動(dòng)的問(wèn)題,cfq在處理的時(shí)候也會(huì)進(jìn)行順序批量處理,即將那些在磁盤上連續(xù)的request批量處理掉
cfq調(diào)度算法的參數(shù)
back_seek_max
:磁頭可以向后尋址的更大范圍,默認(rèn)值為16M
back_seek_penalty
:向后尋址的懲罰系數(shù)。這個(gè)值是跟向前尋址進(jìn)行比較的
fifo_expire_async
:設(shè)置異步請(qǐng)求的超時(shí)時(shí)間。同步請(qǐng)求和異步請(qǐng)求是區(qū)分不同隊(duì)列處理的,cfq在調(diào)度的時(shí)候一般情況都會(huì)優(yōu)先處理同步請(qǐng)求,之后再處理異步請(qǐng)求,除非異步請(qǐng)求符合上述合并處理的條件限制范圍內(nèi)。當(dāng)本進(jìn)程的隊(duì)列被調(diào)度時(shí),cfq會(huì)優(yōu)先檢查是否有異步請(qǐng)求超時(shí),就是超過(guò)fifo_expire_async參數(shù)的限制。如果有,則優(yōu)先發(fā)送一個(gè)超時(shí)的請(qǐng)求,其余請(qǐng)求仍然按照優(yōu)先級(jí)以及扇區(qū)編號(hào)大小來(lái)處理
fifo_expire_sync
:這個(gè)參數(shù)跟上面的類似,區(qū)別是用來(lái)設(shè)置同步請(qǐng)求的超時(shí)時(shí)間
slice_idle
:參數(shù)設(shè)置了一個(gè)等待時(shí)間。這讓cfq在切換cfq_queue或service tree的時(shí)候等待一段時(shí)間,目的是提高機(jī)械硬盤的吞吐量。一般情況下,來(lái)自同一個(gè)cfq_queue或者service tree的IO請(qǐng)求的尋址局部性更好,所以這樣可以減少磁盤的尋址次數(shù)。這個(gè)值在機(jī)械硬盤上默認(rèn)為非零。當(dāng)然在固態(tài)硬盤或者硬RAID設(shè)備上設(shè)置這個(gè)值為非零會(huì)降低存儲(chǔ)的效率,因?yàn)楣虘B(tài)硬盤沒(méi)有磁頭尋址這個(gè)概念,所以在這樣的設(shè)備上應(yīng)該設(shè)置為0,關(guān)閉此功能
group_idle
:這個(gè)參數(shù)也跟上一個(gè)參數(shù)類似,區(qū)別是當(dāng)cfq要切換cfq_group的時(shí)候會(huì)等待一段時(shí)間。在cgroup的場(chǎng)景下,如果我們沿用slice_idle的方式,那么空轉(zhuǎn)等待可能會(huì)在cgroup組內(nèi)每個(gè)進(jìn)程的cfq_queue切換時(shí)發(fā)生。這樣會(huì)如果這個(gè)進(jìn)程一直有請(qǐng)求要處理的話,那么直到這個(gè)cgroup的配額被耗盡,同組中的其它進(jìn)程也可能無(wú)法被調(diào)度到。這樣會(huì)導(dǎo)致同組中的其它進(jìn)程餓死而產(chǎn)生IO性能瓶頸。在這種情況下,我們可以將slice_idle = 0而group_idle = 8。這樣空轉(zhuǎn)等待就是以cgroup為單位進(jìn)行的,而不是以cfq_queue的進(jìn)程為單位進(jìn)行,以防止上述問(wèn)題產(chǎn)生
low_latency
:這個(gè)是用來(lái)開啟或關(guān)閉cfq的低延時(shí)(low latency)模式的開關(guān)。當(dāng)這個(gè)開關(guān)打開時(shí),cfq將會(huì)根據(jù)target_latency的參數(shù)設(shè)置來(lái)對(duì)每一個(gè)進(jìn)程的分片時(shí)間(slice time)進(jìn)行重新計(jì)算。這將有利于對(duì)吞吐量的公平(默認(rèn)是對(duì)時(shí)間片分配的公平)。關(guān)閉這個(gè)參數(shù)(設(shè)置為0)將忽略target_latency的值。這將使系統(tǒng)中的進(jìn)程完全按照時(shí)間片方式進(jìn)行IO資源分配。這個(gè)開關(guān)默認(rèn)是打開的
target_latency
:當(dāng)low_latency的值為開啟狀態(tài)時(shí),cfq將根據(jù)這個(gè)值重新計(jì)算每個(gè)進(jìn)程分配的IO時(shí)間片長(zhǎng)度
quantum
:這個(gè)參數(shù)用來(lái)設(shè)置每次從cfq_queue中處理多少個(gè)IO請(qǐng)求。在一個(gè)隊(duì)列處理事件周期中,超過(guò)這個(gè)數(shù)字的IO請(qǐng)求將不會(huì)被處理。這個(gè)參數(shù)只對(duì)同步的請(qǐng)求有效
slice_sync
:當(dāng)一個(gè)cfq_queue隊(duì)列被調(diào)度處理時(shí),它可以被分配的處理總時(shí)間是通過(guò)這個(gè)值來(lái)作為一個(gè)計(jì)算參數(shù)指定的。公式為: time_slice = slice_sync + (slice_sync/5 * (4 – prio)) 這個(gè)參數(shù)對(duì)同步請(qǐng)求有效
slice_async
:這個(gè)值跟上一個(gè)類似,區(qū)別是對(duì)異步請(qǐng)求有效
slice_async_rq
:這個(gè)參數(shù)用來(lái)限制在一個(gè)slice的時(shí)間范圍內(nèi),一個(gè)隊(duì)列最多可以處理的異步請(qǐng)求個(gè)數(shù)。請(qǐng)求被處理的更大個(gè)數(shù)還跟相關(guān)進(jìn)程被設(shè)置的io優(yōu)先級(jí)有關(guān)
通常在Linux上使用的IO接口是同步方式的,進(jìn)程調(diào)用 write / read 之后會(huì)阻塞陷入到內(nèi)核態(tài),直到本次IO過(guò)程完成之后,才能繼續(xù)執(zhí)行,下面介紹的異步IO則沒(méi)有這種限制,但是當(dāng)前Linux異步IO尚未成熟
目前Linux aio還處于較不成熟的階段,只能在 O_DIRECT 方式下才能使用(glibc_aio),也就是無(wú)法使用默認(rèn)的Page Cache機(jī)制
正常情況下,使用aio族接口的簡(jiǎn)要方式如下:
io_uring 是 2023 年 5 月發(fā)布的 Linux 5.1 加入的一個(gè)重大特性 —— Linux 下的全新的異步 I/O 支持,希望能徹底解決長(zhǎng)期以來(lái) Linux AIO 的各種不足
io_uring 實(shí)現(xiàn)異步 I/O 的方式其實(shí)是一個(gè)生產(chǎn)者-消費(fèi)者模型:
邏輯卷管理
RAID0
RAID1
RAID5(糾錯(cuò))
條帶化
Linux系統(tǒng)性能調(diào)整:IO過(guò)程
Linux的IO調(diào)度
一個(gè)IO的傳奇一生
理解inode
Linux 文件系統(tǒng)是怎么工作的?
Linux中Buffer cache性能問(wèn)題一探究竟
Asynchronous I/O and event notification on linux
AIO 的新歸宿:io_uring
查詢每個(gè)用戶的io使用linux的介紹就聊到這里吧,感謝你花時(shí)間閱讀本站內(nèi)容,更多關(guān)于查詢每個(gè)用戶的io使用linux,如何查詢每個(gè)用戶的IO使用情況(Linux),如何找出Linux系統(tǒng)高IO的思路總結(jié),/tmp/Bonnie.16528,Linux 磁盤IO的信息別忘了在本站進(jìn)行查找喔。
成都網(wǎng)站建設(shè)選創(chuàng)新互聯(lián)(?:028-86922220),專業(yè)從事成都網(wǎng)站制作設(shè)計(jì),高端小程序APP定制開發(fā),成都網(wǎng)絡(luò)營(yíng)銷推廣等一站式服務(wù)。
本文題目:如何查詢每個(gè)用戶的IO使用情況(Linux)(查詢每個(gè)用戶的io使用linux)
分享路徑:http://fisionsoft.com.cn/article/djsdshh.html


咨詢
建站咨詢
