辰东,完美世界辰东

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

圖文回顧 Redo Log 相關(guān)知識

[[427107]]

1、如何提升 redo日志的寫性能?

為了保證 redo日志不丟失，會在磁盤中開辟一塊空間將日志保存起來。但是這樣會有一個問題，磁盤的讀寫性能非常的差。

長葛ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應(yīng)用場景，ssl證書未來市場廣闊！成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道，可以享受市場價格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：13518219792（備注：SSL證書合作）期待與您的合作！

所以 redo日志和數(shù)據(jù)頁一樣，系統(tǒng)都是會分配一塊連續(xù)的內(nèi)存，來提升讀寫性能;數(shù)據(jù)頁對應(yīng)的是 buffer pool，而 redo日志對應(yīng)的是 log buffer。

buffer pool可以利用「innodb_buffer_pool_size」指定總大小，利用「innodb_buffer_pool_instances」指定實例數(shù)，但是必須size大于等于1G才生效。

log buffer 可利用「innodb_log_buffer_size」指定 log buffer 的大小;一片連續(xù)的內(nèi)存空間會被劃分為N個512字節(jié)大小的block。

log file 可以利用「innodb_log_file_size」指定每個 log file 的大小，利用「innodb_log_files_in_group」指定一共多少個log file。

2、redo日志何時寫入log buffer?

對底層頁面(可能是多個頁面)進行一次原子性訪問，等于一個MTR，即 Mini Transaction。一個 MTR對應(yīng)一組 redo日志。一個事務(wù)對應(yīng)多個語句，一個語句對應(yīng)多個個MTR，一個MTR對應(yīng)一組redo日志，即多個 redo日志。

在MTR結(jié)束后，會將一組 redo日志寫入到log buffer中。

詳情可看下圖：

3、log buffer 中的 redo日志何時刷盤?

當(dāng) log buffer 已經(jīng)被寫入約一半左右，下次再寫入 redo日志時，需將 log buffer 的 redo日志刷到磁盤文件中。
當(dāng)事務(wù)結(jié)束時，需先將 log buffer 中，被修改的緩存頁對應(yīng)的 redo日志刷回磁盤中。
后臺線程刷，大概每隔一秒刷一次 log buffer 中的 redo日志到磁盤中。
執(zhí)行checkpoint。
正常關(guān)閉服務(wù)器。

4、我們都知道每次寫入 redo日志，都是以組為單位，那么我們怎么知道哪些是一組?

在該組中的最后一條 redo日志后邊加上一條特殊類型的 redo日志，該類型名稱為「MLOG_MULTI_REC_END」，type字段對應(yīng)的十進制數(shù)字為31，該類型的 redo日志結(jié)構(gòu)很簡單，只有一個type字段。

5、如何知道下一次redo日志改寫到log buffer的哪個位置?

buf_free全局變量，指向log buffer中下個寫入的位置。

6、如何知道下次從log buffer的哪個位置開始刷入磁盤?

buf_next_to_write全局變量，指向log buffer中下個刷回磁盤的位置。

7、如何定位 log buffer 中的 redo日志對應(yīng)哪些被修改的數(shù)據(jù)頁;在被修改的數(shù)據(jù)頁中，如何定位到對應(yīng)的是哪些 redo日志 ?

修改的緩存頁找到對應(yīng)的 redo日志
- 當(dāng) MTR 結(jié)束時，會將被修改過的數(shù)據(jù)頁對應(yīng)的數(shù)據(jù)塊放入 flush鏈表的表頭中，并且給兩個參數(shù)賦值，分別是 old_modification 和 new_modification：old_m 賦值是 MTR 開始前的 lsn 值，而 new_m 賦值是 MTR 結(jié)束時的 lsn 值。
- 如果一個 MTR 修改的數(shù)據(jù)頁對應(yīng)的控制塊本來就在 flush鏈表中，則不調(diào)整數(shù)據(jù)頁對應(yīng)的數(shù)據(jù)塊的位置，只是修改 new_modification 的值，old_modification還是保持第一次進入 flush鏈表時 lsn 的值。
- 就是說，在 flush鏈表中，數(shù)據(jù)塊是根據(jù)第一次修改的時間進行倒序排列的。
- 首先，出場一個變量，叫l(wèi)sn，全稱：log sequence number，日志序列號。它記錄的是，redo日志的總字節(jié)數(shù)，初始值為8704。當(dāng)系統(tǒng)啟動，初始化log buffer 時，lsn 值為 8704+12(一個log block header)=8716
- 接著，log buffer 是由多個block組成的(可以理解為buffer pull的緩存頁)，block由三部分組成，log block header(12個字節(jié))、log block body、log block trailer(4個字節(jié))。
- 當(dāng)?shù)谝粋€ redo日志組，如「mt_1」準備被寫入，并且一個block能容納，此時lsn為 8704+12(一個log block header)=8716，假設(shè)「mt_1」一共100字節(jié)，那么「mt_1」寫入后，lsn為8716+100=8816
- 當(dāng)?shù)诙€ redo日志組，如「mt_2」準備被寫入，并且需要跨block才能容納，如跨一個(即包含一個log block header和一個log block trailer)，開始寫入前l(fā)sn：8816，假設(shè)「mt_2」一共1000個字節(jié)，那么「mt_2」寫入后，lsn為8816+12(一個log header)+4(一個log tail)+1000=9832
- lsn
- flush和lsn
- 通過上面，那么我們可以根據(jù)flush鏈表中，數(shù)據(jù)塊的 old_modification 和 new_modification 找到對應(yīng)的一組 redo日志，因為通過 lsn 可以定位到對應(yīng) redo日志在磁盤文件中的偏移量(這個下面會講解到)。
redo日志找到對應(yīng)的緩存頁面
- redo日志的通用結(jié)構(gòu)是：type-spaceId ID-page Number-data，即我們可以根據(jù) redo日志的 space ID 和 page Number 即可找到對應(yīng)的緩存頁。
- 順帶一提：在 InnoDB 中，有一個哈希表，key為表空間號+頁號，value為緩存頁地址。這樣我們可以通過 space ID 和 page Number 快速定位到對應(yīng)的緩存頁。

8、我們知道可以利用 lsn 知道有多少字節(jié)數(shù)的 redo日志寫入到 log buffer 中，那么我們能有變量對應(yīng)的知道有多少字節(jié)數(shù)的 redo日志被刷入磁盤中嗎?

flushed_to_disk_lsn 全局變量，表示刷到磁盤的日志量。

9、lsn 和 log file 的偏移量怎么對得上么?

lsn 初始值是 8704，隨著 redo日志的不斷寫入，lsn 不斷增大。而 innodb 中，是利用 block 這個結(jié)構(gòu)來存儲 redo日志 (不管是 log buffer 還是 log file)，而 block 包含三部分，上面已經(jīng)提到。當(dāng) redo日志不斷寫入，不斷占用 block 的空間，那么 lsn 會增加對應(yīng)的字節(jié)數(shù)，當(dāng)然了，除了body、也算 header 和 trailer。
log file 是由日志組組成，日志組最大設(shè)置100個文件數(shù)，每個日志文件也是由多個512字節(jié)的block鏡像組成，日志組第一個日志文件前4個block鏡像用于存儲重要信息、如checkpoint等、即前2048個字節(jié)不用于存儲 redo日志，即從2048個字節(jié)開始計算 redo日志的存放量。
log file 的 log file header 中有一個「LOG_HEADER_START_LSN」屬性，標(biāo)記本 redo日志文件偏移量2048字節(jié)處對應(yīng)的lsn值。

詳情可看下圖：

10、log buffer 中的 redo日志真的會在事務(wù)結(jié)束時立馬刷回到磁盤中嗎?

默認是的，這里有一個參數(shù)控制：「innodb_flushing_log_at_trx_commit」，默認值是1
- 0:事務(wù)提交，不會立馬刷到磁盤中，依賴后臺線程刷入，即如果此時MySQL或系統(tǒng)掛掉重啟，無法恢復(fù)臟頁
- 1:事務(wù)提交，會立馬將log buffer的 redo日志刷回磁盤中
- 2:事務(wù)提交，會立馬將log buffer的 redo日志刷到操作系統(tǒng)的緩存中，而不是刷到磁盤中;如果此時MySQL掛掉了，重啟后不會影響恢復(fù)臟頁，而如果是系統(tǒng)掛掉，就無力回天了。

11、log file 都是循環(huán)使用，即可以覆蓋，那么怎么判斷是否可以覆蓋?

log file 中可被覆蓋，那么首要條件就是 redo日志對應(yīng)的臟頁已經(jīng)被刷到磁盤中。
innodb 有個全局變量：checkpoint_lsn，它記錄的是可被覆蓋的 redo日志量。初始值就是lsn的初始值，8704。
- 當(dāng)有臟頁被刷到磁盤時，首先在flus鏈表中拿到最舊的緩存頁，即需要拿到鏈表尾部的控制塊，然后拿到 old_modification 的值，然后將這個值賦值給 checkpoint_lsn，因為只要是小于 flush 鏈表中最舊的控制塊的 old_modification 的 lsn，就代表可以被覆蓋，畢竟對應(yīng)的臟頁已經(jīng)被刷到磁盤中了。
- 接著，將根據(jù)當(dāng)前的 checkpoint_lsn 獲取對應(yīng)日志文件組的偏移量，記錄為 checkpoint_offset，checkpoint_no 也需要加1，最后將三個信息記錄在日志文件組的 checkpoint1 或 checkpoint2(checkpoint_no為奇數(shù)存1，否則存2)。
- 上面兩步稱為執(zhí)行一次checkpoint。
- 什么是 checkpoint?
我們只需要從日志文件組中的 checkpoint1 和 checkpoint2 拿到信息，然后對比 checkpoint_no 看哪個是最新的，接著拿到checkpoint_lsn，那么 lsn 小于 checkpoint_lsn 的日志都可以被覆蓋。

12、系統(tǒng)崩潰重啟，如何利用 redo日志進行恢復(fù)?

redo日志進行崩潰恢復(fù)主要是利用上面提到的 checkpoint_lsn，因為 checkpoint_lsn 表示可以覆蓋的日志量，則表示 checkpoint_lsn 之前的 redo日志對應(yīng)的臟頁都已經(jīng)被刷回到磁盤中。
首先從 redo 日志組中拿到 checkpoint1 和 checkpoint2，接著判斷誰的 checkpoint_no 大，大的就是最新的一次 checkpoint 執(zhí)行。
接著拿到對應(yīng)的 checkpoint_offset，那么 checkpoint_offset 后的 redo日志都需要掃描一遍，然后根據(jù) redo日志的內(nèi)容，對數(shù)據(jù)頁進行恢復(fù)。

13、恢復(fù)是掃描一個 redo日志，就進行一次恢復(fù)嗎?

問題：
- 因為根據(jù) redo日志恢復(fù)數(shù)據(jù)頁的變更，是直接更新磁盤中的數(shù)據(jù)頁;掃描一個 redo日志，就進行一次恢復(fù)，如果存在多個 redo日志記錄同一個數(shù)據(jù)頁的變更，并且不是連續(xù)的，那么會導(dǎo)致多次隨機IO，性能會非常的差。
解決：
- 所以會有一個哈希表，key為 space ID + page Number，value 為數(shù)據(jù)頁地址。掃描 redo日志時，會將同一個 space ID + page Number 的 redo日志都放在同一個槽下。
- 接著遍歷哈希表，執(zhí)行每一個 space ID + page Number 對應(yīng)所有的 redo日志。
好處：
- 避免了多次的隨機IO，提升恢復(fù)的速度。
- 按順序根據(jù) redo日志進行恢復(fù)，避免出現(xiàn)恢復(fù)的順序問題。

詳情可看下圖：

14、恢復(fù)時，如何知道什么時候結(jié)束?

首先，我們知道，在日志組里，有多個block鏡像，然后 redo日志刷盤，是按順序填入每個block的，只有前一個block填滿了，才接著填下一個
接著，每個 block 的大小都是 512 個字節(jié)，包括 log block header、log block body 和 log block trailer。在block的頁面結(jié)構(gòu)中，log block header 頭部有一個「LOG_BLOCK_HDR_DATA_LEN」的屬性，該屬性值記錄了當(dāng)前block里使用了多少字節(jié)的空間。對于被填滿的block來說，該值永遠為512。
最后，所以只管往后面一直掃，直到 log block header 中「LOG_BLOCK_HDR_DATA_LEN」屬性不是512的 block，那么就是恢復(fù)的終點了。

15、如何兼容臟頁已經(jīng)已經(jīng)刷回磁盤，但是 redo日志沒有刷回磁盤的場景?

場景復(fù)現(xiàn)：
- 當(dāng)我們提交事務(wù)時，會根據(jù)參數(shù)「innodb_flush_at_trx_commit」來做下一步操作，如果是0或者2，那么此時的日志并沒有刷回到磁盤中，而是留在log buffer中或操作系統(tǒng)緩存中。
- 接著，如果有后臺線程將 LRU 鏈表或 flush 鏈表的某些臟頁刷回磁盤中，刷回后;但是此時對應(yīng)的 redo日志還停留在上面提到的兩個地方，如果服務(wù)器宕機，那么對應(yīng)的 redo日志就會丟失了。
- 因為刷 LRU 鏈表、flush 鏈表和刷 redo日志的后臺線程，往往都是不同的線程，無法知道對應(yīng)的 redo日志是否已經(jīng)刷回去。
兼容：
- 每個數(shù)據(jù)頁都有一個稱之為 File Header 的部分，在 File Header 里有一個稱之為 FIL_PAGE_LSN 的屬性，該屬性記載了最近一次修改頁面時對應(yīng)的 lsn 值(其實就是頁面控制塊中的 newest_modification 值)。
- 如果在做了某次 checkpoint 之后有臟頁被刷新到磁盤中，那么該頁對應(yīng)的 FIL_PAGE_LSN 代表的 lsn 值肯定大于 checkpoint_lsn 的值，凡是符合這種情況的頁面就不需要重復(fù)執(zhí)行 lsn 值小于 FIL_PAGE_LSN 的 redo日志了，

標(biāo)題名稱：圖文回顧 Redo Log 相關(guān)知識
標(biāo)題URL：http://fisionsoft.com.cn/article/ccsjdio.html

新聞中心

[[427107]]

1、如何提升 redo日志 的寫性能?

2、redo日志 何時寫入log buffer?

3、log buffer 中的 redo日志 何時刷盤?

4、我們都知道每次寫入 redo日志 ，都是以組為單位，那么我們怎么知道哪些是一組?

5、如何知道下一次redo日志改寫到log buffer的哪個位置?

6、如何知道下次從log buffer的哪個位置開始刷入磁盤?

7、如何定位 log buffer 中的 redo日志 對應(yīng)哪些被修改的數(shù)據(jù)頁;在被修改的數(shù)據(jù)頁中，如何定位到對應(yīng)的是哪些 redo日志 ?

8、我們知道可以利用 lsn 知道有多少字節(jié)數(shù)的 redo日志 寫入到 log buffer 中，那么我們能有變量對應(yīng)的知道有多少字節(jié)數(shù)的 redo日志 被刷入磁盤中嗎?

9、lsn 和 log file 的偏移量怎么對得上么?

10、log buffer 中的 redo日志 真的會在事務(wù)結(jié)束時立馬刷回到磁盤中嗎?

11、log file 都是循環(huán)使用，即可以覆蓋，那么怎么判斷是否可以覆蓋?

12、系統(tǒng)崩潰重啟，如何利用 redo日志 進行恢復(fù)?

13、恢復(fù)是掃描一個 redo日志 ，就進行一次恢復(fù)嗎?

14、恢復(fù)時，如何知道什么時候結(jié)束?

15、如何兼容臟頁已經(jīng)已經(jīng)刷回磁盤，但是 redo日志 沒有刷回磁盤的場景?

其他資訊

1、如何提升 redo日志的寫性能?

2、redo日志何時寫入log buffer?

3、log buffer 中的 redo日志何時刷盤?

4、我們都知道每次寫入 redo日志，都是以組為單位，那么我們怎么知道哪些是一組?

5、如何知道下一次redo日志改寫到log buffer的哪個位置?

6、如何知道下次從log buffer的哪個位置開始刷入磁盤?

7、如何定位 log buffer 中的 redo日志對應(yīng)哪些被修改的數(shù)據(jù)頁;在被修改的數(shù)據(jù)頁中，如何定位到對應(yīng)的是哪些 redo日志 ?

8、我們知道可以利用 lsn 知道有多少字節(jié)數(shù)的 redo日志寫入到 log buffer 中，那么我們能有變量對應(yīng)的知道有多少字節(jié)數(shù)的 redo日志被刷入磁盤中嗎?

9、lsn 和 log file 的偏移量怎么對得上么?

10、log buffer 中的 redo日志真的會在事務(wù)結(jié)束時立馬刷回到磁盤中嗎?

11、log file 都是循環(huán)使用，即可以覆蓋，那么怎么判斷是否可以覆蓋?

12、系統(tǒng)崩潰重啟，如何利用 redo日志進行恢復(fù)?

13、恢復(fù)是掃描一個 redo日志，就進行一次恢復(fù)嗎?

14、恢復(fù)時，如何知道什么時候結(jié)束?

15、如何兼容臟頁已經(jīng)已經(jīng)刷回磁盤，但是 redo日志沒有刷回磁盤的場景?