新聞中心
隨著企業(yè)信息化的發(fā)展,數(shù)據(jù)庫已經(jīng)成為了企業(yè)重要的信息資源存儲和管理平臺。因此,數(shù)據(jù)庫的運維工作也日益受到重視。數(shù)據(jù)庫運維的任務繁重,涉及到性能監(jiān)控、容量規(guī)劃、備份恢復、安全審核等多個方面。本文將從數(shù)據(jù)庫的概念入手,深入剖析數(shù)據(jù)庫的運維管理技巧,從多個角度幫助企業(yè)更好地管理數(shù)據(jù)庫系統(tǒng)。

一、數(shù)據(jù)庫的概念
我們首先需要了解數(shù)據(jù)庫的概念。數(shù)據(jù)庫是指按照一定的數(shù)據(jù)模型組織數(shù)據(jù)的,是長期存儲在計算機內(nèi)、有組織的、可共享的數(shù)據(jù)。常見的數(shù)據(jù)庫包括MySQL、Oracle、SQL Server等。
二、數(shù)據(jù)庫的運維管理
數(shù)據(jù)庫的運維管理是指對數(shù)據(jù)庫系統(tǒng)進行監(jiān)控、維護、調優(yōu)和備份等工作,以確保數(shù)據(jù)庫的穩(wěn)定性和安全性。具體包括以下幾個方面:
1、性能監(jiān)控
性能監(jiān)控是數(shù)據(jù)庫運維中比較重要的工作,主要是針對數(shù)據(jù)庫的各項性能指標進行監(jiān)控。如CPU利用率、內(nèi)存占用率、磁盤空間占用率等。通過監(jiān)控這些指標,可以及時發(fā)現(xiàn)數(shù)據(jù)庫的性能問題,及時進行處理。
2、容量規(guī)劃
容量規(guī)劃是指對數(shù)據(jù)庫的容量進行合理規(guī)劃,確保數(shù)據(jù)庫的存儲空間充足,并且能滿足未來的需求。在規(guī)劃容量時,需要對數(shù)據(jù)的大小、數(shù)據(jù)增長速度等進行估算,以確保數(shù)據(jù)庫系統(tǒng)能夠滿足企業(yè)未來的發(fā)展需求。
3、備份恢復
備份是指對數(shù)據(jù)庫當中的數(shù)據(jù)進行備份,以防止數(shù)據(jù)丟失和災難恢復。備份的方式有多種,如物理備份和邏輯備份等。而恢復則是指在數(shù)據(jù)庫發(fā)生災難時,如系統(tǒng)宕機時,通過備份文件將數(shù)據(jù)庫恢復到原來的狀態(tài)。
4、安全審核
安全審核是指對數(shù)據(jù)庫系統(tǒng)中的安全性進行監(jiān)測和審核,以防止惡意攻擊和數(shù)據(jù)泄露等安全問題。在進行安全審核時,需要對數(shù)據(jù)庫訪問權限、用戶身份驗證等進行嚴格控制,以保障數(shù)據(jù)的安全。
三、運維管理技巧
以上是對數(shù)據(jù)庫運維管理的簡單介紹,接下來我們將從多個角度,分別對數(shù)據(jù)庫的運維管理技巧進行闡述。
1、數(shù)據(jù)分區(qū)
數(shù)據(jù)分區(qū)是一種通過分割表或索引中的數(shù)據(jù),將其存儲在不同的物理區(qū)域中的技術。這種技術可以提高查詢性能和數(shù)據(jù)的讀寫效率。例如,將一張表分成多個區(qū)域,可以在查詢時只查詢需要的區(qū)域,避免不必要的查詢。
2、合理索引
索引是數(shù)據(jù)庫的重要組成部分,它可以提高查詢性能和數(shù)據(jù)讀寫效率。但是,索引的創(chuàng)建也需要謹慎,要避免創(chuàng)建過多的索引,因為過多的索引會影響插入、更新和刪除操作的性能。因此,在建立索引時,需要考慮數(shù)據(jù)量、查詢條件等多個方面,確保創(chuàng)建的索引是最有效的。
3、數(shù)據(jù)庫訪問優(yōu)化
優(yōu)化數(shù)據(jù)庫訪問是數(shù)據(jù)庫運維管理的一項重要工作,可以有效提高數(shù)據(jù)庫的性能和響應速度。其中,包括減少不必要的訪問和延遲時間、增加并發(fā)處理能力等。在優(yōu)化數(shù)據(jù)庫訪問時,需要從多個角度出發(fā),包括網(wǎng)絡、硬件、系統(tǒng)和應用程序等。
4、自動化運維
自動化運維是指在監(jiān)測、維護、調整和備份等環(huán)節(jié)中,使用自動化技術來提高效率和減少錯誤。比如,使用自動化工具定期備份數(shù)據(jù)庫,使用腳本自動化完成監(jiān)控和維護工作等。引入自動化運維可以大大提高數(shù)據(jù)庫管理的效率和責任。
5、云端管理
隨著云計算技術的發(fā)展,數(shù)據(jù)庫的運維管理也可以實現(xiàn)云端化。通過將數(shù)據(jù)庫系統(tǒng)部署在云端,企業(yè)可以快速、靈活地進行資源調配和擴容,實現(xiàn)在線升級和版本維護。同時,云端管理還可以提供更高的數(shù)據(jù)可用性和性能保證。
四、結語
數(shù)據(jù)庫運維管理是企業(yè)信息化的重要組成部分,也是企業(yè)信息安全的保障。本文從數(shù)據(jù)庫的基本概念開始,深入剖析了數(shù)據(jù)庫運維管理的多個方面,同時還介紹了一些運維管理技巧,希望讀者可以從多個角度了解和掌握數(shù)據(jù)庫運維管理技巧,為企業(yè)的信息化發(fā)展打下堅實的基礎。
相關問題拓展閱讀:
- Oracle數(shù)據(jù)庫無響應故障處理方式
- 如何啟動或關閉數(shù)據(jù)庫的歸檔模式
Oracle數(shù)據(jù)庫無響應故障處理方式
Oracle數(shù)據(jù)庫
無響應故障處理方式
Oracle數(shù)據(jù)庫無響應故障,簡單地講就是數(shù)據(jù)庫實例不能響應客戶端發(fā)起的請求,客戶端提交一個SQL后,就一直處于等待數(shù)據(jù)庫實例返回結果的狀態(tài)。更嚴重的現(xiàn)象是客戶端根本不能連接到數(shù)據(jù)庫,發(fā)起一個連接嫌則伍請求后,一直處于等待狀態(tài)。Oracle數(shù)據(jù)庫無響應故障怎么處理呢?下面跟我一起來學習Oracle數(shù)據(jù)庫無響應故障的處理方法吧!
無響應的故障現(xiàn)象一般有以下幾種:
1.Oracle的進程在等待某個資源或事件
這種現(xiàn)象一般可以從V$SESSION_WAT、V$LATCH、V$LATCHHOLDER等動態(tài)視圖中檢查進程正在等待的資源或事件,而被等待的資源或事件,一直都不能被獲取,甚至是很長時間都不可獲得。如果這個正在等待的進程持有了其他的資源,則會引起其他的進程等待,這樣就很可能引起實例中大范圍的會話發(fā)生等待。由于進程在等待資源或事件時,通常都處于SLEEP狀態(tài),消耗的CPU資源非常少(在等待latch時要稍微多消耗一些CPU資源),所以從OS來看,CPU的消耗并不高,甚至是非常低。
這種因為等待而引起的個別進程Hang,相對比較容易處理。
2. OracleProcess Spins
所謂Spin,就是指Oracle進程中的代碼在執(zhí)行某個過程時,陷入了循環(huán)。在V$SESSION視圖中,往往可以看到Hang住的會話,一直處于“ACTIVE”狀態(tài)。對于這樣的會話,用“alter system kill session ‘sid,serial#’”命令也不能完全斷開會話,會話只能被標記為“killed”,會話會繼續(xù)消耗大量的CPU。進程Spins由于是在做循環(huán),CPU的消耗非常大,從OS上明顯可以看到這樣的進程,通常會消耗整個CPU的資源。
而對于這樣的Hang住的會話,處理起來相對比較復雜,并且為了從根本上解決問題,需要超過DBA日常維護所需要的技能。
從故障范圍來看,無響應故障可以分為以下幾種情況:
1. 單個或部分會話(進程)Hang住
這種情況屬于小范圍的故障,業(yè)務影響相對較小,一般來說只會影響業(yè)務系統(tǒng)的個別模塊。在一個多應用系統(tǒng)的數(shù)據(jù)庫上面,如果Hang住的會話比較多,則影響的可能是其中的一個應用系統(tǒng)。這里有一個例外,如果Hang住的進程是系統(tǒng)后臺進程,如pmon、on等,則影響的范圍就非常大了,最終甚至會影響整個數(shù)據(jù)庫及所有應用系統(tǒng)。還有值得注意的是,即使是少部分會話Hang住,也要及時處理,否則極有可能會擴散到整個系統(tǒng)。
2. 單個數(shù)據(jù)庫實例Hang住
這種情況造成的影響非常大。在這個實例上的所有應用系統(tǒng)均受到嚴重影響,并且在找到根源并最終解決問題之前,數(shù)據(jù)庫實例往往須要重啟。
3. OPS或RAC中的多個實例或所有實例都Hang住
在這種情況下,即使是OPS或RAC,都已經(jīng)沒辦法提供高可用特性了。使用這個數(shù)據(jù)庫的所有應用系統(tǒng)將不能繼續(xù)提供服務,這種芹或情況往往須要重啟。
無響應故障成因分析
Oracle數(shù)據(jù)庫無響應,一般主要由以下幾種原因引起:
1. 數(shù)據(jù)庫主機負載過高,嚴重超過主機承受能力
比如應用設計不當,數(shù)據(jù)庫性能低下,活動會話數(shù)的大量增加,導致數(shù)據(jù)庫主機的負載迅速增加,數(shù)據(jù)庫不能正常操作,并最終Hang住;主機
物理內(nèi)存
嚴重不足,引起大量的換頁,特別是在SGA中的內(nèi)存被大量換出到
虛擬內(nèi)存
時,數(shù)據(jù)庫實例往往就會Hang住。
2. 日常維護不當、不正確的操作引起數(shù)據(jù)庫Hang住
比如歸檔日志的存儲空間滿,導致數(shù)據(jù)庫不能歸檔,引起數(shù)據(jù)庫Hang住;在一個大并發(fā)的繁忙的系
統(tǒng)上,對DML操作比較多的大表進盯賣行move、增加
外鍵
約束等操作也可能使系統(tǒng)在短時間內(nèi)負載大幅升高,并引起
數(shù)據(jù)庫系統(tǒng)
Hang住;不正確的資源計劃(Resource Plan)配置,使進程得不到足夠的CPU等。
3. Oracle數(shù)據(jù)庫的Bug
幾乎每個版本都存在著會導致數(shù)據(jù)庫系統(tǒng)Hang住的Bug,這些Bug會在一些特定的條件下觸發(fā),特別是在RAC數(shù)據(jù)庫中,引起數(shù)據(jù)庫Hang住的Bug比較多。
4. 其他方面的一些原因
比如在RAC數(shù)據(jù)庫中,如果一個節(jié)點退出或加入到RAC的過程中,當進行Resource Reconfiguration時,會使系統(tǒng)凍結一段時間,也有可能使系統(tǒng)Hang住。
以上所描述的幾種常見的會導致Oracle數(shù)據(jù)庫實例Hang住的原因中,大部分的情況是可以避免的,只要維護得當,一般不會出現(xiàn)這種故障。對于Oracle數(shù)據(jù)庫Bug所導致的數(shù)據(jù)庫無響應故障,由于是在特定的情況下才會觸發(fā),所以如果能夠盡量對數(shù)據(jù)庫打上最新版本的補丁,并且熟悉當前版本中會導致系統(tǒng)Hang住的Bug以及觸發(fā)條件,就能夠更大限度地避免這種故障的發(fā)生,提高系統(tǒng)的可用性。
那么,在數(shù)據(jù)庫Hang住的情況下,如何去分析并發(fā)現(xiàn)導致問題的根源?一方面,由于系統(tǒng)Hang住會導致業(yè)務系統(tǒng)不可用,為了能夠盡快地恢復業(yè)務,須快速地判斷問題所在,然后Kill掉引起故障的會話和進程,或者數(shù)據(jù)庫實例不得不重啟以迅速恢復業(yè)務;但另一方面,如果只是重啟數(shù)據(jù)庫或Kill會話和進程來解決問題,在很多情況下是治標不治本的辦法,在以后故障隨時可能會出現(xiàn)。如何在二者之間進行抉擇呢?對于數(shù)據(jù)庫Hang故障的處理,首先是盡可能地收集到系統(tǒng)Hang住時的狀態(tài)數(shù)據(jù),然后盡快地恢復業(yè)務,恢復業(yè)務后分析收集到的數(shù)據(jù),找到數(shù)據(jù)庫系統(tǒng)Hang住的真正原因,然后再進行相應的處理。下一節(jié)將詳細描述數(shù)據(jù)庫系統(tǒng)Hang住后的處理流程。
無響應故障處理流程
對于Oracle無響應故障的處理,我們可以按下圖所示的流程進行。
值得注意的是,上圖并不是一個完整的Oracle數(shù)據(jù)庫故障處理流程圖,只是處理Oralce數(shù)據(jù)庫無響應這一類特定的故障的流程,只列出了針對這一特定類型故障處理時的關鍵處理點。不過既然是故障,所以這類故障的處理流程與其他故障的處理流程,有著非常相似的地方。
下面是整個流程的詳細說明:
. 在出現(xiàn)數(shù)據(jù)庫無響應故障后,首先確認系統(tǒng)的影響范圍,如上節(jié)所描述的’,是部分業(yè)務系統(tǒng)或模塊還是所有的業(yè)務系統(tǒng)都受影響,是不是整個實例或多個實例都無響應。同時應詢問系統(tǒng)維護和開發(fā)人員,受影響的系統(tǒng)在出現(xiàn)故障前是否有過變動,包括主機硬件、操作系統(tǒng)、網(wǎng)絡、數(shù)據(jù)庫以及應用等。有時一個細小的變動就可能導致出現(xiàn)數(shù)據(jù)庫Hang住這樣嚴重的故障。曾經(jīng)遇到一個庫,應用只是修改了一個SELECT語句就導致了數(shù)據(jù)庫Hang住。
. 為了避免由于網(wǎng)絡、數(shù)據(jù)庫監(jiān)聽或客戶端因素影響分析,建議都登錄到主機上進行操作。
. 如果主機不能登錄(為了避免干擾流程主線,這里不討論如網(wǎng)絡問題這樣也會導致不能連接的故障),嘗試關閉出現(xiàn)問題的業(yè)務系統(tǒng),甚至是所有的業(yè)務系統(tǒng)。如果關閉了所有的業(yè)務系統(tǒng)之后,仍然不能連接,則只有考慮重新啟動數(shù)據(jù)庫主機。在數(shù)據(jù)庫主機重新啟動后,使用操作系統(tǒng)工具或OSW等長期監(jiān)控操作系統(tǒng)的資源使用,同時監(jiān)控Oracle數(shù)據(jù)庫的性能和等待等。
. 登錄上主機后,先用top、topas等命令簡單觀察一下系統(tǒng)??纯聪到y(tǒng)的CPU使用、物理內(nèi)存和虛擬內(nèi)存的使用、IO使用等情況。
. 使用SQLPLUS連接數(shù)據(jù)庫,如果不能連接,則只能從操作系統(tǒng)上觀察系統(tǒng)中是否有異常的現(xiàn)象,比如占用CPU過高的進程。使用gdb、dbx等debugger工具對數(shù)據(jù)庫進行system state dump;使用strace、truss等工具檢查異常進程的系統(tǒng)調用;使用pstack、procstack等工具察看異常進程的call stack等。
. 使用SQLPLUS連接上數(shù)據(jù)庫后,進行hangyze、system state dump等操作;或檢查等待事件、異常會話等正在執(zhí)行的SQL等待。
. 找到故障產(chǎn)生的原因,如果暫時找不到原因,盡量收集數(shù)據(jù)。
.確良如果應用急須恢復,可通過Kill會話、重啟數(shù)據(jù)庫實例等方式,先恢復應用。
. 根據(jù)最終診斷結果,對數(shù)據(jù)庫升級打補丁,或者修改應用等方式從根本上解決問題。
怎樣避免數(shù)據(jù)庫出現(xiàn)無響應故障
作為Oracle數(shù)據(jù)庫DBA,除了處理故障之外,更重要的是如何預防故障的發(fā)生。根據(jù)前面對數(shù)據(jù)庫無響應故障的成因分析,在日常的維護工作中,須做到以下幾點:
1. 進行正確的維護操作
很多的數(shù)據(jù)庫無響應故障都是由于不正確的維護操作引起的。應避免在業(yè)務高峰期做大的維護操作,比如像move、加主外鍵約束等會長時間鎖表的操作。如果的確需要,盡量使用正確的操作方法。比如用ONLINE方式重建索引;建主鍵、唯一鍵約束時先建索引,然后在建約束時指定新建的索引,等等。也就是保證系統(tǒng)的并發(fā)性、可伸縮性,避免系統(tǒng)串行操作的出現(xiàn)。
2. 優(yōu)化應用設計,優(yōu)化數(shù)據(jù)庫性能
為避免性能問題導致在業(yè)務高峰期數(shù)據(jù)庫不能及時有效處理來自業(yè)務的請求,甚至于完全Hang住。對于數(shù)據(jù)庫中存在串行訪問的部分進行優(yōu)化,比如latch、enqueue,還包括不合理的sequence設計等。特別是在RAC數(shù)據(jù)庫中,嚴重串行訪問等待往往更容易引起嚴重的性能問題。優(yōu)化應用設計,使數(shù)據(jù)庫具有更好的可伸縮性和并行處理能力,能夠有效地避免性能問題引起的數(shù)據(jù)庫Hang住。
3. 利用監(jiān)控系統(tǒng)隨時監(jiān)控系統(tǒng)負載
遇到系統(tǒng)負載過高,內(nèi)存不足,OS中虛擬內(nèi)存換頁很頻繁等情況時,及時采取措施;監(jiān)控Oracle數(shù)據(jù)庫的核心進程,如pmon、on等,看是否有異常,如過高的CPU消耗。出現(xiàn)異常應立即處理;監(jiān)控歸檔空間和日志切換;監(jiān)控數(shù)據(jù)庫中的等待事件,比如是否有大量的enqueue、log file switch (archiving needed)、regr:become active等待事件等。
4. 為數(shù)據(jù)庫打上補丁
很多的無響應故障是由于Oracle的Bug引起的,數(shù)據(jù)庫DBA應關注當前版本中有哪些Bug會導致數(shù)據(jù)庫Hang住,盡量為數(shù)據(jù)庫打上解決這些Bug的補丁。
;
如何啟動或關閉數(shù)據(jù)庫的歸檔模式
1)單機模式下:
如果開啟歸檔,請保證
log_archive_start=true –開啟自動歸檔,否則只能手工歸檔,如果是關閉了歸檔,則設置該參數(shù)為false。10g之后廢除該參數(shù),不需要設置。
log_archive_dest = —歸檔日志存放路徑
alter system set log_archive_dest_1=”location=f:\disk5\offlinelog\mandatory” scope=spfile; —為了增加歸檔日志的冗余來保證其安全,可以通過修改參數(shù)文件中的log_archive_dest_n參數(shù),其中n為1~10
log_archive_format =”CX%TS%S.ARC” —歸檔日志文件名格式
alter system set log_archive_max_processes =啟動多個歸檔后臺進程以避免由于ARCn進程跟不上LGWR而造成的數(shù)據(jù)庫系統(tǒng)效率的下降。
注意:如果是OPS/RAC環(huán)境,需要先把parallel_server = true注釋掉,然后執(zhí)行如下步驟核洞型坦,最后用這個參數(shù)重新啟動
1、開啟歸檔:
a. 關閉數(shù)據(jù)庫shutdown immediate
b. startup mount
c. alter database archivelog
d. alter database opne
2、關閉歸檔:
a. 關閉數(shù)據(jù)庫shutdown immediate
b. startup mount
c. alter database noarchivelog
d. alter database open
歸檔信息可以通過如下語句查看
SQL> archive log list
Database log mode Archive Mode
Automatic archival Enabled
Archive destination E:oracleora92databasearchive
Oldest online log sequence 131
Next log sequence to archive 133
Current log sequence 133
2)RAC模式下:
1.關閉所有的instance
2.在節(jié)點1上設置以下參數(shù),如果使用spfile就先生成pfile再修改
CLUSTER_DATABASE=FALSE.
log_archive_dest=
log_archive_start=true
log_archive_format=
3. 以exclusive模式啟動數(shù)據(jù)庫
SQL> startup mount exclusive pfile=‘xxxxxx’.
4. 啟動歸檔模式
SQL> Alter database archivelog
5.打開數(shù)據(jù)庫
SQL> alter database open
6.關閉數(shù)據(jù)庫并修改初始化參數(shù)
SQL> shutdown immediate
CLUSTER_DATABASE=TRUE
7.啟動所有的instance,記得先生成spfile
8.核對歸檔,模式是否啟動
SQL> archive log list
======================
以下步驟在node1機器上操作,node2保持down。在所有的操作完成后再打開node2的數(shù)據(jù)庫。。改租枯。
SQLPLUS>connect SYS/PASSWORD
SQLPLUS>ALTER SYSTEM SET CLUSTER_DATABASE=FALSE SCOPE=SPFILE; ### 10gR2之后不用修改該參數(shù)
SQLPLUS>shutdown immediate;
SQLPLUS>startup mount exclusive;
SQLPLUS>alter database noarchivelog;
SQLPLUS>ALTER SYSTEM SET CLUSTER_DATABASE=TRUE SCOPE=SPFILE;
SQLPLUS>shutdown immediate;
SQLPLUS>STARTUP
非歸檔改為歸檔
SQLPLUS>connect SYS/PASSWORD
SQLPLUS>ALTER SYSTEM SET CLUSTER_DATABASE=FALSE SCOPE=SPFILE;
SQLPLUS>shutdown immediate;
SQLPLUS>startup mount exclusive;
SQLPLUS>alter database archivelog;
SQLPLUS>ALTER SYSTEM SET CLUSTER_DATABASE=TRUE SCOPE=SPFILE;
SQLPLUS>shutdown immediate;
SQLPLUS>STARTUP
====================
相關數(shù)據(jù)字典
V$ARCHIVED_LOG
V$ARCHIVE_DEST
V$LOG_HISTORY
V$DATABASE
關于數(shù)據(jù)庫ops的介紹到此就結束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。
成都創(chuàng)新互聯(lián)科技有限公司,是一家專注于互聯(lián)網(wǎng)、IDC服務、應用軟件開發(fā)、網(wǎng)站建設推廣的公司,為客戶提供互聯(lián)網(wǎng)基礎服務!
創(chuàng)新互聯(lián)(www.cdcxhl.com)提供簡單好用,價格厚道的香港/美國云服務器和獨立服務器。創(chuàng)新互聯(lián)成都老牌IDC服務商,專注四川成都IDC機房服務器托管/機柜租用。為您精選優(yōu)質idc數(shù)據(jù)中心機房租用、服務器托管、機柜租賃、大帶寬租用,可選線路電信、移動、聯(lián)通等。
當前題目:深度剖析數(shù)據(jù)庫ops:解密運維管理技巧(數(shù)據(jù)庫ops)
URL地址:http://fisionsoft.com.cn/article/dhijdsh.html


咨詢
建站咨詢
