新聞中心
維護(hù)您的網(wǎng)站涉及擁有專門的備份策略。雖然備份是必不可少的,但它們并不是保護(hù)站點(diǎn)的唯一方法。備份的自然延伸是對網(wǎng)站進(jìn)行歸檔——盡管它們是互補(bǔ)的過程。

隆林網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站開發(fā)等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)公司2013年至今到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。
有幾種靈活的方法可以歸檔網(wǎng)站。好消息是它們都易于使用且易于訪問。您只需為您的需要和要求選擇正確的解決方案。
在這篇文章中,我們將看看如何歸檔網(wǎng)站。我們還將探索您會遇到的不同歸檔類型,匯總一些最突出的站點(diǎn)歸檔工具,并討論一些有關(guān)歸檔站點(diǎn)的技巧。
網(wǎng)站歸檔簡介
歸檔網(wǎng)站意味著保留內(nèi)容、數(shù)據(jù)和媒體以供將來參考。使用諸如Wayback Machine之類的專用服務(wù)(盡管我們稍后會介紹其他解決方案),您可以查看網(wǎng)站的舊版本。
閃電博網(wǎng)站在2016年的樣子
在技術(shù)層面上,爬蟲會拍攝網(wǎng)站的快照,該網(wǎng)站構(gòu)成了檔案本身。如果您愿意,您可以使用簡單的日歷訪問它并以時(shí)間線格式查看每個(gè)迭代。
閃電博網(wǎng)站的Wayback Machine日歷存檔
至于為什么會有Wayback Machine這樣的解決方案,我們得追溯到2000年代初?;ヂ?lián)網(wǎng)泡沫幾乎破滅了;許多企業(yè)正在倒閉。一些受歡迎的網(wǎng)站被關(guān)閉或放棄,留下的記憶很少。
與互聯(lián)網(wǎng)出現(xiàn)之前的其他媒體格式(例如音樂和電視)非常相似,這些網(wǎng)站具有歷史和懷舊價(jià)值。拯救它們意味著讓未來的互聯(lián)網(wǎng)用戶一瞥我們與早期技術(shù)的差距。
在互聯(lián)網(wǎng)檔案館推出Wayback機(jī)器來幫助維護(hù)網(wǎng)站。如果網(wǎng)站已在那里存檔,您可以看到該網(wǎng)站多年來的發(fā)展情況。
歸檔網(wǎng)站需要許多爬蟲,包括可能需要數(shù)年才能完成的巨大的個(gè)人爬蟲。執(zhí)行爬行“探險(xiǎn)”和存儲結(jié)果快照所需的咕嚕聲是巨大的。
例如,Wayback Machine的第一臺100TB服務(wù)器于2004年投入使用。到2020年底,Wayback Machine已存儲超過70PB的數(shù)據(jù)。這超過70,000TB。
然而,并不是每個(gè)人都對Internet Archive所做的工作感到滿意?;诰W(wǎng)站存檔是否破壞現(xiàn)有版權(quán)問題,已經(jīng)有多次討論和法律挑戰(zhàn)。
盡管如此,鑒于存儲的檔案數(shù)量的顯著增長,人們顯然希望保留網(wǎng)站。
為什么要存檔網(wǎng)站
想要存檔網(wǎng)站的原因有很多,而不僅僅是出于懷舊的原因。對于現(xiàn)實(shí)世界的類比,請查看GitHub。
GitHub的基礎(chǔ)設(shè)施很像互聯(lián)網(wǎng)檔案
Github存儲項(xiàng)目的存儲庫,以及所做的每個(gè)“提交”。將此與互聯(lián)網(wǎng)存檔進(jìn)行比較,存儲庫代表整個(gè)存檔,而提交則是快照。
就像Git存儲庫很有價(jià)值一樣,存檔也很有價(jià)值。例如,您可以查看網(wǎng)站以前的迭代(甚至是多年前的)以影響您當(dāng)前的設(shè)計(jì)選擇。
此外,您可能有法律義務(wù)對您的網(wǎng)站進(jìn)行存檔,尤其是在金融或法律行業(yè)。
最后,如果您不幸卷入了圍繞您網(wǎng)站的訴訟,您的檔案將成為寶貴的證據(jù)。如果您能提供清晰完整的網(wǎng)站檔案,您甚至可以在法院介入之前解決糾紛。
備份和歸檔的區(qū)別
在我們討論可用的不同類型的Web歸檔之前,有必要回到我們之前提到的主題。在紙面上,站點(diǎn)備份和網(wǎng)站存檔看起來很相似。然而,他們執(zhí)行不同的工作,相互補(bǔ)充。簡而言之:
- 備份是基于數(shù)據(jù)的。他們更關(guān)心保留您網(wǎng)站的數(shù)據(jù)。鑒于如果您需要恢復(fù)站點(diǎn),備份至關(guān)重要,因此對數(shù)據(jù)進(jìn)行完整備份至關(guān)重要。
- 檔案保存數(shù)據(jù)的上下文。如果您瀏覽您最喜歡的網(wǎng)站的存檔,您會注意到該功能通常是不完整的。但是,站點(diǎn)的設(shè)計(jì)和靜態(tài)內(nèi)容通常是完整的。
值得注意的是,歸檔并不打算完全避免數(shù)據(jù)保存工作。事實(shí)上,其中一項(xiàng)好處是讓用戶可以像在現(xiàn)場一樣瀏覽您的網(wǎng)站。即便如此,考慮到諸如Wayback Machine之類的網(wǎng)站作為虛擬“記憶通道”存在,保持視覺效果完整比保留后端功能具有更高的優(yōu)先級。
簡而言之,您需要為您的站點(diǎn)同時(shí)使用備份和存檔——前者作為日常保護(hù)以防最壞的情況發(fā)生,而后者作為幫助記錄站點(diǎn)演變的附加方式。
您將遇到的不同類型的Web歸檔
網(wǎng)絡(luò)歸檔不僅僅是一種風(fēng)格。您會遇到幾種不同的類型。以下是每個(gè)的細(xì)分:
- 客戶端:它涉及最終用戶保存相關(guān)網(wǎng)站的版本。它簡單、可擴(kuò)展,可讓您輕松歸檔網(wǎng)站。
- 服務(wù)器端: Wayback Machine和其他方法被歸類為服務(wù)器端歸檔。它使用爬蟲和其他技術(shù)來存檔網(wǎng)站,但它也需要客戶端存檔中沒有的一定程度的同意。
- 基于事務(wù):雖然這仍然基于服務(wù)器端歸檔,但它更復(fù)雜,需要站點(diǎn)所有者的明確同意。本質(zhì)上,它歸檔了最終用戶和服務(wù)器之間的站點(diǎn)事務(wù)。
對于具有靜態(tài)數(shù)據(jù)的簡單網(wǎng)站,再加上有組織的歸檔策略,客戶端歸檔應(yīng)該符合要求。然而,大多數(shù)其他站點(diǎn)更喜歡服務(wù)器端歸檔——大多數(shù)網(wǎng)站不需要基于事務(wù)的歸檔。
最后——我們將在整篇文章中更詳細(xì)地討論這一點(diǎn)——您還需要考慮存檔的存儲位置和方式。例如,本地存檔并不是一個(gè)糟糕的選擇,但如果您的計(jì)算機(jī)出現(xiàn)故障,您可能會看到它消失了。另一方面,如果您選擇第三方解決方案,您對存檔內(nèi)容的控制就會減少。
正如您所期望的,這里的答案是使用多方面的方法來存檔網(wǎng)站。我們建議將存檔視為備份:將三個(gè)不同的副本保存在不同的位置并以某種方式同步。
您可能還希望使其中一個(gè)存檔生效,以便您可以利用站點(diǎn)上的任何服務(wù)器端功能。結(jié)果是一個(gè)具有強(qiáng)大備份和存檔策略的網(wǎng)站,對其他人仍然有用。
Internet存檔工具和站點(diǎn)的初學(xué)者指南
有很多解決方案可用于歸檔網(wǎng)站。我們將介紹一些較受歡迎的,以及我們對它如何適合您的看法。
1. Wayback Machine
Wayback Machine
首先,讓我們討論Wayback Machine。它是同類產(chǎn)品中的第一個(gè),因此為其他歸檔工具設(shè)定了基準(zhǔn)。
因此,在尋找存檔網(wǎng)站時(shí),它可能會成為第一個(gè)負(fù)責(zé)人。它有很多方法來創(chuàng)建和上傳檔案,甚至還有一個(gè)專門的API來連接到它的功能。值得注意的是,它也是一個(gè)服務(wù)器端歸檔解決方案。
也就是說,由于它抓取和歸檔網(wǎng)站的方式,Wayback Machine可能無法保留您網(wǎng)站的所有功能。盡管如此,它被認(rèn)為是網(wǎng)絡(luò)檔案管理員的行業(yè)標(biāo)準(zhǔn),并且完全可以免費(fèi)啟動。在本文后面,我們將向您展示如何使用Wayback Machine更詳細(xì)地存檔網(wǎng)站。
2. Archive.today
Archive.today網(wǎng)站
接下來是Archive.today。它在很多方面都與Wayback Machine相似——甚至是網(wǎng)站幾乎“復(fù)古”的設(shè)計(jì)。它的數(shù)據(jù)服務(wù)器位于歐洲,但它的歸檔方式與Wayback Machine不同。
首先,Archive.today不是基于在網(wǎng)絡(luò)上運(yùn)行的爬蟲。相反,您提交您的URL并同意將其包含在存檔中。此外,它的功能列表比其他解決方案更簡單。例如,沒有強(qiáng)大的刪除策略,并且存檔過程排除了某些媒體和文件類型。
盡管如此,如果您想要一個(gè)免費(fèi)的地方來存儲檔案,它仍然是免費(fèi)且合適的。該站點(diǎn)甚至具有查找以前存檔站點(diǎn)的搜索功能。
3. Heritrix
Heritrix網(wǎng)站
到目前為止,我們在這篇文章中幾乎可以互換地提到Internet Archive和Wayback Machine。不過,Wayback Machine只是一項(xiàng)服務(wù),除此之外,Internet Archive還提供其他一些存檔產(chǎn)品。Heritrix是一個(gè)免費(fèi)的開源工具,誕生于Internet Archive和北歐圖書館之間的合作。
它本質(zhì)上是一個(gè)網(wǎng)絡(luò)爬蟲,而不是一個(gè)功能齊全的歸檔工具。但是,您可以將所有爬取的結(jié)果打包在一起。雖然過去并非如此,但Wayback Machine現(xiàn)在使用Heritrix來抓取站點(diǎn)以包含在其自己的站點(diǎn)中。更重要的是,大量圖書館和機(jī)構(gòu)使用Heritrix來建立檔案。
盡管具有令人印象深刻的功能,但安裝Heritrix需要一些技術(shù)知識。沒有用戶友好的界面來為您安裝它,因此您需要了解Git、GitHub和命令行。
與其他類似解決方案一樣,Heritrix完全免費(fèi)使用,因此適合作為經(jīng)濟(jì)高效的自存檔解決方案。
4. Web歸檔集成層 (WAIL)
Web歸檔集成層 (WAIL) 網(wǎng)站
如果您正在考慮使用Heritrix對網(wǎng)站進(jìn)行存檔,但對簡單安裝軟件所需的技術(shù)知識感到厭煩,那么這里有一個(gè)潛在的解決方案適合您。網(wǎng)頁存檔集成層(WAIL)是一個(gè)免費(fèi)和開源的跨平臺的桌面應(yīng)用程序,讓你一個(gè)功能的圖形用戶界面(GUI)來使用,使用安裝程序一起。
好消息是Heritrix是WAIL的爬行引擎。這意味著您可以利用Heritrix的強(qiáng)大功能,而不必遍歷GitHub和命令行。此外,WAIL使用OpenWayback引擎來“重放”網(wǎng)絡(luò)檔案。
因此,您已準(zhǔn)備好在您的機(jī)器上使用功能齊全的Web歸檔工具。我們還將在本文后面準(zhǔn)確地向您展示W(wǎng)AIL的工作原理。
5. Stillio
Stillio網(wǎng)站
我們的倒數(shù)第二個(gè)歸檔工具被稱為自動解決方案,可以按設(shè)定的時(shí)間間隔拍攝快照。Stillio是一項(xiàng)高級服務(wù),在外觀和感覺上都與其他歸檔解決方案不同。
該網(wǎng)站看起來很漂亮,并為您提供了無數(shù)選項(xiàng)來創(chuàng)建滿足您確切要求的檔案。例如,您可以向URL添加標(biāo)簽和自定義標(biāo)題。
此外,您可以選擇將檔案存儲到Dropbox、Google Drive和其他第三方服務(wù)。
然而, Stillio有一個(gè)巨大的缺點(diǎn):它不支持后端歸檔。您只能使用網(wǎng)站的屏幕截圖,而不是完整的數(shù)據(jù)存檔。對于許多應(yīng)用程序,這還不夠。
但是, Stillio在某些情況下可能很有用,例如用作品牌管理和跟蹤工具。例如,您可以截取競爭對手網(wǎng)站或搜索引擎結(jié)果的屏幕截圖。它也非常適合內(nèi)容驗(yàn)證。
Stillio的起價(jià)為每月29美元,并通過四個(gè)等級上升至每月299美元。這是一個(gè)很大的問題,尤其是當(dāng)有具有更強(qiáng)大功能的免費(fèi)替代品時(shí)。但如果它完全適合您的用例,那么值得一看!
6. Pagefreezer
Pagefreezer網(wǎng)站
我們的最終解決方案是另一個(gè)自動化工具。Pagefreezer提供許多與Stillio相同的好處,但它還可以存檔社交媒體內(nèi)容、文本消息、完整站點(diǎn)和企業(yè)級協(xié)作平臺。
從表面上看,Pagefreezer似乎是比Stillio更強(qiáng)大的解決方案,并且在各種用例中具有更大的價(jià)值。
例如,如果法律要求您完全歸檔站點(diǎn),Pagefreezer就可以滿足要求。它允許您自動化快照數(shù)量并使用站點(diǎn)存檔瀏覽器和比較工具查看它們。
總體而言,Pagefreezer是一款出色的企業(yè)級工作場所歸檔解決方案。使用Yammer或Salesforce的Chatter的公司會被這種類型的解決方案所吸引,Workplace用戶也會如此。
什么是Web存檔 (WARC) 文件格式?
如果您正在研究如何歸檔網(wǎng)站,您會遇到Web歸檔 (WARC)格式。它是您站點(diǎn)存檔的各種文件的打包組合,因此具有便攜性和自包含性。
互聯(lián)網(wǎng)檔案館創(chuàng)建了WARC來長期保存網(wǎng)絡(luò)數(shù)據(jù)。國際互聯(lián)網(wǎng)保護(hù)聯(lián)盟 (IIPC) 已發(fā)布文件格式的完整規(guī)范。它將存儲圖像、元數(shù)據(jù)以及您的站點(diǎn)獨(dú)立運(yùn)行所需的幾乎所有內(nèi)容。
雖然它最初只是一種方便的文件格式,但WARC現(xiàn)在是數(shù)字檔案的國際ISO標(biāo)準(zhǔn)。因此,它已被政府和其他官方機(jī)構(gòu)采用。事實(shí)上,有幾個(gè)用例WARC文件至關(guān)重要:
- E-discovery:這是訴訟期間的過程,在該過程中,數(shù)字記錄被研究并呈現(xiàn)以納入審判。對于社交媒體記錄,WARC文件符合E-discovery法律標(biāo)準(zhǔn)。
- 信息自由(FOI): 有許多國家的政府和使用該FOI官方機(jī)構(gòu)和打開記錄的作用是提供一個(gè)“知情權(quán)”(RTK)服務(wù)狀態(tài)成分。WARC格式在涉及數(shù)字記錄的情況下是理想的。
許多不同的歸檔解決方案和爬蟲都使用WARC,例如StormCrawler和Apache Nutch。您還可以調(diào)整命令行工具(例如Wget)的設(shè)置,以將請求提取并打包為WARC文件。我們很快就會更詳細(xì)地討論這個(gè)問題。
還有很多其他工具也可以輸出到WARC文件。比如開源網(wǎng)頁保存工具wallabag就可以做到這一點(diǎn)。
作為替代方案,grab-site是一個(gè)基于Web的應(yīng)用程序,可幫助將檔案抓取為WARC文件。
打開WARC文件取決于您使用的工具。無論您喜歡哪種解決方案,請記住,其中一些工具已經(jīng)有一段時(shí)間沒有更新了。
因此,您需要確保您選擇的解決方案適用于您當(dāng)前的系統(tǒng),并且將來可以使用。如果您在歸檔項(xiàng)目的過程中避免使用可能會終止或放棄的工具,您將省去很多麻煩。
管理離線檔案的技巧
在我們討論如何歸檔網(wǎng)站之前,讓我們花幾分鐘時(shí)間來幫助您整理現(xiàn)有的檔案。我們已經(jīng)談到了這個(gè)主題,但采用可靠的方法將使您的檔案更易于管理。您網(wǎng)站的用戶也將從組織良好的檔案中得到更多的利用。
您必須牢記三個(gè)關(guān)鍵要素:
- 頻率: 決定您想要多久歸檔一個(gè)站點(diǎn)。幾乎每天都在變化的龐大、動態(tài)、復(fù)雜的站點(diǎn)將需要比靜態(tài)站點(diǎn)更頻繁的快照。
- 位置:就像備份一樣,您應(yīng)該將檔案保存在多個(gè)不同的位置,包括云。遵循3-2-1 規(guī)則以獲得額外保證。如果您想捕捉網(wǎng)站的全部深度,我們還建議您提供更多信息。
- 結(jié)構(gòu):就像您的計(jì)算機(jī)目錄一樣,您應(yīng)該使用明確的文件夾,細(xì)分為站點(diǎn)存檔的名稱和特定站點(diǎn)的存檔日期。
雖然您可以進(jìn)一步擴(kuò)展您的歸檔管理,但這三個(gè)技巧將開始您的歸檔工作。
歸檔網(wǎng)站的4種方法
下面,我們將建議五種不同的網(wǎng)站存檔方式。我們已經(jīng)根據(jù)它們的相對難度對解決方案進(jìn)行了排序。但是,如果您發(fā)現(xiàn)一個(gè)您認(rèn)為可以滿足您當(dāng)前需求的解決方案,請隨時(shí)深入了解并找到更多。
1. 將單個(gè)頁面保存到本地計(jì)算機(jī)
讓我們討論最直接的解決方案。如果您需要存檔單個(gè)頁面,那就太好了,甚至更好的是,幾乎每個(gè)瀏覽器都已經(jīng)具備該功能。
首先,打開您最喜歡的瀏覽器并前往您要存檔的網(wǎng)站。頁面加載后,導(dǎo)航到瀏覽器的文件菜單并找到頁面另存為選項(xiàng):
Firefox的文件菜單包含保存單個(gè)網(wǎng)頁所需的功能。
接下來,單擊保存頁面的選項(xiàng),此時(shí)瀏覽器將顯示一個(gè)對話框。
在這里,為您的頁面選擇一個(gè)名稱(盡管默認(rèn)值很好)。此外,請確保您保存的是整個(gè)頁面,而不僅僅是HTML。它將以盡可能多的功能保留站點(diǎn)。
2. 使用在線存檔(例如Wayback Machine)
如果不向您展示W(wǎng)ayback Machine的工作原理,任何教程都是不完整的。幸運(yùn)的是,這個(gè)過程很簡單。也就是說,請注意,此方法僅允許您存檔單個(gè)頁面(盡管訂閱Archive-It服務(wù)確實(shí)允許您存檔完整站點(diǎn))。
對于這種方法,請前往Wayback Machine主頁并查看“Save Page Now”表單:
Wayback Machine網(wǎng)站上的“Save Page Now”表單
要存檔頁面,只需將您希望保存的URL添加到此表單,然后點(diǎn)擊Save Page。根據(jù)頁面的大小或復(fù)雜程度,您可能需要等待幾分鐘,讓爬蟲和引擎完成它們的工作??赡苁琼撁婵雌饋砗孟癖罎⒘恕N覀冊跍y試中遇到了一段時(shí)間的死亡白屏 (WSoD)。
但是,一旦頁面被歸檔,Wayback Machine會將您重定向到新的專用頁面。
存檔在Wayback Machine上的頁面
請注意,您也可以使用書簽和瀏覽器擴(kuò)展程序來存檔網(wǎng)站。事實(shí)上,當(dāng)前的大多數(shù)瀏覽器都具有這些開箱即用的選項(xiàng),包括Google Chrome、Firefox和Safari。
4. 安裝Web歸檔集成層 (WAIL)
使用這種方法的第一步是下載WAIL本身并安裝它。幸運(yùn)的是,該工具有一個(gè)專用的安裝程序(盡管因?yàn)樵摮绦蚴怯肞ython編寫的,所以它使用了PyInstaller模塊)。
安裝過程輕而易舉。無論您使用何種操作系統(tǒng) (OS),您都可以執(zhí)行以下操作:
- 導(dǎo)航到WAIL網(wǎng)站并下載適合您操作系統(tǒng)的安裝程序。
- 對于Windows版本解壓縮文件,或者為macOS安裝DMG映像。
- 在macOS的結(jié)果對話框屏幕上,將應(yīng)用程序圖標(biāo)拖到您的應(yīng)用程序文件夾中。對于Windows用戶,只需將解壓縮的文件夾拖到根C:\驅(qū)動器即可。
- 啟動WAIL.app或WAIL.exe(取決于您的操作系統(tǒng))。
WAIL打開后,您將看到它的最小界面:
WAIL界面為您提供了三個(gè)選項(xiàng)
您現(xiàn)在可以選擇三個(gè)選項(xiàng):查看存檔、檢查其狀態(tài)或存檔網(wǎng)站。按鈕有點(diǎn)令人困惑,因?yàn)槟淖匀粌A向可能是從左到右閱讀。但是,在首次發(fā)布時(shí),您的檔案中將一無所有。
相反,輸入要存檔的站點(diǎn)的URL,然后單擊Archive Now!您會看到WAIL開始抓取網(wǎng)站。您可以在Advanced > Heritrix選項(xiàng)卡上檢查您的抓取狀態(tài):
WAIL顯示抓取作業(yè)的當(dāng)前狀態(tài)
完成后,它會向您顯示“成功”消息。此時(shí),您可以單擊“Basic”選項(xiàng)卡上的“View Archive”按鈕。這將在瀏覽器中打開您的存檔站點(diǎn),供您查看。
5. 如果您習(xí)慣使用命令行,請使用Wget
對于我們歸檔網(wǎng)站的最終方法,在開始之前您需要做一些事情:
- 命令行訪問您的計(jì)算機(jī)
- 合適的命令行工具,例如Windows命令提示符或macOS和Linux上的終端
- Wget安裝在您的計(jì)算機(jī)上
您可能已經(jīng)擁有前兩個(gè)。
在macOS上,您可以使用命令brew install wget通過Homebrew安裝Wget。請注意,您還需要安裝Homebrew,但只需幾秒鐘。在Linux上,大多數(shù)主要發(fā)行版都預(yù)裝了Wget。
如果您是Windows用戶,則在您的計(jì)算機(jī)上安裝Wget可能會更加困難。雖然網(wǎng)絡(luò)上有可用的教程,但它們的指導(dǎo)在機(jī)器之間似乎不一致。相反,我們建議您前往官方Wget網(wǎng)站并查看一些可用的Windows二進(jìn)制文件,因?yàn)樗鼈兏锌赡苓m合您。
不管怎樣,一旦你安裝了Wget,使用它就很簡單了。首先,導(dǎo)航到新終端窗口中的目錄。在這里,我們也在創(chuàng)建目錄,但此步驟是可選的:
cd documents && mkdir archive && cd archive
請注意,Wget會將所有下載內(nèi)容拉入任何工作目錄中。在這種情況下,我們?yōu)槲覀兊奈募付艘粋€(gè)文件夾。
接下來,您需要抓取站點(diǎn)并提取文件。使用wget命令調(diào)用每個(gè)操作,您需要使用以下格式:
wget "https://www.wbolt.com/" --warc-file="kins"
按Enter鍵將開始將www.wbolt.com下載到index.html文件并創(chuàng)建一個(gè)名為kins-00000.warc.gz的WARC文件。
存檔為WARC文件的站點(diǎn)
Wget功能強(qiáng)大,您可以使用許多命令和選項(xiàng)。例如,您可以使用該--mirror命令創(chuàng)建一個(gè)包含站點(diǎn)完整鏡像的WARC 文件。您也可以使用該--no-warc-compression命令來寫入未壓縮的文件,盡管這顯然會在每次下載時(shí)占用更多空間。使用內(nèi)置壓縮機(jī)是最佳方法。
小結(jié)
Web歸檔源于對快速變化的互聯(lián)網(wǎng)形態(tài)進(jìn)行記錄的需求。它現(xiàn)在有多個(gè)有效的應(yīng)用程序——例如,在法律文件和要求的情況下。無論您需要什么,擁有結(jié)構(gòu)良好且組織良好的存檔都可以補(bǔ)充您的整體備份策略。
幸運(yùn)的是,有很多解決方案可以提供幫助。大多數(shù)瀏覽器都提供在您的計(jì)算機(jī)上保存網(wǎng)頁的功能。然而,諸如Wayback Machine、Heritrix、WAIL和Wget等專用歸檔工具都是特別強(qiáng)大的解決方案,并提供標(biāo)準(zhǔn)化的文件格式。
分享名稱:如何存檔網(wǎng)站:多種方式建立Web檔案的指南
當(dāng)前URL:http://fisionsoft.com.cn/article/djsoege.html


咨詢
建站咨詢
