新聞中心
曾經(jīng)了解過JavaScript的正則表達(dá)式,知道其功能的強(qiáng)大,對(duì)于處理文本比用普通的API處理不管從效率上還是從功能上都有很大的優(yōu)勢(shì)。今天項(xiàng)目要求用到Java的正則表達(dá)式,于是在網(wǎng)上Google,找到一個(gè)Jakarta ORO的庫,聽說是Java中功能***大的正則表達(dá)式庫,確實(shí)也如此,Sun公司的JDK里自帶的正則表達(dá)式功能是遠(yuǎn)遠(yuǎn)不如ORO庫,從正則表達(dá)式的角度上看,其比普通的API處理文本是復(fù)雜很多。

10年積累的網(wǎng)站制作、成都網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先做網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有寶豐免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
但如果應(yīng)用得恰當(dāng)?shù)脑挘瑫?huì)提高工程的質(zhì)量,于是項(xiàng)目中就應(yīng)用了這個(gè)ORO庫,把瀏覽器請(qǐng)求得到的HTML頁面進(jìn)行解釋替換實(shí)現(xiàn)一個(gè)代理采集信息的功能。感覺自己好像是在開發(fā)軟件,不是在設(shè)計(jì)網(wǎng)頁。正則表達(dá)式有一個(gè)很好用的工具--RegexBuddy,應(yīng)用這個(gè)工具可以調(diào)度一個(gè)匹配你需要的正則表達(dá)式串,經(jīng)過幾番調(diào)度,把一些HTML標(biāo)簽的正則表達(dá)式匹配出來。
***:像網(wǎng)頁鏈接之間的內(nèi)容中[URL[絕對(duì)地址替換成相對(duì)地址,首先要查找匹配這個(gè)鏈接,查找匹配這個(gè)串的正則表達(dá)式串為
(<\\s*a\\s+(?:[^\\s>]\\s*){0,})href\\s*=\\s*(\"|'|)([^\\2\\s>]*)\\2((?:\\s*[^\\s>]){0,}\\s *>)
- //查找匹配的代碼如下:
- String patternStrs="(<\\s*a\\s+(?:[^\\s>]\\s*){0,})href\\s*=\\s*
(\"|'|)([^\\2\\s>]*)\\2((?:\\s*[^\\s>]){0,}\\s *>)";- PatternCompiler complier = new Perl5Compiler();
- PatternMatcher matcher = new Perl5Matcher();
- Pattern patternForLink = complier.compile(patternStrs,
- Perl5Compiler.
- CASE_INSENSITIVE_MASK);
- PatternMatcherInput input = new PatternMatcherInput(htmlContent);
- while (matcher.contains(input, patternForLink)) {
- MatchResult match = matcher.getMatch();
- //處理匹配的結(jié)果,是要替換還是要其他處理
- }
第二:對(duì)其他的標(biāo)簽也類似只要把匹配的字符串改一下為要匹配的標(biāo)簽就可以了。(如IMG標(biāo)簽)
(<\s*img\s+(?:[^\s>]\s*){0,})src\s*=\s*("|'|)([^\2\s>]*)\2((?:\s*[^\s>]){0,}\s*>),這樣就可以處理
總結(jié):對(duì)于大量要處理的文本,建議還是用到正則表達(dá)式,而要處理的文本比較少時(shí),用普通的字符串API處理函數(shù)就足夠了。
網(wǎng)頁題目:使用Java正則表達(dá)式匹配、替換HTML內(nèi)容
文章網(wǎng)址:http://fisionsoft.com.cn/article/djdgpjg.html


咨詢
建站咨詢
