正則表達式匹配演算法_正則表達式原理

❶ 正則表達式是什麼

正則表達式（英文：Regular Expression），在計算機科學中，是指一個用來描述或者匹配一系列符合某個句法規則的字元串的單個字元串。在很多文本編輯器或其他工具里，正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字元串操作。例如，在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體（例如sed和grep）普及開的。「正則表達式」通常縮寫成「regex」，單數有regexp、regex，復數有regexps、regexes、regexen。
基本概念一個正則表達式通常被稱為一個模式 (pattern)，為用來描述或者匹配一系列符合某個句法規則的字元串。例如：Handel、H�0�1ndel 和 Haendel 這三個字元串，都可以由 "H(a|�0�1|ae)ndel" 這個模式來描述。大部分正則表達式的形式都有如下的結構：替換 | 豎直分隔符代表替換。例如"gray|grey"可以匹配grey或gray。</dd>數量限定某個字元後的數量限定符用來限定前面這個字元允許出現的個數。最常見的數量限定符包括「+」，「?」和「*」（不加數量限定則代表出現一次且僅出現一次）：+ 加號代表前面的字元必須至少出現一次。(1次，或多次)。例如，"goo+gle"可以匹配google，gooogle，goooogle等;</dd>? 問號代表前面的字元最多隻可以出現一次。(0次，或1次)。例如，"colou?r"可以匹配colour或者color;</dd>* 星號代表前面的字元可以不出現，也可以出現一次或者多次。(0次，或1次，或多次)。例如，"0*42"可以匹配42，042，0042，00042等。</dd>匹配圓括弧可以用來定義操作符的范圍和優先度。例如，"gr(a|e)y"等價於"gray|grey"，"(grand)?father"匹配father和grandfather。上述這些構造子都可以自由組合，因此，"H(ae?|�0�1)ndel"和"H(a|ae|�0�1)ndel"是相同的。精確的語法可能因不同的工具或程序而異。歷史最初的正則表達式出現於理論計算機科學的自動控制理論和形式語言理論中。在這些領域中有對計算（自動控制）的模型和對形式語言描述與分類的研究。1940年代，Warren McCulloch與Walter Pitts將神經系統中的神經元描述成小而簡單的自動控制元。在1950年代，數學家斯蒂芬·科爾·克萊尼利用稱之為正則集合的數學符號來描述此模型。肯·湯普遜將此符號系統引入編輯器QED，然後是Unix上的編輯器ed，並最終引入grep。自此，正則表達式被廣泛地使用於各種Unix或者類似Unix的工具，例如Perl。Perl正則表達式源自於Henry Spencer寫的regex，它已經演化成了pcre（Perl兼容正則表達式Perl Compatible Regular Expressions），一個由Philip Hazel開發的，為很多現代工具所使用的庫。各計算機語言之間的正則表達式的整合目前開展的很差。未來的Perl6的子項目Apocalypse的設計中已考慮到了這點。形式語言理論正則表達式可以用形式語言理論的方式來表達。正則表達式由常量和運算元組成，它們分別指示字元串的集合和在這些集合上的運算。給定有限字母表 Σ 定義了下列常量:(「空集」) �6�1 指示集合 �6�1 (「空串」) ε 指示集合 {ε} (「文字字元」) 在 Σ 中的 a 指示集合 {a} 定義了下列運算:(「串接」) RS 指示集合 { αβ | α ∈ R ∧ β ∈ S }。例如 {"ab"|"c"}{"d"|"ef"} = {"abd", "abef", "cd", "cef"}。 (「選擇」) R|S 指示 R 和 S 的並集。 (「Kleene星號」) R* 指示包含 ε 並且閉合在字元串串接下的 R 的最小超集。這是可以通過 R 中的零或多個字元串的串接得到所有字元串的集合。例如，{"ab", "c"}* = {ε, "ab", "c", "abab", "abc", "cab", "cc", "ababab", ... }。上述常量和運算元形成了克萊尼代數。很多課本使用對選擇使用符號 ∪, + 或 ∨ 替代豎杠。為了避免括弧，假定 Kleene 星號有最高優先順序，接著是串接，接著是並集。如果沒有歧義則可以省略括弧。例如，(ab)c 可以寫為 abc 而 a|(b(c*)) 可以寫為 a|bc*。例子:a|b* 指示 {ε, a, b, bb, bbb, ...}。 (a|b)* 指示由包括空串、任意數目個 a 和 b 字元組成的所有字元串的集合。 ab*(c|ε) 指示開始於一個 a 接著零或多個 b 和最終可選的一個 c 的字元串的集合。正則表達式的形式定義故意非常精簡，避免定義多餘的量詞 ? 和 +，它們可以被表達為: a+ = aa* 和 a? = (a|ε)。有時增加補運算元 ~ ；~R 指示在 Σ* 上的不在 R 中的所有字元串的集合。補運算元是多餘的，因為它使用其他運算元來表達(盡管計算這種表示的過程是復雜的，而結果可能指數性的增大)。這種意義上的正則表達式可以表達正則語言，精確的是可被有限狀態自動機接受的語言類。但是在簡潔性上有重要區別。某類正則語言只能用大小指數增長的自動機來描述，而要求的正則表達式的長度只線性的增長。正則表達式對應於喬姆斯基層級的類型-3文法。在另一方面，在正則表達式和不導致這種大小上的爆炸的非確定有限狀態自動機(NFA)之間有簡單的映射；為此 NFA 經常被用作正則表達式的替代表示。我們還要在這種形式化中研究表達力。如下面例子所展示的，不同的正則表達式可以表達同樣的語言: 這種形式化中存在著冗餘。有可能對兩個給定正則表達式寫一個演算法來判定它們所描述的語言是否本質上相等，簡約每個表達式到極小確定有限自動機，確定它們是否同構（等價）。這種冗餘可以消減到什麼程度? 我們可以找到仍有完全表達力的正則表達式的有趣的子集嗎? Kleene 星號和並集明顯是需要的，但是我們或許可以限制它們的使用。這提出了一個令人驚奇的困難問題。因為正則表達式如此簡單，沒有辦法在語法上把它重寫成某種規范形式。過去公理化的缺乏導致了星號高度問題。最近 Dexter Kozen 用克萊尼代數公理化了正則表達式。很多現實世界的「正則表達式」引擎實現了不能用正則表達式代數表達的特徵。表達式全集正則表達式有多種不同的風格。下表是在PCRE中元字元及其在正則表達式上下文中的行為的一個完整列表：字元描述\將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進制轉義符。例如，「n」匹配字元「n」。「\n」匹配一個換行符。序列「\\」匹配「\」而「\(」則匹配「(」。^匹配輸入字元串的開始位置。如果設置了RegExp對象的Multiline屬性，^也匹配「\n」或「\r」之後的位置。$匹配輸入字元串的結束位置。如果設置了RegExp對象的Multiline屬性，$也匹配「\n」或「\r」之前的位置。*匹配前面的子表達式零次或多次。例如，zo*能匹配「z」以及「zoo」。*等價於{0,}。+匹配前面的子表達式一次或多次。例如，「zo+」能匹配「zo」以及「zoo」，但不能匹配「z」。+等價於{1,}。?匹配前面的子表達式零次或一次。例如，「do(es)?」可以匹配「do」或「does」中的「do」。?等價於{0,1}。{n}n是一個非負整數。匹配確定的n次。例如，「o{2}」不能匹配「Bob」中的「o」，但是能匹配「food」中的兩個o。{n,}n是一個非負整數。至少匹配n次。例如，「o{2,}」不能匹配「Bob」中的「o」，但能匹配「foooood」中的所有o。「o{1,}」等價於「o+」。「o{0,}」則等價於「o*」。{n,m}m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，「o{1,3}」將匹配「fooooood」中的前三個o。「o{0,1}」等價於「o?」。請注意在逗號和兩個數之間不能有空格。?當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字元串，而默認的貪婪模式則盡可能多的匹配所搜索的字元串。例如，對於字元串「oooo」，「o+?」將匹配單個「o」，而「o+」將匹配所有「o」。.匹配除「\n」之外的任何單個字元。要匹配包括「\n」在內的任何字元，請使用像「[.\n]」的模式。(pattern)匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括弧字元，請使用「$」或「$」。(?:pattern)匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以後使用。這在使用「或」字元(|)來組合一個模式的各個部分是很有用。例如，「instr(?:y|ies)就是一個比」instry|instries'更簡略的表達式。(?=pattern)正向預查，在任何匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如，「Windows(?=95|98|NT|2000)」能匹配「Windows2000」中的「Windows」，但不能匹配「Windows3.1」中的「Windows」。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜索，而不是從包含預查的字元之後開始。(?!pattern)負向預查，在任何不匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如「Windows(?!95|98|NT|2000)」能匹配「Windows3.1」中的「Windows」，但不能匹配「Windows2000」中的「Windows」。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜索，而不是從包含預查的字元之後開始x|y匹配x或y。例如，「z|food」能匹配「z」或「food」。「(z|f)ood」則匹配「zood」或「food」。[xyz]字元集合。匹配所包含的任意一個字元。例如，「[abc]」可以匹配「plain」中的「a」。[^xyz]負值字元集合。匹配未包含的任意字元。例如，「[^abc]」可以匹配「plain」中的「p」。[a-z]字元范圍。匹配指定范圍內的任意字元。例如，「[a-z]」可以匹配「a」到「z」范圍內的任意小寫字母字元。[^a-z]負值字元范圍。匹配任何不在指定范圍內的任意字元。例如，「[^a-z]」可以匹配任何不在「a」到「z」范圍內的任意字元。\b匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，「er\b」可以匹配「never」中的「er」，但不能匹配「verb」中的「er」。\B匹配非單詞邊界。「er\B」能匹配「verb」中的「er」，但不能匹配「never」中的「er」。\cx匹配由x指明的控制字元。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的「c」字元。\d匹配一個數字字元。等價於[0-9]。\D匹配一個非數字字元。等價於[^0-9]。\f匹配一個換頁符。等價於\x0c和\cL。\n匹配一個換行符。等價於\x0a和\cJ。\r匹配一個回車符。等價於\x0d和\cM。\s匹配任何空白字元，包括空格、製表符、換頁符等等。等價於[\f\n\r\t\v]。\S匹配任何非空白字元。等價於[^\f\n\r\t\v]。\t匹配一個製表符。等價於\x09和\cI。\v匹配一個垂直製表符。等價於\x0b和\cK。\w匹配包括下劃線的任何單詞字元。等價於「[A-Za-z0-9_]」。\W匹配任何非單詞字元。等價於「[^A-Za-z0-9_]」。\xn匹配n，其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如，「\x41」匹配「A」。「\x041」則等價於「\x04」&「1」。正則表達式中可以使用ASCII編碼。.\num匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，「(.)\1」匹配兩個連續的相同字元。\n標識一個八進制轉義值或一個向後引用。如果\n之前至少n個獲取的子表達式，則n為向後引用。否則，如果n為八進制數字(0-7)，則n為一個八進制轉義值。\nm標識一個八進制轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表達式，則nm為向後引用。如果\nm之前至少有n個獲取，則n為一個後跟文字m的向後引用。如果前面的條件都不滿足，若n和m均為八進制數字(0-7)，則\nm將匹配八進制轉義值nm。\nml如果n為八進制數字(0-3)，且m和l均為八進制數字(0-7)，則匹配八進制轉義值nml。\un匹配n，其中n是一個用四個十六進制數字表示的Unicode字元。例如，\u00A9匹配版權符號（�0�8）。範例以下以php的語法所寫的範例驗證字串是否只含數字與英文, 字串長度並在4~16個字元之間 <?php
$str = 'a1234';
if (preg_match("^[a-zA-Z0-9]{4,16}$", $str)) {
echo "驗證成功";
} else {
echo "驗證失敗";
}
?> 簡易的台灣身份證字型大小驗證 <?php
$str = 'a1234';
if (preg_match("^[A-Z]{1}[1-2]{1}[0-9]{8}$", $str)) {
echo "驗證成功";
} else {
echo "驗證失敗";
}
?>

❷ 正則表達式原理

首先先講解下正則表達式的基礎知識：

1.字元串的組成

對於字元串」123「而言，包括三個字元四個位置。如下圖所示：

2.佔有字元和零寬度

正則表達式匹配過程中，如果子表達式匹配到東西，而並非是一個位置，並最終保存到匹配的結果當中。這樣的就稱為佔有字元，而只匹配一個位置，或者是匹配的內容並不保存到匹配結果中，這種就稱作零寬度，後續會講到的零寬度斷言等。佔有字元是互斥的，零寬度是非互斥的。也就是一個字元，同一時間只能由一個子表達式匹配，而一個位置，卻可以同時由多個零寬度的子表達式匹配。

3.控制權和傳動

正則表達式由左到右依次進行匹配，通常情況下是由一個表達式取得控制權，從字元串的的某個位置進行匹配，一個子表達式開始嘗試匹配的位置，是從前一子表達匹配成功的結束位置開始的（例如：（表達式一）（表達式二）意思就是表達式一匹配完成後才能匹配表達式二，而匹配表達式二的位置是從表達式一的位置匹配結束後的位置開始）。如果表達式一是零寬度，那表達式一匹配完成後，表達式二匹配的位置還是原來表達式以匹配的位置。也就是說它匹配開始和結束的位置是同一個。

舉一個簡單的例子進行說明：正則表達式：123

源數據：123

講解：首先正則表達式是從最左側開始進行匹配，也就是位置0處進行匹配，首先得到控制權的是正則表達式中的「1」，而不是源數據中的「1」，匹配源數據中的「1」，匹配成功，將源數據的「1」進行保存到匹配的結果當中，這就表明它佔有了一個字元，接下來就將控制權傳給正則表達式中的「2」，匹配的位置變成了位置1，匹配源數據中的「2」，匹配成功，將控制權又傳動給了正則表達式的「3」，這時候匹配的位置變成了位置2，這時候就會將源數據中的「3」進行匹配。又有正則表達式「3」進行傳動控制權，發現已經到了正則表達式的末尾，正則表達式結束。

❸ 如何使用正則表達式匹配左右括弧

用C#語言的正則表達式中的平衡組就可以實現你的要求,完整的程序如下

using System;

using System.Text.RegularExpressions;

namespace MatchApplication{

class MatchProgram{

static void Main(string[] args){

string str="var c= 2*(function(a)-function1(function2(a+b*2),3))+4*5;";

string pattern = @"(function|function1)([^()]*(((?'Open'()[^()]*)+((?'-Open'))[^()]*)+)*(?(Open)(?!)))";

MatchCollection mc=Regex.Matches(str, pattern);

foreach (Match m in mc){

Console.WriteLine(m.Groups[0]);

}

❹ 正則表達式

目前，正則表達式已經在很多軟體中得到廣泛的應用，包括*nix（Linux, Unix等），HP等操作系統，PHP，C#，java等開發環境，以及很多的應用軟體中，都可以看到正則表達式的影子。

正則表達式的使用，可以通過簡單的辦法來實現強大的功能。為了簡單有效而又不失強大，造成了正則表達式代碼的難度較大，學習起來也不是很容易，所以需要付出一些努力才行，入門之後參照一定的參考，使用起來還是比較簡單有效的。

例子： ^.+@.+\\..+$

2. 正則表達式的歷史

正則表達式的「祖先」可以一直上溯至對人類神經系統如何工作的早期研究。Warren McCulloch 和 Walter Pitts 這兩位神經生理學家研究出一種數學方式來描述這些神經網路。
1956 年, 一位叫 Stephen Kleene 的數學家在 McCulloch 和 Pitts 早期工作的基礎上，發表了一篇標題為「神經網事件的表示法」的論文，引入了正則表達式的概念。正則表達式就是用來描述他稱為「正則集的代數」的表達式，因此採用「正則表達式」這個術語。

隨後，發現可以將這一工作應用於使用 Ken Thompson 的計算搜索演算法的一些早期研究，Ken Thompson 是 Unix 的主要發明人。正則表達式的第一個實用應用程序就是 Unix 中的 qed 編輯器。

如他們所說，剩下的就是眾所周知的歷史了。從那時起直至現在正則表達式都是基於文本的編輯器和搜索工具中的一個重要部分
3. 正則表達式定義
正則表達式(regular expression)描述了一種字元串匹配的模式，可以用來檢查一個串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。

列目錄時， dir *.txt或ls *.txt中的*.txt就不是一個正則表達式,因為這里*與正則式的*的含義是不同的。
正則表達式是由普通字元（例如字元 a 到 z）以及特殊字元（稱為元字元）組成的文字模式。正則表達式作為一個模板，將某個字元模式與所搜索的字元串進行匹配。

3.1 普通字元
由所有那些未顯式指定為元字元的列印和非列印字元組成。這包括所有的大寫和小寫字母字元，所有數字，所有標點符號以及一些符號。

3.2 非列印字元字元含義
\cx 匹配由x指明的控制字元。例如， \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則，將 c 視為一個原義的 'c' 字元。
\f 匹配一個換頁符。等價於 \x0c 和 \cL。
\n 匹配一個換行符。等價於 \x0a 和 \cJ。
\r 匹配一個回車符。等價於 \x0d 和 \cM。
\s 匹配任何空白字元，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S 匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。
\t 匹配一個製表符。等價於 \x09 和 \cI。
\v 匹配一個垂直製表符。等價於 \x0b 和 \cK。

3.3 特殊字元

所謂特殊字元，就是一些有特殊含義的字元，如上面說的"*.txt"中的*，簡單的說就是表示任何字元串的意思。如果要查找文件名中有＊的文件，則需要對＊進行轉義，即在其前加一個\。ls \*.txt。正則表達式有以下特殊字元。

特別字元說明
$ 匹配輸入字元串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性，則 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字元本身，請使用 \$。
( ) 標記一個子表達式的開始和結束位置。子表達式可以獲取供以後使用。要匹配這些字元，請使用 $ 和 $。
* 匹配前面的子表達式零次或多次。要匹配 * 字元，請使用 \*。
+ 匹配前面的子表達式一次或多次。要匹配 + 字元，請使用 \+。
. 匹配除換行符 \n之外的任何單字元。要匹配 .，請使用 \。
[ 標記一個中括弧表達式的開始。要匹配 [，請使用 \[。
? 匹配前面的子表達式零次或一次，或指明一個非貪婪限定符。要匹配 ? 字元，請使用 \?。
\ 將下一個字元標記為或特殊字元、或原義字元、或向後引用、或八進制轉義符。例如， 'n' 匹配字元 'n'。'\n' 匹配換行符。序列 '\\' 匹配 "\"，而 '\(' 則匹配 "("。
^ 匹配輸入字元串的開始位置，除非在方括弧表達式中使用，此時它表示不接受該字元集合。要匹配 ^ 字元本身，請使用 \^。
{ 標記限定符表達式的開始。要匹配 {，請使用 \{。
| 指明兩項之間的一個選擇。要匹配 |，請使用 \|。

構造正則表達式的方法和創建數學表達式的方法一樣。也就是用多種元字元與操作符將小的表達式結合在一起來創建更大的表達式。正則表達式的組件可以是單個的字元、字元集合、字元范圍、字元間的選擇或者所有這些組件的任意組合。

3.4 限定符

限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有*或+或?或或或共6種。
*、+和?限定符都是貪婪的，因為它們會盡可能多的匹配文字，只有在它們的後面加上一個?就可以實現非貪婪或最小匹配。
正則表達式的限定符有：

字元描述
* 匹配前面的子表達式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等價於。
+ 匹配前面的子表達式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價於。
? 匹配前面的子表達式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價於。
n 是一個非負整數。匹配確定的 n 次。例如，'o' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的兩個 o。
n 是一個非負整數。至少匹配n 次。例如，'o' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o' 等價於 'o+'。'o' 則等價於 'o*'。
m 和 n 均為非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o" 將匹配 "fooooood" 中的前三個 o。'o' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。

3.5 定位符

用來描述字元串或單詞的邊界，^和$分別指字元串的開始與結束，\b描述單詞的前或後邊界，\B表示非單詞邊界。不能對定位符使用限定符。

3.6 選擇

用圓括弧將所有選擇項括起來，相鄰的選擇項之間用|分隔。但用圓括弧會有一個副作用，是相關的匹配會被緩存，此時可用?:放在第一個選項前來消除這種副作用。
其中?:是非捕獲元之一，還有兩個非捕獲元是?=和?!，這兩個還有更多的含義，前者為正向預查，在任何開始匹配圓括弧內的正則表達式模式的位置來匹配搜索字元串，後者為負向預查，在任何開始不匹配該正則表達式模式的位置來匹配搜索字元串。

3.7 後向引用

對一個正則表達式模式或部分模式兩邊添加圓括弧將導致相關匹配存儲到一個臨時緩沖區中，所捕獲的每個子匹配都按照在正則表達式模式中從左至右所遇到的內容存儲。存儲子匹配的緩沖區編號從 1 開始，連續編號直至最大 99 個子表達式。每個緩沖區都可以使用 '\n' 訪問，其中 n 為一個標識特定緩沖區的一位或兩位十進制數。
可以使用非捕獲元字元 '?:', '?=', or '?!' 來忽略對相關匹配的保存。

❺ 請問JAVA中正則表達式匹配怎麼實現的!

Java中正則表達式匹配的語法規則：

packageorg.luosijin.test;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

/**
*正則表達式
*@versionV5.0
*@authorAdmin
*@date2015-7-25
*/
publicclassRegex{

/**
*@paramargs
*@authorAdmin
*@date2015-7-25
*/

publicstaticvoidmain(String[]args){
Patternpattern=Pattern.compile("b*g");
Matchermatcher=pattern.matcher("bbg");
System.out.println(matcher.matches());
System.out.println(pattern.matches("b*g","bbg"));
//驗證郵政編碼
System.out.println(pattern.matches("[0-9]{6}","200038"));
System.out.println(pattern.matches("//d{6}","200038"));
//驗證電話號碼
System.out.println(pattern.matches("[0-9]{3,4}//-?[0-9]+","02178989799"));
getDate("Nov10,2009");
charReplace();
//驗證身份證:判斷一個字元串是不是身份證號碼，即是否是15或18位數字。
System.out.println(pattern.matches("^//d{15}|//d{18}$","123456789009876"));
getString("D:/dir1/test.txt");
getChinese("welcometochina,江西奉新,welcome,你!");
validateEmail("[email protected]");
}
/**
*日期提取:提取出月份來
*@paramstr
*@authorAdmin
*@date2015-7-25
*/
publicstaticvoidgetDate(Stringstr){
StringregEx="([a-zA-Z]+)|//s+[0-9]{1,2},//s*[0-9]{4}";
Patternpattern=Pattern.compile(regEx);
Matchermatcher=pattern.matcher(str);
if(!matcher.find()){
System.out.println("日期格式錯誤!");
return;
}
System.out.println(matcher.group(1));//分組的索引值是從1開始的，所以取第一個分組的方法是m.group(1)而不是m.group(0)。
}
/**
*字元替換:本實例為將一個字元串中所有包含一個或多個連續的「a」的地方都替換成「A」。
*
*@authorAdmin
*@date2015-7-25
*/
publicstaticvoidcharReplace(){
Stringregex="a+";
Patternpattern=Pattern.compile(regex);
Matchermatcher=pattern.matcher("okaaaaLetmeAseeaaaaabooa");
Strings=matcher.replaceAll("A");
System.out.println(s);
}
/**
*字元串提取
*@paramstr
*@authorAdmin
*@date2015-7-25
*/
publicstaticvoidgetString(Stringstr){
Stringregex=".+/(.+)$";
Patternpattern=Pattern.compile(regex);
Matchermatcher=pattern.matcher(str);
if(!matcher.find()){
System.out.println("文件路徑格式不正確！");
return;
}
System.out.println(matcher.group(1));
}
/**
*中文提取
*@paramstr
*@authorAdmin
*@date2015-7-25
*/
publicstaticvoidgetChinese(Stringstr){
Stringregex="[//u4E00-//u9FFF]+";//[//u4E00-//u9FFF]為漢字
Patternpattern=Pattern.compile(regex);
Matchermatcher=pattern.matcher(str);
StringBuffersb=newStringBuffer();
while(matcher.find()){
sb.append(matcher.group());
}
System.out.println(sb);
}
/**
*驗證Email
*@paramemail
*@authorAdmin
*@date2015-7-25
*/
publicstaticvoidvalidateEmail(Stringemail){
Stringregex="[0-9a-zA-Z]+@[0-9a-zA-Z]+//.[0-9a-zA-Z]+";
Patternpattern=Pattern.compile(regex);
Matchermatcher=pattern.matcher(email);
if(matcher.matches()){
System.out.println("這是合法的Email");
}else{
System.out.println("這是非法的Email");
}
}
}

❻ 請教正則表達式的演算法

正則表達式，又稱規則表達式。（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），計算機科學的一個概念。正則表通常被用來檢索、替換那些符合某個模式(規則)的文本。

❼ C++ 正則表達式匹配curl爬取網頁的指定內容

程序如下：

$pattern='/<divclass="nav"monkey="nav">(.+?)<divclass="head-ad">/is';
preg_match($pattern,$string,$match);
//$match[0]即為<divclass="nav"monkey="nav">和<divclass="head-ad">之間的所有源碼
echo$match[0];

//然後再提取<li></li>之間的內容
$pattern='/<li.*?>(.+?)</li>/is';

preg_match_all($pattern,$match[0],$results);
$new_arr=array_unique($results[0]);

foreach($new_arras$kkk){
echo$kkk;

}

❽ 正則表達式演算法

使用隊列去實現也可以，

第一，你要編寫一個類，去保存表達式的子表達式，也就是匹配區間，並記錄匹配的規則：是否可選，是否可重復

然後分析表達式(整個表達式)，把每一步分析得到的表達式封裝成上面提到的類保存到隊列中

最後依次從隊列中取出表達式，去匹配字元串

❾ 演算法和正則表達式的區別

演算法和正則正則這兩者貌似沒什麼關系吧 . 演算法是實現某種目的的過程.
在C語言里是一個函數 , java里是一個方法 , 正則表達式是一個匹配字元串的規則 , 一種模式.
正則當然是通過演算法來實現的 , java里的Patter 類底層代碼怎麼實現正則的匹配功能?就是通過演算法 .
比如 js里像這樣一個正則: /\w{3}\d/ 表示匹配"3個字母一個數字"的字元串
正則的作用就是通過匹配來驗證數據是否是指定的格式 , 比如在你注冊帳號的時候匹配你的用戶名密碼是否按照要求填寫 , 你的郵箱格式是否正確 , 還有就是正則可以方便的處理字元串的替換, 比如有的時候你得到一個幾千行的字元串你需要將每一行用引號引起來然後再末尾加個逗號 , 這時候手動處理的話要發瘋 , 就可以用帶有正則替換功能的工具處理 , 秒秒鍾搞定,
程序里也一樣,方便的替換掉匹配到的某些字元串.

❿ 正則表達式匹配演算法在網路安全的哪些領域起著重要的作用

正則沒辦法直接得到，需要和程序語言一同處理。
以「」字串為例，正則只寫出匹配3個數字的表達式即可（\d{3}），匹配一次
得到"123"和「1」在原來字元中的位置[一般正則都能得到]，從此位置+1到原來字串的末尾得到新的字元串，再用正則搜索新的字串，……循環直至匹配不到結果為止。
字串截取、循環匹配需要程序語言

導航:首頁 > 源碼編譯 > 正則表達式匹配演算法

正則表達式匹配演算法

與正則表達式匹配演算法相關的資料