正則表達式又稱正規(guī)表示法、常規(guī)表示法(Regular Ex-press ion,是計算機科學的一個基本概念)正則表達式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串、)在很多文本編輯器里,正則表達式通常被用來檢索、替換那些符合某個模式的文本。
許多程序設計語言都支持利用正則表達式進行字符串操作,例如,在Python中就內建了一個功能強大的正則表達式模塊正則表達式這個概念最初是由Unix中的工具軟件(例如SPC和grip普及開的)。
1正則表達式歷史
正則表達式或許可一直追溯到科學家對人類神經系統(tǒng)工作原理的早期研究、美國新澤西州的Warren McCulloch和出生在美國底特律的Walter Pitts這兩位神經生理方面的科學家,研究出了一種用數(shù)學方式來描述神經網絡的新方法,他們創(chuàng)造性地將神經系統(tǒng)中的神經元描述成了小而簡單的自動控制元,從而做出了一項偉大的工作革新。
在1956年,出生在被馬克·吐溫(Mark Twain)稱為“美國最美麗的城市之一”的哈特福德市的一位名叫LIStephenKleene的數(shù)學科學家,在Warren McCulloch和Walter Pitts早期工作的基礎之上,發(fā)表了一篇題目是《神經網事件的表示法》的論文,利用稱之為正則集合的數(shù)學符號來描述此模型,引入了正則表達式的概念)正則表達式被作為用來描述其稱之為“正則集的代數(shù)”的.一種表達式,因而采用了“正則表達式”這個術語。
2正則表達式基本概念和語法
2.1什么是正則表達式
正則表達式由一些普通字符(literal characters)和一些元字符(meta characters)組成、普通字符包括大小寫的字母、數(shù)字和可打印的符號,而元字符則具有特殊的含義。
2.2正則表達式的結構
正則表達式結構為:錨定符字符集修飾符。
2.3正則表達式處理流程
(1)匹配字符串的正則:“bat”,“bit”,“but”,“hat”,“hit”或“hut"。
含義說明:匹配‘h’或者‘h’開頭,然后是任意1個字符,然后是‘t’字符和‘,’字符、‘,’字符可以沒有,所以‘,’后面有一個‘?’。
(2)匹配用一個空格分隔的任意一對單詞,比如,名和姓。
(3)匹配用一個逗號和一個空格分開的一個單詞和一個字母、例如,英文人名中的姓和名的首字母。
(4)匹配全體Python整數(shù)的字符串表示形式的集合。
3正則表達式在網頁抓取中的應用實例
在Web應用中,一個常見的需求是抓取網頁中指定的內容,例如網頁中的標題,超鏈接等,這個需求可以用正則表達式很方便地完成。
4結語
正則表達式語法簡單,功能強大,在口常的文本處理,網頁內容解析上有各種成熟的應用和基于正則的工具,通過正則表達式,大大提高了處理字符串和文本的效率,隨著技術的發(fā)展正則表達式的應用領域和功能也會越來越強大。
【正則表達式的研究和在網頁抓取中的應用論文】相關文章:
酸化壓裂的研究現(xiàn)狀分析和在現(xiàn)場中的應用論文07-06
網頁設計與制作課程的研究與應用論文11-02
Flash在網頁設計中的應用論文11-18
網頁設計教學中的應用分析論文01-11
教學中的應用研究教學中的應用研究論文06-25
網頁設計中的視覺構成研究論文11-01
“網頁設計與制作”課程中的應用分析論文11-18
關于圖片優(yōu)勢效應在網頁設計中的研究與應用探討論文11-03
漢字在標志設計中的研究與應用論文11-02