Ⅰ total += i 在python中什麼意思
python的復合運算,表示total=total+i
每次給total累加i的值,這種寫法類似c++和java中的給變數累加
Ⅱ python里 if語句冒號後面的代碼是什麼意思 比如,代碼里if num[i] != 0 : k += 1 還有while語句
python是依靠縮進和冒號來區分代碼層級的,if和else後面就是語句,像if、while、def和class這樣的復合語句,首行以關鍵字開始,以冒號( : )結束,該行之後的一行或多行代碼構成代碼組。
Ⅲ 網頁頁面設計過程中python設計如何與其結合,代碼植入方法與核心技術流程舉例
摘要 您好。
Ⅳ python中循環語句
1、if語句
Python中的if子句由三部分組成:關鍵字本身、用於判斷結果真假的條件表達式以及當表達式為真或者非零時執行的代碼塊。if 語句的語法如下:
if expression:
expr_true_suite
if 語句的expr_true_suite代碼塊只有在條件表達式的結果的布爾值為真時才執行,否則將繼續執行緊跟在該代碼塊後面的語句。
(1)多重條件表達式
單個if語句可以通過使用布爾操作符and、or和not,實現多重判斷條件或是否定判斷條件。
(2)單一語句的代碼塊
如果一個復合語句(例如if子句、while或for循環)的代碼塊僅僅包含一行代碼,那麼它可以和前面的語句寫在同一行上。如if make_hard_: send_data_to_printer(),這樣的單行語句是合法的, 盡管它可能方便,但這樣會使得代碼更難閱讀, 所以推薦將這行代碼移到下一行並合理地縮進。另外一個原因就是如果你需要添加新的代碼, 你還是得把它移到下一行。
2、else語句
Python提供了與if語句搭配使用的else語句,如果if語句的條件表達式的結果布爾值為假,那麼程序將執行 else 語句後的代碼。其語法如下:
if expression:
expr_true_suite
else:
expr_false_suite
在C語言中,不會在條件語句范圍外發現else語句, 但Python不同,可以在while和for循環中使用else語句,在循環中使用時,else子句只在循環完成後執行,也就是說break語句也會跳過else塊。
例:顯示出10到20中的數字的最大約數
在CODE上查看代碼片派生到我的代碼片
#!/usr/bin/env python
def showMaxFactor(num):
count = num / 2
while count > 1:
if (num % count == 0):
print 'largest factor of %d is %d' % (num, count)
break
count = count - 1
else:
pr
Ⅳ Python基本語法都有哪些
1.關於編碼:
默認情況下,Python 3 源碼文件以 UTF-8 編碼,所有字元串都是 unicode 字元串。 當然你也可以為源碼文件指定不同的編碼:
# -*- coding: cp-1252 -*-
2.標識符:
第一個字元必須是字母表中字母或下劃線,其他的部分由字母、數字和下劃線組成。
標識符對大小寫敏感。
在 Python 3 中,可以用中文作為變數名,非 ASCII 標識符也是允許的了。
3.保留字:
保留字即關鍵字,我們不能把它們用作任何標識符名稱。
Python 的標准庫提供了一個 keyword 模塊,可以輸出當前版本的所有關鍵字:
代碼:
import keyword
keyword.kwlist
結果:
['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']
4.關於注釋:
單行注釋以 # 開頭
多行注釋可以用多個 # 號,還有 ''' 和 """
5.縮進與多行語句:
Python最具特色的就是使用縮進來表示代碼塊,不需要使用大括弧 {} 。
縮進的空格數是可變的,但是同一個代碼塊的語句必須包含相同的縮進空格數
Python 通常是一行寫完一條語句,但如果語句很長,我們可以使用反斜杠(\)來實現多行語句,例如:
代碼:total = item_one + \
item_two + \
item_three
在 [], {}, 或 () 中的多行語句,不需要使用反斜杠(\),例如:
代碼:total = ['item_one', 'item_two', 'item_three',
'item_four', 'item_five']
6.數字(Number)類型:
Python中數字有四種類型:整數、布爾型、浮點數和復數。
int (整數), 如 1, 只有一種整數類型 int,表示為長整型,沒有 python2 中的 Long。
bool (布爾), 如 True。
float (浮點數), 如 1.23、3E-2
complex (復數), 如 1 + 2j、 1.1 + 2.2j
7.字元串:
python中單引號和雙引號使用完全相同。
使用三引號('''或""")可以指定一個多行字元串。
轉義符 '\'
反斜杠可以用來轉義,使用r可以讓反斜杠不發生轉義。。 如 r"this is a line with \n" 則\n會顯示,並不是換行。
按字面意義級聯字元串,如"this " "is " "string"會被自動轉換為this is string。
字元串可以用 + 運算符連接在一起,用 * 運算符重復。
Python 中的字元串有兩種索引方式,從左往右以 0 開始,從右往左以 -1 開始。
Python中的字元串不能改變。
Python 沒有單獨的字元類型,一個字元就是長度為 1 的字元串。
字元串的截取的語法格式如下:變數[頭下標:尾下標:步長]
代碼示例:
#!/usr/bin/python3
str='Runoob'
print(str) # 輸出字元串
print(str[0:-1]) # 輸出第一個到倒數第二個的所有字元
print(str[0]) # 輸出字元串第一個字元
print(str[2:5]) # 輸出從第三個開始到第五個的字元
print(str[2:]) # 輸出從第三個開始後的所有字元
print(str * 2) # 輸出字元串兩次
print(str + '你好') # 連接字元串
print('hello\nrunoob') # 使用反斜杠(\)+n轉義特殊字元
print(r'hello\nrunoob') # 在字元串前面添加一個 r,表示原始字元串,不會發生轉義
8.空行:
函數之間或類的方法之間用空行分隔,表示一段新的代碼的開始。類和函數入口之間也用一行空行分隔,以突出函數入口的開始。
空行與代碼縮進不同,空行並不是Python語法的一部分。書寫時不插入空行,Python解釋器運行也不會出錯。但是空行的作用在於分隔兩段不同功能或含義的代碼,便於日後代碼的維護或重構。
記住:空行也是程序代碼的一部分。
9.等待用戶輸入input:
執行下面的程序在按回車鍵後就會等待用戶輸入:
input("\n\n按下 enter 鍵後退出。")
以上代碼中 ,"\n\n"在結果輸出前會輸出兩個新的空行。一旦用戶按下 enter 鍵時,程序將退出。
10.同一行顯示多條語句:
Python可以在同一行中使用多條語句,語句之間使用分號(;)分割,以下是一個簡單的實例:
import sys; x = 'runoob'; sys.stdout.write(x + '\n')
11.代碼組:
縮進相同的一組語句構成一個代碼塊,我們稱之代碼組。
像if、while、def和class這樣的復合語句,首行以關鍵字開始,以冒號( : )結束,該行之後的一行或多行代碼構成代碼組。
我們將首行及後面的代碼組稱為一個子句(clause)。
12.Print輸出:
Print 輸出
print 默認輸出是換行的,如果要實現不換行需要在變數末尾加上 end="":
代碼:
x="a"
y="b"
# 換行輸出
print( x )
print( y )
# 不換行輸出
print( x, end=" " )
print( y, end=" " )
13.import 與 from...import
在 python 用 import 或者 from...import 來導入相應的模塊。
將整個模塊(somemole)導入,格式為: import somemole
從某個模塊中導入某個函數,格式為: from somemole import somefunction
從某個模塊中導入多個函數,格式為: from somemole import firstfunc, secondfunc, thirdfunc
將某個模塊中的全部函數導入,格式為: from somemole import *
代碼:
導入 sys 模塊
import sys
print ('命令行參數為:')
for i in sys.argv:
print (i)
print ('\n python 路徑為',sys.path)
導入 sys 模塊的 argv,path 成員
from sys import argv,path # 導入特定的成員
print('path:',path) # 因為已經導入path成員,所以此處引用時不需要加sys.path
14.命令行參數:
很多程序可以執行一些操作來查看一些基本信息,Python可以使用-h參數查看各參數幫助信息:
代碼:
$ python -h
usage: python [option] ... [-c cmd | -m mod | file | -] [arg] ...
Options and arguments (and corresponding environment variables):
-c cmd : program passed in as string (terminates option list)
-d : debug output from parser (also PYTHONDEBUG=x)
-E : ignore environment variables (such as PYTHONPATH)
-h : print this help message and exit
[ etc. ]
15.一個有用的函數:help( )
調用 python 的 help() 函數可以列印輸出一個函數的文檔字元串:
# 如下實例,查看 max 內置函數的參數列表和規范的文檔
>>> help(max)
……顯示幫助信息…… 按下 : q 兩個按鍵即退出說明文檔
如果僅僅想得到文檔字元串:
>>> print(max.__doc__) # 注意,doc的前後分別是兩個下劃線
max(iterable, *[, default=obj, key=func]) -> value
max(arg1, arg2, *args, *[, key=func]) -> value
With a single iterable argument, return its biggest item. The
default keyword-only argument specifies an object to return if
the provided iterable is empty.
With two or more arguments, return the largest argument.
Ⅵ total+=item在python中是什麼意思
total+=item 等價於 total = total + item
相當於通過total進行累加item;
理解: total + item 相加後重新賦值給total
Ⅶ 【Python基礎】python基本語法規則有哪些
1.關於編碼:
默認情況下,Python 3 源碼文件以 UTF-8 編碼,所有字元串都是 unicode 字元串。 當然你也可以為源碼文件指定不同的編碼:
# -*- coding: cp-1252 -*-
2.標識符:
第一個字元必須是字母表中字母或下劃線,其他的部分由字母、數字和下劃線組成。
標識符對大小寫敏感。
在 Python 3 中,可以用中文作為變數名,非 ASCII 標識符也是允許的了。
3.保留字:
保留字即關鍵字,我們不能把它們用作任何標識符名稱。
Python 的標准庫提供了一個 keyword 模塊,可以輸出當前版本的所有關鍵字:
代碼:
import keyword
keyword.kwlist
結果:
['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']
4.關於注釋:
單行注釋以 # 開頭
多行注釋可以用多個 # 號,還有 ''' 和 """
5.縮進與多行語句:
Python最具特色的就是使用縮進來表示代碼塊,不需要使用大括弧 {} 。
縮進的空格數是可變的,但是同一個代碼塊的語句必須包含相同的縮進空格數
Python 通常是一行寫完一條語句,但如果語句很長,我們可以使用反斜杠(\)來實現多行語句,例如:
代碼:total = item_one + \
item_two + \
item_three
在 [], {}, 或 () 中的多行語句,不需要使用反斜杠(\),例如:
代碼:total = ['item_one', 'item_two', 'item_three',
'item_four', 'item_five']
6.數字(Number)類型:
Python中數字有四種類型:整數、布爾型、浮點數和復數。
int (整數), 如 1, 只有一種整數類型 int,表示為長整型,沒有 python2 中的 Long。
bool (布爾), 如 True。
float (浮點數), 如 1.23、3E-2
complex (復數), 如 1 + 2j、 1.1 + 2.2j
7.字元串:
python中單引號和雙引號使用完全相同。
使用三引號('''或""")可以指定一個多行字元串。
轉義符 '\'
反斜杠可以用來轉義,使用r可以讓反斜杠不發生轉義。。 如 r"this is a line with \n" 則\n會顯示,並不是換行。
按字面意義級聯字元串,如"this " "is " "string"會被自動轉換為this is string。
字元串可以用 + 運算符連接在一起,用 * 運算符重復。
Python 中的字元串有兩種索引方式,從左往右以 0 開始,從右往左以 -1 開始。
Python中的字元串不能改變。
Python 沒有單獨的字元類型,一個字元就是長度為 1 的字元串。
字元串的截取的語法格式如下:變數[頭下標:尾下標:步長]
代碼示例:
#!/usr/bin/python3
str='Runoob'
print(str) # 輸出字元串
print(str[0:-1]) # 輸出第一個到倒數第二個的所有字元
print(str[0]) # 輸出字元串第一個字元
print(str[2:5]) # 輸出從第三個開始到第五個的字元
print(str[2:]) # 輸出從第三個開始後的所有字元
print(str * 2) # 輸出字元串兩次
print(str + '你好') # 連接字元串
print('hello\nrunoob') # 使用反斜杠(\)+n轉義特殊字元
print(r'hello\nrunoob') # 在字元串前面添加一個 r,表示原始字元串,不會發生轉義
8.空行:
函數之間或類的方法之間用空行分隔,表示一段新的代碼的開始。類和函數入口之間也用一行空行分隔,以突出函數入口的開始。
空行與代碼縮進不同,空行並不是Python語法的一部分。書寫時不插入空行,Python解釋器運行也不會出錯。但是空行的作用在於分隔兩段不同功能或含義的代碼,便於日後代碼的維護或重構。
記住:空行也是程序代碼的一部分。
9.等待用戶輸入input:
執行下面的程序在按回車鍵後就會等待用戶輸入:
input("\n\n按下 enter 鍵後退出。")
以上代碼中 ,"\n\n"在結果輸出前會輸出兩個新的空行。一旦用戶按下 enter 鍵時,程序將退出。
10.同一行顯示多條語句:
Python可以在同一行中使用多條語句,語句之間使用分號(;)分割,以下是一個簡單的實例:
import sys; x = 'runoob'; sys.stdout.write(x + '\n')
11.代碼組:
縮進相同的一組語句構成一個代碼塊,我們稱之代碼組。
像if、while、def和class這樣的復合語句,首行以關鍵字開始,以冒號( : )結束,該行之後的一行或多行代碼構成代碼組。
我們將首行及後面的代碼組稱為一個子句(clause)。
12.Print輸出:
Print 輸出
print 默認輸出是換行的,如果要實現不換行需要在變數末尾加上 end="":
代碼:
x="a"
y="b"
# 換行輸出
print( x )
print( y )
# 不換行輸出
print( x, end=" " )
print( y, end=" " )
13.import 與 from...import
在 python 用 import 或者 from...import 來導入相應的模塊。
將整個模塊(somemole)導入,格式為: import somemole
從某個模塊中導入某個函數,格式為: from somemole import somefunction
從某個模塊中導入多個函數,格式為: from somemole import firstfunc, secondfunc, thirdfunc
將某個模塊中的全部函數導入,格式為: from somemole import *
代碼:
導入 sys 模塊
import sys
print ('命令行參數為:')
for i in sys.argv:
print (i)
print ('\n python 路徑為',sys.path)
導入 sys 模塊的 argv,path 成員
from sys import argv,path # 導入特定的成員
print('path:',path) # 因為已經導入path成員,所以此處引用時不需要加sys.path
14.命令行參數:
很多程序可以執行一些操作來查看一些基本信息,Python可以使用-h參數查看各參數幫助信息:
代碼:
$ python -h
usage: python [option] ... [-c cmd | -m mod | file | -] [arg] ...
Options and arguments (and corresponding environment variables):
-c cmd : program passed in as string (terminates option list)
-d : debug output from parser (also PYTHONDEBUG=x)
-E : ignore environment variables (such as PYTHONPATH)
-h : print this help message and exit
[ etc. ]
15.一個有用的函數:help( )
調用 python 的 help() 函數可以列印輸出一個函數的文檔字元串:
# 如下實例,查看 max 內置函數的參數列表和規范的文檔
>>> help(max)
……顯示幫助信息…… 按下 : q 兩個按鍵即退出說明文檔
如果僅僅想得到文檔字元串:
>>> print(max.__doc__) # 注意,doc的前後分別是兩個下劃線
max(iterable, *[, default=obj, key=func]) -> value
max(arg1, arg2, *args, *[, key=func]) -> value
With a single iterable argument, return its biggest item. The
default keyword-only argument specifies an object to return if
the provided iterable is empty.
With two or more arguments, return the largest argument.
Ⅷ 計算機中什麼是復合語句
復合語句是包含其它語句(語句組)的語句;
1.它們會以某種方式影響或控制所包含其它語句的執行。 通常,復合語句會跨越多行,雖然在某些簡單形式下整個復合語句也可能包含於一行之內。
2.if, while 和 for 語句用來實現傳統的控制流程構造。 try 語句為一組語句指定異常處理和/和清理代碼,而 with 語句允許在一個代碼塊周圍執行初始化和終結化代碼。 函數和類定義在語法上也屬於復合語句。
3.一條復合語句由一個或多個『子句』組成。 一個子句則包含一個句頭和一個『句體』。 特定復合語句的子句頭都處於相同的縮進層級。 每個子句頭以一個作為唯一標識的關鍵字開始並以一個冒號結束。 子句體是由一個子句控制的一組語句。 子句體可以是在子句頭的冒號之後與其同處一行的一條或由分號分隔的多條簡單語句,或者也可以是在其之後縮進的一行或多行語句。 只有後一種形式的子句體才能包含嵌套的復合語句;以下形式是不合法的,這主要是因為無法分清某個後續的 else 子句應該屬於哪個 if 子句
4.請注意語句總是以 NEWLINE 結束,之後可能跟隨一個 DEDENT。 還要注意可選的後續子句總是以一個不能作為語句開頭的關鍵字作為開頭,因此不會產生歧義(『懸空的 else』問題在 Python 中是通過要求嵌套的 if 語句必須縮進來解決的)。
為了保證清晰,以下各節中語法規則採用將每個子句都放在單獨行中的格式。
5.條復合語句由一個或多個『子句』組成。 一個子句則包含一個句頭和一個『句體』。 特定復合語句的子句頭都處於相同的縮進層級。 每個子句頭以一個作為唯一標識的關鍵字開始並以一個冒號結束。 子句體是由一個子句控制的一組語句。 子句體可以是在子句頭的冒號之後與其同處一行的一條或由分號分隔的多條簡單語句,或者也可以是在其之後縮進的一行或多行語句。 只有後一種形式的子句體才能包含嵌套的復合語句;以下形式是不合法的
6.復合語句是包含其它語句(語句組)的語句;它們會以某種方式影響或控制所包含其它語句的執行。 通常,復合語句會跨越多行,雖然在某些簡單形式下整個復合語句也可能包含於一行之內。
7.if, while 和 for 語句用來實現傳統的控制流程構造。 try 語句為一組語句指定異常處理和/和清理代碼,而 with 語句允許在一個代碼塊周圍執行初始化和終結化代碼。 函數和類定義在語法上也屬於復合語句。
8.一條復合語句由一個或多個『子句』組成。 一個子句則包含一個句頭和一個『句體』。 特定復合語句的子句頭都處於相同的縮進層級。 每個子句頭以一個作為唯一標識的關鍵字開始並以一個冒號結束。 子句體是由一個子句控制的一組語句。 子句體可以是在子句頭的冒號之後與其同處一行的一條或由分號分隔的多條簡單語句,或者也可以是在其之後縮進的一行或多行語句。 只有後一種形式的子句體才能包含嵌套的復合語句;以下形式是不合法的,這主要是因為無法分清某個後續的 else 子句應該屬於哪個 if 子句
9.請注意語句總是以 NEWLINE 結束,之後可能跟隨一個 DEDENT。 還要注意可選的後續子句總是以一個不能作為語句開頭的關鍵字作為開頭,因此不會產生歧義(『懸空的 else』問題在 Python 中是通過要求嵌套的 if 語句必須縮進來解決的)。
為了保證清晰,以下各節中語法規則採用將每個子句都放在單獨行中的格式。
10
Ⅸ python交互模式中一行只能寫一條語句嗎
不是。
Python??交互模式有以下幾個注意點:??
1.??只能夠輸入Python命令,在Python交互模式下輸入Python代碼,而不要輸入系統的命令。
2.??在交互模式下列印語句不是必須的??在交互模式下不需要輸入完整的列印語句,解釋器自動列印表達式的結果,但是在文件中則需要寫print??語句來列印結果。
3.??提示符的變換和復合語句,當在交互模式下輸入兩行或多行的復合語句時,提示符會由>??變成??;如果要結束復合語句的輸入並執行它,那麼必須按下Enter鍵兩次,復合語句才會被執行。
4.??交互提示模式一次運行一條語句,當你想測試某一條命令的時候,交互模式是一個很好的測試方法,輸入然後回車即可看到執行結果,非常方便,當然對於復合語句來說,只要最後按兩次Enter鍵即可運行代碼,看到執行結果。
Ⅹ Python怎樣使用解釋器
大學里計算機科學最吸引我的地方就是編譯器。最神奇的是,編譯器是如何讀出我寫的那些爛代碼,並且還能生成那麼復雜的程序。當我終於選了一門編譯方面的課程時,我發現這個過程比我想的要簡單得多。
在本系列的文章中,我會試著通過為一種基本命令語言IMP寫一個解釋器,來展示這種簡易性。因為IMP是一個簡單廣為人知的語言,所以打算用 Python寫這個解釋器。Python代碼看起來很像偽代碼,所以即使你不認識 Python,你也能理解它。解析可以通過一套從頭開始實現的解析器組合完成(在本系列的下一篇文章中會有解釋)。除了sys(用於I/O)、re(用於解析正則表達式)以及unittest(用於確保一切工作正常)庫,沒有使用其他額外的庫。
IMP 語言
在開始寫之前,我們先來討論一下將要解釋的語言。IMP是擁有下面結構的最小命令語言:
賦值語句(所有變數都是全局的,而且只能存儲整數):
Python
1
x := 1
條件語句:
Python
1
2
3
4
5
if x = 1 then
y := 2
else
y := 3
end
while循環:
Python
1
2
3
while x < 10 do
x := x + 1
end
復合語句(分號分隔):
Python
1
2
x := 1;
y := 2
OK,所以它只是一門工具語言,但你可以很容易就把它擴展成比Lua或python更有用的語言。我希望能把這份教程能保持盡量簡單。
下面這個例子是計算階乘的程序:
Python
1
2
3
4
5
6
n := 5;
p := 1;
while n > 0 do
p := p * n;
n := n - 1
end
IMP沒有讀取輸入的方式,所以初始狀態必須是在程序最開始寫一系列的賦值語句。也沒有列印結果的方式,所以解釋器必須在程序的結尾列印所有變數的值。
解釋器的結構
解釋器的核心是「中間表示」(Intermediate representation,IR)。這就是如何在內存中表示IMP程序。因為IMP是一個很簡單的語言,中間表示將直接對應於語言的語法;每一種表達和語句都有對應的類。在一種更復雜的語言中,你不僅需要一個「語法表示」,還需要一個更容易分析或運行的「語義表示」。
解釋器將會執行三個階段:
將源碼中的字元分割成標記符(token)
將標記符組織成一棵抽象語法樹(AST)。抽象語法樹就是中間表示。
評估這棵抽象語法樹,並在最後列印這棵樹的狀態
將字元串分割成標記符的過程叫做「詞法分析」,通過一個詞法分析器完成。關鍵字是很短,易於理解的字元串,包含程序中最基本的部分,如數字、標識符、關鍵字和操作符。詞法分析器會除去空格和注釋,因為它們都會被解釋器忽略。
實際執行這個解析過的抽象語法樹的過程稱為評估。這實際上是這個解析器中最簡單的部分了。
本文會把重點放在詞法分析器上。我們將編寫一個通用的詞彙庫,然後用它來為IMP創建一個詞法分析器。下一篇文章將會重點打造一個語法分析器和評估計算器。
詞彙庫
詞法分析器的操作相當簡單。它是基於正則表達式的,所以如果你不熟悉它們,你可能需要讀一些資料。簡單來說,正則表達式就是一種能描述其他字元串的特殊的格式化的字元串。你可以使用它們去匹配電話號碼或是郵箱地址,或者是像我們遇到在這種情況,不同類型的標記符。
詞法分析器的輸入可能只是一個字元串。簡單起見,我們將整個輸入文件都讀到內存中。輸出是一個標記符列表。每個標記符包括一個值(它代表的字元串)和一個標記(表示它是一個什麼類型的標記符)。語法分析器會使用這兩個數據來決定如何構建一棵抽象語法樹。
由於不論何種語言的詞法分析器,其操作都大同小異,我們將創建一個通用的詞法分析器,包括一個正則表達式列表和對應的標簽(tag)。對每一個表達式,它都會檢查是否和當前位置的輸入文本匹配。如果匹配,匹配文本就會作為一個標記符被提取出來,並且被加上該正則表達式的標簽。如果該正則表達式沒有標簽,那麼這段文本將會被丟棄。這樣免得我們被諸如注釋和空格之類的垃圾字元干擾。如果沒有匹配的正則表達式,程序就要報錯並終止。這個過程會不斷循環直到沒有字元可匹配。
下面是一段來自詞彙庫的代碼:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import sys
import re
def lex(characters, token_exprs):
pos = 0
tokens = []
while pos < len(characters):
match = None
for token_expr in token_exprs:
pattern, tag = token_expr
regex = re.compile(pattern)
match = regex.match(characters, pos)
if match:
text = match.group(0)
if tag:
token = (text, tag)
tokens.append(token)
break
if not match:
sys.stderr.write('Illegal character: %sn' % characters[pos])
sys.exit(1)
else:
pos = match.end(0)
return tokens
注意,我們遍歷正則表達式的順序很重要。lex會遍歷所有的表達式,然後接受第一個匹配成功的表達式。這也就意味著,當使用詞法分析器時,我們應當首先考慮最具體的表達式(像那些匹配運算元(matching operator)和關鍵詞),其次才是比較一般的表達式(像標識符和數字)。
詞法分析器
給定上面的lex函數,為IMP定義一個詞法分析器就非常簡單了。首先我們要做的就是為標記符定義一系列的標簽。IMP只需要三個標簽。RESERVED表示一個保留字或操作符。INT表示一個文字整數。ID代表標識符。
Python
1
2
3
4
5
import lexer
RESERVED = 'RESERVED'
INT= 'INT'
ID = 'ID'
接下來定義詞法分析器將會用到的標記符表達式。前兩個表達式匹配空格和注釋。它們沒有標簽,所以 lex 會丟棄它們匹配到的所有字元。
Python
1
2
3
token_exprs = [
(r'[ nt]+',None),
(r'#[^n]*', None),
然後,只剩下所有的操作符和保留字了。記住,每個正則表達式前面的「r」表示這個字元串是「raw」;Python不會處理任何轉義字元。這使我們可以在字元串中包含進反斜線,正則表達式正是利用這一點來轉義操作符比如「+」和「*」。
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
(r':=', RESERVED),
(r'(',RESERVED),
(r')',RESERVED),
(r';', RESERVED),
(r'+',RESERVED),
(r'-', RESERVED),
(r'*',RESERVED),
(r'/', RESERVED),
(r'<=',RESERVED),
(r'<', RESERVED),
(r'>=',RESERVED),
(r'>', RESERVED),
(r'=', RESERVED),
(r'!=',RESERVED),
(r'and', RESERVED),
(r'or',RESERVED),
(r'not', RESERVED),
(r'if',RESERVED),
(r'then',RESERVED),
(r'else',RESERVED),
(r'while', RESERVED),
(r'do',RESERVED),
(r'end', RESERVED),
最後,輪到整數和標識符的表達式。要注意的是,標識符的正則表達式會匹配上面的所有的保留字,所以它一定要留到最後。
Python
1
2
3
(r'[0-9]+',INT),
(r'[A-Za-z][A-Za-z0-9_]*', ID),
]
既然正則表達式已經定義好了,我們還需要創建一個實際的lexer函數。
Python
1
2
def imp_lex(characters):
return lexer.lex(characters, token_exprs)
如果你對這部分感興趣,這里有一些驅動代碼可以測試輸出:
Python
1
2
3
4
5
6
7
8
9
10
11
import sys
from imp_lexer import *
if __name__ == '__main__':
filename = sys.argv[1]
file = open(filename)
characters = file.read()
file.close()
tokens = imp_lex(characters)
for token in tokens:
print token
繼續……
在本系列的下一篇文章中,我會討論解析器組合,然後描述如何使用他們從lexer中生成的標記符列表建立抽象語法樹。
如果你對於實現IMP解釋器很感興趣,你可以從這里下載全部的源碼。
在源碼包含的示例文件中運行解釋器:
Python
1
python imp.py hello.imp
運行單元測試:
Python
1
python test.py