編譯器語法定義_什麼是編譯器

㈠什麼是編譯器

編譯器

編譯器是一種特殊的程序，它可以把以特定編程語言寫成的程序變為機器可以運行的機器碼。我們把一個程序寫好，這時我們利用的環境是文本編輯器。這時我程序把程序稱為源程序。在此以後程序員可以運行相應的編譯器，通過指定需要編譯的文件的名稱就可以把相應的源文件（通過一個復雜的過程）轉化為機器碼了。

[編輯]編譯器工作方法
首先編譯器進行語法分析，也就是要把那些字元串分離出來。然後進行語義分析，就是把各個由語法分析分析出的語法單元的意義搞清楚。最後生成的是目標文件，我們也稱為obj文件。再經過鏈接器的鏈接就可以生成最後的可執行代碼了。有些時候我們需要把多個文件產生的目標文件進行鏈接，產生最後的代碼。我們把一過程稱為交叉鏈接。

一個現代編譯器的主要工作流程如下：

* 源程序（source code）→預處理器（preprocessor）→編譯器（compiler）→匯編程序（assembler）→目標程序（object code）→連接器（鏈接器，Linker）→可執行程序（executables）

工作原理

編譯是從源代碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低級語言或機器言）。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。

典型的編譯器輸出是由包含入口點的名字和地址以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的可執行程序。

編譯器種類

編譯器可以生成用來在與編譯器本身所在的計算機和操作系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做「本地」編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高級語言作為輸入，輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）

作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端（frontend）

前端主要負責解析（parse）輸入的源程序，由詞法分析器和語法分析器協同工作。詞法分析器負責把源程序中的『單詞』（Token）找出來,語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c;」前端詞法分析器看到的是「a, =, b , +, c;」，語法分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步優化，處理。

編譯器後端（backend）

編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，優化，變型都可以分成兩大類：函數內（intraproceral）還是函數之間（interproceral）進行。很明顯，函數間的分析，優化更准確，但需要更長的時間來完成。

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源程序的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源程序的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等等。

上述的程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標准化循環結構（loop normalization），循環體展開（loop unrolling），循環體合並，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目的是減少代碼的長度，提高內存（memory），緩存（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，優化，變形的工作。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合並幾句代碼成一句等等。

㈡編譯器的工作分為哪幾個階段

編譯器就是一個普通程序，沒什麼大不了的
什麼是編譯器？

編譯器是一個將高級語言翻譯為低級語言的程序。

首先我們一定要意識到編譯器就是一個普通程序，沒什麼大不了的。

在沒有弄明白編譯器如何工作之前你可以簡單的把編譯器當做一個黑盒子，其作用就是輸入一個文本文件輸出一個二進制文件。

基本上編譯器經過了以下幾個階段，等等，這句話教科書上也有，但是我相信很多同學其實並沒有真正理解這幾個步驟到底在說些什麼，為了讓你徹底理解這幾個步驟，我們用一個簡單的例子來講解。

假定我們有一段程序：

while (y < z) {
int x = a + b;
y += x;
}
那麼編譯器是怎樣把這一段程序人類認識的程序轉換為CPU認識的二進制機器指令呢？

提取出每一個單詞：詞法分析
首先編譯器要把源代碼中的每個「單詞」提取出來，在編譯技術中「單詞」被稱為token。其實不只是每個單詞被稱為一個token，除去單詞之外的比如左括弧、右括弧、賦值操作符等都被稱為token。

從源代碼中提取出token的過程就被稱為詞法分析，Lexical Analysis。

經過一遍詞法分析，編譯器得到了以下token：

T_While while
T_LeftParen （
T_Identifier y
T_Less <
T_Identifier z
T_RightParen )
T_OpenBrace {
T_Int int
T_Identifier x
T_Assign =
T_Identifier a
T_Plus +
T_Identifier b
T_Semicolon ;
T_Identifier y
T_PlusAssign +=
T_Identifier x
T_Semicolon ;
T_CloseBrace }
就這樣一個磁碟中保存的字元串源代碼文件就轉換為了一個個的token。

這些token想表達什麼意思：語法分析
有了這些token之後編譯器就可以根據語言定義的語法恢復其原本的結構，怎麼恢復呢？

原來，編譯器在掃描出各個token後根據規則將其用樹的形式表示出來，這顆樹就被稱為語法樹。

語法樹是不是合理的：語義分析
有了語法樹後我們還要檢查這棵樹是不是合法的，比如我們不能把一個整數和一個字元串相加、比較符左右兩邊的數據類型要相同，等等。

這一步通過後就證明了程序合法，不會有編譯錯誤。

㈢什麼是編譯

編譯(compilation , compile) 1、利用編譯程序從源語言編寫的源程序產生目標程序的過程。 2、用編譯程序產生目標程序的動作。編譯就是把高級語言變成計算機可以識別的2進制語言，計算機只認識1和0，編譯程序把人們熟悉的語言換成2進制的。編譯程序把一個源程序翻譯成目標程序的工作過程分為五個階段：詞法分析；語法分析；語義檢查和中間代碼生成；代碼優化；目標代碼生成。主要是進行詞法分析和語法分析，又稱為源程序分析，分析過程中發現有語法錯誤，給出提示信息。
編譯語言是一種以編譯器來實現的編程語言。它不像直譯語言一樣，由解釋器將代碼一句一句運行，而是以編譯器，先將代碼編譯為機器碼，再加以運行。理論上，任何編程語言都可以是編譯式，或直譯式的。它們之間的區別，僅與程序的應用有關。

㈣ c++中什麼是語法錯誤，什麼是編譯錯誤

程序的錯誤主要分成三種：

編譯鏈接錯誤；
編譯鏈接錯誤又分成編譯錯和鏈接錯。
編譯錯就是普通意義上的語法錯，編譯器進行語法檢查不通過，也就是程序違背了計算機語言的語法，例如：括弧不匹配、變數名拼寫錯誤、用保留字定義變數名等；
鏈接錯是指程序通過了語法檢查，但是無法生成可執行文件，最常見的是鏈接找不到lib庫。初學者有時寫了函數的聲明，但是缺少函數的定義，此時就會出現鏈接錯。
運行錯誤；
運行錯是程序可以執行，但是在執行過程中發生異常，提前退出程序。最常見的是指針越界，打開文件失敗繼續讀取文件，總而言之是讓計算機執行一些不能執行的語句。
邏輯錯誤
邏輯錯是程序也能運行，就是結果不對，主要原因有：程序演算法本身錯誤，程序和演算法不同義等。
例如：新手經常將判斷相等的==寫成=賦值，往往就會導致邏輯錯。

你的BD(int,int); 是一句函數調用？還是一句函數聲明？

㈤編譯器筆記22-語法制導翻譯-S與L屬性定義

僅僅使用綜合屬性的SDD稱為S屬性的SDD，或S-屬性定義、S-SDD。

如果一個SDD是S屬性的，可以按照語法分析樹節點的任何自底向上順序來計算它的各個屬性值。

S-屬性定義可以在自底向上的語法分析過程中實現。

L-屬性定義(也稱為L屬性的SDD或L-SDD)的直觀含義：在一個產生式所關聯的各屬性之間，依賴圖的邊的直觀含義：在一個產生式所關聯的各屬性之間，依賴圖的邊可以從左到右，但不能從右到左(因此稱為L屬性的，L是Left的首字母)。

每個S-屬性定義都是L-屬性定義

問: 子節點Xi為什麼不能依賴父節點A的綜合屬性，而只能依賴父節點的綜合屬性？
答: 這是因為父節點的綜合屬性可以依賴於子節點的綜合屬性當然也包括子節點的繼承屬性（上圖兩橙色箭頭）；若子節點的繼承屬性再依賴於父節點的綜合屬性就會造成循環依賴（如上圖）；因此子節點的繼承屬性只能依賴於父節點的繼承屬性而不能依賴於綜合屬性。

問: Xi的繼承屬性為什麼只能依賴於其左邊的符號的屬性。
答: 其實理由跟第一條一樣都是為了避免循環依賴的形成，如果Xi可以同時依賴其左右兩側符號的屬性，則會形成循環依賴。假如存在X1X2X3，若X3的屬性依賴左側的X2的屬性同時X2的屬性又可以依賴右側的X3屬性，則會形成循環依賴。

問: 上圖展示的SDD是不是LSDD？
答: L屬性定義對綜合屬性沒有限制，它只限制繼承屬性，因此此SDD是否為L-SDD取決於繼承屬性所依賴的屬性值。第一個T'.inh依賴的是它左邊兄弟的值，因此它不違反LSDD對繼承屬性的限制。第二個T'.inh依賴於其父親節點的繼承屬性和其兄弟節點的值，也不違反LSDD對繼承屬性的限制。所以此SDD是LSDD。

問: 上圖展示的SDD是不是LSDD？
答: Q的繼承屬性依賴了它有邊兄弟節點的綜合屬性，因此違法了LSDD的繼承屬性的限制。因此此SDD不是LSDD。

㈥編譯器的工作原理

編譯是從源代碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低級語言或機器語言）的翻譯過程。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。
典型的編譯器輸出是由包含入口點的名字和地址，以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的EXE,
所以我們電腦上的文件都是經過編譯後的文件。

㈦編譯器筆記13-語法分析-LR分析法概述

可以用LR分析法分析的文法可以稱為LR分析法。LR文法（ Knuth ，1963）是最大的、可以構造出相應移入- 歸約語法分析器的文法類。

LR(k)分析，需要向前查看k個輸入符號的LR分析，k=0 和 k=1 這兩種情況具有實踐意義，當省略(k)時，表示k=1。而在LR(k)這樣的名稱中，k代表的是分析時所需前瞻符號（lookahead symbol）的數量，也就是除了當前處理到的輸入符號之外，還得再向右引用幾個符號之意；省略（k）時即視為LR(1)，而非LR(0)。

作為對比這里列出LL(1)文法的含義：

問：自底向上分析的關鍵問題是什麼？
答：如何正確地識別句柄，句柄是逐步形成的，用「狀態」表示句柄識別的進展程度。例如在自底向上分析概述中所提及到句柄識別錯誤的例子，通過狀態跟下一個輸入符號就可以判斷出應該做出哪一個動作，而狀態相當於一種記憶功能記錄當前句柄識別到什麼程度。

與移入分析器不同的是LR分析器多了一個與符號棧平行的狀態棧。

之後的分析過程與上圖類似，直至到如下狀態，分析成功。可見分析時進行什麼動作是由棧狀態棧棧頂的狀態和下一個輸入符號決定。

輸入：串w和LR語法分析表，該表描述了文法G的ACTION函數和GOTO函數。
輸出：如果w在L(G)中，則輸出w的自底向上語法分析過程中的歸約步驟；否則給出一個錯誤指示。
方法：初始時，語法分析器棧中的內容為初始狀態s0 ，輸入緩沖區中的內容為w$。然後，語法分析器執行下面的程序：

先了解LR(0)項目和增廣文法這兩個概念

右部某位置標有圓點的產生式稱為相應文法的一個LR(0)項目（簡稱為項目）：A → α1·α2

文法開始符號S表示的是語言中的最大成分。如下圖當b出現時可以將它移入到分析棧中。b移進棧後我們期待歸約出B。當歸約出B時我們還期待再歸約一個B。

如果G是一個以S為開始符號的文法，則G的增廣文法G'就是在G中加上新開始符號S'和產生式S'→S而得到的文法

引入這個新的開始產生式的目的是使得文法開始符號僅出現在一個產生式的左邊，從而使得分析器只有一個接受狀態。

項目可以分為以下幾類：

上圖中S'對應的第一個項目稱為初始項目，而S'對應的最後一個項目稱之為接收項目在此狀態下文法的開始符號已經被歸約出來，因此可以接收了故稱為接收項目。紅色方框中的項目則被稱為歸約項目。

項目集閉包(Closure of Item Sets)

可以把等價的項目組成一個項目集(I)，稱為項目集閉包，每個項目集閉包對應著自動機的一個狀態。

先了解CLOSURE和GOTO這兩個函數

項目集I的閉包的數學定義：

返回項目集I對應於文法符號X的後繼項目集閉包

規范LR(0)項集族(Canonical LR(0) Collection)

說明： 該自動機的初始狀態就是文法的初始項目的項目集閉包，其終止狀態集合只有一個狀態就是文法的接收項目的項目集閉包。

如果LR(0)分析表中沒有語法分析動作沖突，那麼給定的文法就稱為LR(0)。不是所有CFG都能用LR(0)方法進行分析，也就是說，CFG不總是LR(0)文法。

為了解決移進/歸約沖突和歸約/歸約沖突需要使用到 SLR分析法和 LR(1)分析法。

問: 為什麼沒有移進/移進沖突？
答: 首先只有在移進狀態和待約狀態下的項目才會有使用到移進操作。在0狀態時所有項目都是移進狀態根據LL文法顯然不會產生移進/移進操作，因為每個產生式左部的SELECT集是沒有交集的。而在其他具有待約狀態項目的狀態中，所有集合都是等價的。假若在某狀態下輸入終結符y時發生移進/移進沖突，即存在兩個這樣的項目A0→α0·yβ0，A1→α1·yβ1，但顯然這兩個項目是不等價的顯然與同一狀態下所有項目等價相矛盾，因此這種移進/移進沖突是不存在的。假若在某狀態下輸入非終結符X時發生移進/移進沖突，即存在兩個這樣的項目A0→α0·Xβ0，A1→α1·Xβ1，而A0與A1在同一狀態下是等價的則兩項目要麼是A0→α0·Xβ0與X→.Xβ1(原項目A1變為X，α1變為ε)要麼是A1→α1·Xβ1與X→.Xβ0(原項目A0變為X，α0變為ε)。顯然X→Xβ0|Xβ1（左遞歸）是不符合LL文法的因此這種情況也是不可能出現。

綜上移進/移進沖突在LR分析下是不存在的。

㈧請問編程語法規則，是不是根據不同編譯器來定的

不，一個語言的語法是早就確定好的，它有一個統一標准——例如 ANSI C。
不同編譯器可能有些許不同，比如有的編譯器a=b=c結果很可能不一樣（所以我們很少這么用
但是大體上，一個語言的編譯器得出的結果是一樣的，是根據語法規則做出編譯器而非編譯器確定語法規則。
zhengshu a=0，編譯器肯定不認，理由是沒有這個type；但是你可以通過typedef自定義任意的類型。

int是一種type，而type varlist;是聲明變數的語法（int a; char b;）

你寫了int a=0;那麼這時編譯器做的就是在內存中開出一個能存int數據的空間，然後把0給填進去，再記錄下這塊內存的地址，並記住這個地址叫做a。至於分析代碼什麼的，就是編譯器的事情了。

——以上。

㈨「編譯」與「編譯器」是什麼意思

編譯是動詞
編譯器是名詞
編譯(compilation , compile)
1、利用編譯程序從源語言編寫的源程序產生目標程序的過程。
2、用編譯程序產生目標程序的動作。

編譯就是把高級語言變成計算機可以識別的2進制語言，計算機只認識1和0，編譯程序把人們熟悉的語言換成2進制的。
編譯程序把一個源程序翻譯成目標程序的工作過程分為五個階段：詞法分析；語法分析；中間代碼生成；代碼優化；目標代碼生成。主要是進行詞法分析和語法分析，又稱為源程序分析，分析過程中發現有語法錯誤，給出提示信息。
（1）詞法分析
詞法分析的任務是對由字元組成的單詞進行處理，從左至右逐個字元地對源程序進行掃描，產生一個個的單詞符號，把作為字元串的源程序改造成為單詞符號串的中間程序。執行詞法分析的程序稱為詞法分析程序或掃描器。
源程序中的單詞符號經掃描器分析，一般產生二元式：單詞種別；單詞自身的值。單詞種別通常用整數編碼，如果一個種別只含一個單詞符號，那麼對這個單詞符號，種別編碼就完全代表它自身的值了。若一個種別含有許多個單詞符號，那麼，對於它的每個單詞符號，除了給出種別編碼以外，還應給出自身的值。
詞法分析器一般來說有兩種方法構造：手工構造和自動生成。手工構造可使用狀態圖進行工作，自動生成使用確定的有限自動機來實現。
（2）語法分析
編譯程序的語法分析器以單詞符號作為輸入，分析單詞符號串是否形成符合語法規則的語法單位，如表達式、賦值、循環等，最後看是否構成一個符合要求的程序，按該語言使用的語法規則分析檢查每條語句是否有正確的邏輯結構，程序是最終的一個語法單位。編譯程序的語法規則可用上下文無關文法來刻畫。
語法分析的方法分為兩種：自上而下分析法和自下而上分析法。自上而下就是從文法的開始符號出發，向下推導，推出句子。而自下而上分析法採用的是移進歸約法，基本思想是：用一個寄存符號的先進後出棧，把輸入符號一個一個地移進棧里，當棧頂形成某個產生式的一個候選式時，即把棧頂的這一部分歸約成該產生式的左鄰符號。
（3）中間代碼生成
中間代碼是源程序的一種內部表示，或稱中間語言。中間代碼的作用是可使編譯程序的結構在邏輯上更為簡單明確，特別是可使目標代碼的優化比較容易實現。中間代碼即為中間語言程序，中間語言的復雜性介於源程序語言和機器語言之間。中間語言有多種形式，常見的有逆波蘭記號、四元式、三元式和樹。
（4）代碼優化
代碼優化是指對程序進行多種等價變換，使得從變換後的程序出發，能生成更有效的目標代碼。所謂等價，是指不改變程序的運行結果。所謂有效，主要指目標代碼運行時間較短，以及佔用的存儲空間較小。這種變換稱為優化。
有兩類優化：一類是對語法分析後的中間代碼進行優化，它不依賴於具體的計算機；另一類是在生成目標代碼時進行的，它在很大程度上依賴於具體的計算機。對於前一類優化，根據它所涉及的程序范圍可分為局部優化、循環優化和全局優化三個不同的級別。
（5）目標代碼生成
目標代碼生成是編譯的最後一個階段。目標代碼生成器把語法分析後或優化後的中間代碼變換成目標代碼。目標代碼有三種形式：
① 可以立即執行的機器語言代碼，所有地址都重定位；
② 待裝配的機器語言模塊，當需要執行時，由連接裝入程序把它們和某些運行程序連接起來，轉換成能執行的機器語言代碼；
③ 匯編語言代碼，須經過匯編程序匯編後，成為可執行的機器語言代碼。
目標代碼生成階段應考慮直接影響到目標代碼速度的三個問題：一是如何生成較短的目標代碼；二是如何充分利用計算機中的寄存器，減少目標代碼訪問存儲單元的次數；三是如何充分利用計算機指令系統的特點，以提高目標代碼的質量。
編譯器，是將便於人編寫，閱讀，維護的高級計算機語言翻譯為計算機能解讀、運行的低階機器語言的程序。編譯器將原始程序（Source program）作為輸入，翻譯產生使用目標語言（Target language）的等價程序。源代碼一般為高階語言 (High-level language), 如 Pascal、C++、java 等，而目標語言則是匯編語言或目標機器的目標代碼（Object code），有時也稱作機器代碼（Machine code）。
一個現代編譯器的主要工作流程如下：
源代碼 (source code) → 預處理器 (preprocessor) → 編譯器 (compiler) → 匯編程序 (assembler) → 目標代碼 (object code) → 連接器 (Linker) → 可執行程序 (executables)

工作原理
[編輯本段]

編譯是從源代碼（通常為高階語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低階語言或機器語言）的翻譯過程。然而，也存在從低階語言到高階語言的編譯器，這類編譯器中用來從由高階語言生成的低階語言代碼重新生成高階語言代碼的又被叫做反編譯器。也有從一種高階語言生成另一種高階語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。
典型的編譯器輸出是由包含入口點的名字和地址, 以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的可執行程序。

編譯器種類
[編輯本段]

編譯器可以生成用來在與編譯器本身所在的計算機和操作系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做「本地」編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高階語言作為輸入，輸出也是高階語言的編譯器。例如: 自動並行化編譯器經常採用一種高階語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）

作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端（frontend）

前端主要負責解析（parse）輸入的源代碼，由語法分析器和語意分析器協同工作。語法分析器負責把源代碼中的『單詞』（Token）找出來,語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c;」前端語法分析器看到的是「a, =, b , +, c;」，語意分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步優化，處理。

編譯器後端（backend）

編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，優化，變型都可以分成兩大類：函數內（intraproceral）還是函數之間（interproceral）進行。很明顯，函數間的分析，優化更准確，但需要更長的時間來完成。

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源代碼的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源代碼的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等等。

上述的程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標准化循環結構（loop normalization），循環體展開（loop unrolling），循環體合並，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目標是減少代碼的長度，提高內存（memory），緩存（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，優化，變形的工作。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合並幾句代碼成一句等等。

編譯語言與直譯語言對比
[編輯本段]

許多人將高階程序語言分為兩類: 編譯型語言和直譯型語言。然而，實際上，這些語言中的大多數既可用編譯型實現也可用直譯型實現，分類實際上反映的是那種語言常見的實現方式。（但是，某些直譯型語言，很難用編譯型實現。比如那些允許在線代碼更改的直譯型語言。）

歷史
[編輯本段]

上世紀50年代，IBM的John Backus帶領一個研究小組對FORTRAN語言及其編譯器進行開發。但由於當時人們對編譯理論了解不多，開發工作變得既復雜又艱苦。與此同時，Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單，甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識別它們所需要的演算法來對語言分類。正如現在所稱的Chomsky架構（Chomsky Hierarchy），它包括了文法的四個層次：0型文法、1型文法、2型文法和3型文法，且其中的每一個都是其前者的特殊情況。2型文法（或上下文無關文法）被證明是程序設計語言中最有用的，而且今天它已代表著程序設計語言結構的標准方式。分析問題（parsing problem，用於上下文無關文法識別的有效演算法）的研究是在60年代和70年代，它相當完善的解決了這個問題。現在它已是編譯原理中的一個標准部分。

有限狀態自動機（Finite Automaton）和正則表達式（Regular Expression）同上下文無關文法緊密相關，它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始，並且引出了表示程序設計語言的單詞的符號方式。

人們接著又深化了生成有效目標代碼的方法，這就是最初的編譯器，它們被一直使用至今。人們通常將其稱為優化技術（Optimization Technique），但因其從未真正地得到過被優化了的目標代碼而僅僅改進了它的有效性，因此實際上應稱作代碼改進技術（Code Improvement Technique）。

當分析問題變得好懂起來時，人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱為編譯器的編譯器（Compiler-compiler），但更確切地應稱為分析程序生成器（Parser Generator），這是因為它們僅僅能夠自動處理編譯的一部分。這些程序中最著名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年為Unix系統編寫的。類似的，有限狀態自動機的研究也發展了一種稱為掃描程序生成器（Scanner Generator）的工具，Lex（與Yacc同時，由Mike Lesk為Unix系統開發）是這其中的佼佼者。

在70年代後期和80年代早期，大量的項目都貫注於編譯器其它部分的生成自動化，這其中就包括了代碼生成。這些嘗試並未取得多少成功，這大概是因為操作太復雜而人們又對其不甚了解。

編譯器設計最近的發展包括：首先，編譯器包括了更加復雜演算法的應用程序它用於推斷或簡化程序中的信息；這又與更為復雜的程序設計語言的發展結合在一起。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一演算法。其次，編譯器已越來越成為基於窗口的交互開發環境（Interactive Development Environment，IDE）的一部分，它包括了編輯器、連接程序、調試程序以及項目管理程序。這樣的IDE標准並沒有多少，但是對標準的窗口環境進行開發已成為方向。另一方面，盡管近年來在編譯原理領域進行了大量的研究，但是基本的編譯器設計原理在近20年中都沒有多大的改變，它現在正迅速地成為計算機科學課程中的中心環節。

在九十年代，作為GNU項目或其它開放源代碼項目標一部分，許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的計算機程序語言。它們中的一些項目被認為是高質量的，而且對現代編譯理論感興趣的人可以很容易的得到它們的免費源代碼。

大約在1999年，SGI公布了他們的一個工業化的並行化優化編譯器Pro64的源代碼，後被全世界多個編譯器研究小組用來做研究平台，並命名為Open64。Open64的設計結構好，分析優化全面，是編譯器高級研究的理想平台。

㈩ jdk中的編譯器是什麼,解釋器是什麼

編譯器是指java程序運行時對java代碼進行語法檢查和代碼規范的一種機制，若不符合代碼規范和語法有錯誤編譯器將會報錯，代碼將無法運行。解釋器我很少聽說，是不是編譯器報錯的時候出現的錯誤提示？

導航:首頁 > 源碼編譯 > 編譯器語法定義

編譯器語法定義

與編譯器語法定義相關的資料