自然语言处理编译器_C语言和编译器的关系

⑴ 编译器的工作原理

编译是从源代码（通常为高级语言）到能直接被计算机或虚拟机执行的目标代码（通常为低级语言或机器语言）的翻译过程。然而，也存在从低级语言到高级语言的编译器，这类编译器中用来从由高级语言生成的低级语言代码重新生成高级语言代码的又被叫做反编译器。也有从一种高级语言生成另一种高级语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。
典型的编译器输出是由包含入口点的名字和地址，以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的EXE,
所以我们电脑上的文件都是经过编译后的文件。

⑵ 常用的编程语言及相应的软件开发工具有哪些

编程语言俗称“计算机语言”，种类非常的多，总的来说可以分成机器语言、汇编语言、高级语言三大类。电脑每做的一次动作，一个步骤，都是按照已经用计算机语言编好的程序来执行的，程序是计算机要执行的指令的集合，而程序全部都是用我们所掌握的语言来编写的。所以人们要控制计算机一定要通过计算机语言向计算机发出命令。其中简单的，可以分为低级语言和高级语言。
低级语言:是一种更接近计算机的语言（二进制语言），比如说汇编语言，效率高（速度快，完成同样功能需要的代码少），但不好学，不好编。
高级语言：更接近人类的自然语言（编译器），比如：
Fortran,Delphi,PowerBuilder,VB：比较过时
C,C++：运行效率高
asp,php：编写web程序，就是网站
vbscript,javascript,python:脚本语言
HTML：标记语言，用于编写网页
css:样式表语言，用于定义网页的样式风格
sql:用于操作数据库中的数据 bigdata 海量数据
J2EE(java),.Net(C#,VB.Net,J#,...Asp.Net) JAVA 2 Enterprise Edition Sun公司 1995，Microsoft 2002年，具有后发优势。
另外：
Android安卓开发(主要用Java语言)
IOS开发(用Objective C)

⑶ 编译器的历史

20世纪50年代，IBM的John Backus带领一个研究小组对FORTRAN语言及其编译器进行开发。但由于当时人们对编译理论了解不多，开发工作变得既复杂又艰苦。与此同时，Noam Chomsky开始了他对自然语言结构的研究。他的发现最终使得编译器的结构异常简单，甚至还带有了一些自动化。Chomsky的研究导致了根据语言文法的难易程度以及识别它们所需要的算法来对语言分类。正如Chomsky架构（Chomsky Hierarchy），它包括了文法的四个层次：0型文法、1型文法、2型文法和3型文法，且其中的每一个都是其前者的特殊情况。2型文法（或上下文无关文法）被证明是程序设计语言中最有用的，而且今天它已代表着程序设计语言结构的标准方式。分析问题（parsing problem，用于上下文无关文法识别的有效算法）的研究是在60年代和70年代，它相当完善的解决了这个问题。它已是编译原理中的一个标准部分。
有限状态自动机（Finite Automation）和正则表达式（Regular Expression）同上下文无关文法紧密相关，它们与Chomsky的3型文法相对应。对它们的研究与Chomsky的研究几乎同时开始，并且引出了表示程序设计语言的单词的符号方式。
人们接着又深化了生成有效目标代码的方法，这就是最初的编译器，它们被一直使用至今。人们通常将其称为优化技术（Optimization Technique），但因其从未真正地得到过被优化了的目标代码而仅仅改进了它的有效性，因此实际上应称作代码改进技术（Code Improvement Technique）。
当分析问题变得好懂起来时，人们就在开发程序上花费了很大的功夫来研究这一部分的编译器自动构造。这些程序最初被称为编译器的编译器（Compiler-compiler），但更确切地应称为分析程序生成器（Parser Generator），这是因为它们仅仅能够自动处理编译的一部分。这些程序中最着名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年为Unix系统编写的。类似的，有限状态自动机的研究也发展了一种称为扫描程序生成器（Scanner Generator）的工具，Lex（与Yacc同时，由Mike Lesk为Unix系统开发）是这其中的佼佼者。
在20世纪70年代后期和80年代早期，大量的项目都贯注于编译器其它部分的生成自动化，这其中就包括了代码生成。这些尝试并未取得多少成功，这大概是因为操作太复杂而人们又对其不甚了解。
编译器设计最近的发展包括：首先，编译器包括了更加复杂算法的应用程序它用于推断或简化程序中的信息；这又与更为复杂的程序设计语言的发展结合在一起。其中典型的有用于函数语言编译的Hindley-Milner类型检查的统一算法。其次，编译器已越来越成为基于窗口的交互开发环境（Interactive Development Environment，IDE）的一部分，它包括了编辑器、连接程序、调试程序以及项目管理程序。这样的IDE标准并没有多少，但是对标准的窗口环境进行开发已成为方向。另一方面，尽管在编译原理领域进行了大量的研究，但是基本的编译器设计原理在近20年中都没有多大的改变，它正迅速地成为计算机科学课程中的中心环节。
在20世纪90年代，作为GNU项目或其它开放源代码项目标一部分，许多免费编译器和编译器开发工具被开发出来。这些工具可用来编译所有的计算机程序语言。它们中的一些项目被认为是高质量的，而且对现代编译理论感兴趣的人可以很容易的得到它们的免费源代码。
大约在1999年，SGI公布了他们的一个工业化的并行化优化编译器Pro64的源代码，后被全世界多个编译器研究小组用来做研究平台，并命名为Open64。Open64的设计结构好，分析优化全面，是编译器高级研究的理想平台。
编译器相关专业术语: 1. compiler编译器；编译程序 2. on-line compiler 连线编译器 3. precompiler 预编译器 4. serial compiler 串行编译器 5. system-specific compiler 特殊系统编译器 6. Information Presentation Facility Compiler 信息展示设施编译器 7. Compiler Monitor System 编译器监视系统

⑷ C语言和编译器的关系

c语言，只是一个程序设计语言。不是理论，不是思想，不是体系结构。只是语言。
C语言的语法不一致并不是编译器导致的。而是语言自然发展导致的。编译器只是支持某种标准的c语言。
并且c语言现在也有标准了，ansi c。不同语法的问题可以不用关心。因为你基本上接触不到另外一种语法。而且越新的编译器，支持越好。

⑸ 用什么fortran编译器好啊专业要用这门语言，刚开始学。

这是每个游戏编程FAQ里都有的问题。这个问题每星期都会在游戏开发论坛上被问上好几次。这是个很好的问题，但是，没人能给出简单的答案。在某些应用程序中，总有一些计算机语言优于其他语言。下面是几种用于编写游戏的主要编程语言的介绍及其优缺点。希望这篇文章能帮助你做出决定。

1、C语言

如果说FORTRAN和COBOL是第一代高级编译语言，那么C语言就是它们的孙子辈。C语言是Dennis Ritchie在七十年代创建的，它功能更强大且与ALGOL保持更连续的继承性，而ALGOL则是COBOL和FORTRAN的结构化继承者。C语言被设计成一个比它的前辈更精巧、更简单的版本，它适于编写系统级的程序，比如操作系统。在此之前，操作系统是使用汇编语言编写的，而且不可移植。C语言是第一个使得系统级代码移植成为可能的编程语言。

C语言支持结构化编程，也就是说C的程序被编写成一些分离的函数呼叫（调用）的集合，这些呼叫是自上而下运行，而不像一个单独的集成块的代码使用GOTO语句控制流程。因此，C程序比起集成性的FORTRAN及COBOL的“空心粉式代码”代码要简单得多。事实上，C仍然具有GOTO语句，不过它的功能被限制了，仅当结构化方案非常复杂时才建议使用。

正由于它的系统编程根源，将C和汇编语言进行结合是相当容易的。函数调用接口非常简单，而且汇编语言指令还能内嵌到C代码中，所以，不需要连接独立的汇编模块。

优点：有益于编写小而快的程序。很容易与汇编语言结合。具有很高的标准化，因此其他平台上的各版本非常相似。

缺点：不容易支持面向对象技术。语法有时会非常难以理解，并造成滥用。

移植性：C语言的核心以及ANSI函数调用都具有移植性，但仅限于流程控制、内存管理和简单的文件处理。其他的东西都跟平台有关。比如说，为Windows和Mac开发可移植的程序，用户界面部分就需要用到与系统相关的函数调用。这一般意味着你必须写两次用户界面代码，不过还好有一些库可以减轻工作量。

用C语言编写的游戏：非常非常多。

资料：C语言的经典着作是《The C Programming Language》，它经过多次修改，已经扩展到最初的三倍大，但它仍然是介绍C的优秀书本。一本极好的教程是《The Waite Group's C Primer Plus》。

2、C++

C++语言是具有面向对象特性的C语言的继承者。面向对象编程，或称OOP是结构化编程的下一步。OO程序由对象组成，其中的对象是数据和函数离散集合。有许多可用的对象库存在，这使得编程简单得只需要将一些程序“建筑材料”堆在一起（至少理论上是这样）。比如说，有很多的GUI和数据库的库实现为对象的集合。

C++总是辩论的主题，尤其是在游戏开发论坛里。有几项C++的功能，比如虚拟函数，为函数呼叫的决策制定增加了一个额外层次，批评家很快指出C++程序将变得比相同功能的C程序来得大和慢。C++的拥护者则认为，用C写出与虚拟函数等价的代码同样会增加开支。这将是一个还在进行，而且不可能很快得出结论的争论。

我认为，C++的额外开支只是使用更好的语言的小付出。同样的争论发生在六十年代高级程序语言如COBOL和FORTRAN开始取代汇编成为语言所选的时候。批评家正确的指出使用高级语言编写的程序天生就比手写的汇编语言来得慢，而且必然如此。而高级语言支持者认为这么点小小的性能损失是值得的，因为COBOL和FORTRAN程序更容易编写和维护。

优点：组织大型程序时比C语言好得多。很好的支持面向对象机制。通用数据结构，如链表和可增长的阵列组成的库减轻了由于处理低层细节的负担。

缺点：非常大而复杂。与C语言一样存在语法滥用问题。比C慢。大多数编译器没有把整个语言正确的实现。

移植性：比C语言好多了，但依然不是很乐观。因为它具有与C语言相同的缺点，大多数可移植性用户界面库都使用C++对象实现。

使用C++编写的游戏：非常非常多。大多数的商业游戏是使用C或C++编写的。

资料：最新版的《The C++ Programming Language》非常好。作为教程，有两个阵营，一个假定你知道C，另外一个假定你不知道。到目前为止，最好的C++教程是《Who's Afraid of C++》，如果你已经熟知C，那么试一下《Teach Yourself C++》。

3、我该学习C++或是该从C开始

我不喜欢这种说法，但它是继“我该使用哪门语言”之后最经常被问及的问题。很不幸，不存在标准答案。你可以自学C并使用它来写程序，从而节省一大堆的时间，不过使用这种方法有两个弊端：

你将错过那些面向对象的知识，因为它可能在你的游戏中使得数据建模更有效率的东西。

最大的商业游戏，包括第一人称射击游戏很多并没有使用C++。但是，这些程序的作者即使使用老的C的格式，他们通常坚持使用面向对象编程技术。如果你只想学C，至少要自学OO（面向对象）编程技术。OO是仿真（游戏）的完美方法，如果你不学习OO，你将不得不“辛苦”的工作。

4、汇编语言

显然，汇编是第一个计算机语言。汇编语言实际上是你计算机处理器实际运行的指令的命令形式表示法。这意味着你将与处理器的底层打交道，比如寄存器和堆栈。如果你要找的是类英语且有相关的自我说明的语言，这不是你想要的。

确切的说，任何你能在其他语言里做到的事情，汇编都能做，只是不那么简单 — 这是当然，就像说你既可以开车到某个地方，也可以走路去，只是难易之分。话虽不错，但是新技术让东西变得更易于使用。

总的来说，汇编语言不会在游戏中单独应用。游戏使用汇编主要是使用它那些能提高性能的零零碎碎的部分。比如说，毁灭战士整体使用C来编写，有几段绘图程序使用汇编。这些程序每秒钟要调用数千次，因此，尽可能的简洁将有助于提高游戏的性能。而从C里调用汇编写的函数是相当简单的，因此同时使用两种语言不成问题。

特别注意：语言的名字叫“汇编”。把汇编语言翻译成真实的机器码的工具叫“汇编程序”。把这门语言叫做“汇编程序”这种用词不当相当普遍，因此，请从这门语言的正确称呼作为起点出发。

优点：最小、最快的语言。汇编高手能编写出比任何其他语言能实现的快得多的程序。你将是利用处理器最新功能的第一人，因为你能直接使用它们。

缺点：难学、语法晦涩、坚持效率，造成大量额外代码 — 不适于心脏虚弱者。

移植性：接近零。因为这门语言是为一种单独的处理器设计的，根本没移植性可言。如果使用了某个特殊处理器的扩展功能，你的代码甚至无法移植到其他同类型的处理器上（比如，AMD的3DNow指令是无法移植到其它奔腾系列的处理器上的）。

使用汇编编写的游戏：我不知道有什么商业游戏是完全用汇编开发的。不过有些游戏使用汇编完成多数对时间要求苛刻的部分。

资料：如果你正在找一门汇编语言的文档，你主要要找芯片的文档。网络上如Intel、AMD、Motorola等有一些关于它们的处理器的资料。对于书籍而言，《Assembly Language: Step-By-Step》是很值得学习的。

5、Pascal语言

Pascal语言是由Nicolas Wirth在七十年代早期设计的，因为他对于FORTRAN和COBOL没有强制训练学生的结构化编程感到很失望，“空心粉式代码”变成了规范，而当时的语言又不反对它。Pascal被设计来强行使用结构化编程。最初的Pascal被严格设计成教学之用，最终，大量的拥护者促使它闯入了商业编程中。当Borland发布IBM PC上的 Turbo Pascal时，Pascal辉煌一时。集成的编辑器，闪电般的编译器加上低廉的价格使之变得不可抵抗，Pascal编程了为MS-DOS编写小程序的首选语言。

然而时日不久，C编译器变得更快，并具有优秀的内置编辑器和调试器。Pascal在1990年Windows开始流行时走到了尽头，Borland放弃了Pascal而把目光转向了为Windows 编写程序的C++。Turbo Pascal很快被人遗忘。

最后，在1996年，Borland发布了它的“Visual Basic杀手”— Delphi。它是一种快速的带华丽用户界面的 Pascal编译器。由于不懈努力，它很快赢得了一大群爱好者。

基本上，Pascal比C简单。虽然语法类似，它缺乏很多C有的简洁操作符。这既是好事又是坏事。虽然很难写出难以理解的“聪明”代码，它同时也使得一些低级操作，如位操作变得困难起来。

优点：易学、平台相关的运行（Delphi）非常好。

缺点：“世界潮流”面向对象的Pascal继承者（Mola、Oberon）尚未成功。语言标准不被编译器开发者认同。专利权。

移植性：很差。语言的功能由于平台的转变而转变，没有移植性工具包来处理平台相关的功能。

使用Pascal编写的游戏：几个。DirectX的Delphi组件使得游戏场所变大了。

资料：查找跟Delphi有关的资料，请访问：Inprise Delphi page。

6、Visual Basic

哈，BASIC。回到八十年代的石器时代，它是程序初学者的第一个语言。最初的BASIC形式，虽然易于学习，却是可怕的无组织化，它义无反顾的使用了GOTO充斥的“空心粉式代码”。当回忆起BASIC的行号和GOSUB命令，没有几个人能止住眼角的泪水。

快速前进到九十年代早期，虽然不是苹果公司所希望的巨人，HyperCard仍然是一个在Windows下无法比拟的吸引人的小型编程环境。Windows下的HyperCard克隆品如ToolBook又慢又笨又昂贵。为了与HyperCard一决高下，微软取得了一个小巧的名为Thunder编程环境的许可权，并把它作为Visual Basci 1.0发布，其用户界面在当时非常具有新意。这门语言虽然还叫做Basic（不再是全部大写），但更加结构化了，行号也被去除。实际上，这门语言与那些内置于TRS-80、Apple II及Atari里的旧的ROM BASIC相比，更像是带Basic风格动词的Pascal。

经过六个版本，Visual Basic变得非常漂亮。用户界面发生了许多变化，但依然保留着“把代码关联到用户界面”的主旨。这使得它在与即时编译结合时变成了一个快速原型的优异环境。

优点：整洁的编辑环境。易学、即时编译导致简单、迅速的原型。大量可用的插件。虽然有第三方的DirectX插件，DirectX 7已准备提供Visual Basic的支持。

缺点：程序很大，而且运行时需要几个巨大的运行时动态连接库。虽然表单型和对话框型的程序很容易完成，要编写好的图形程序却比较难。调用Windows的API程序非常笨拙，因为VB的数据结构没能很好的映射到C中。有OO功能，但却不是完全的面向对象。专利权。

移植性：非常差。因为Visual Basic是微软的产品，你自然就被局限在他们实现它的平台上。也就是说，你能得到的选择是：Windows，Windows或Widnows。当然，有一些工具能将VB程序转变成Java。

使用Visual Basic编写的游戏：一些。有很多使用VB编写的共享游戏，还有一些是商业性的。

资料：微软的VB页面有一些信息。

7、Java

Java是由Sun最初设计用于嵌入程序的可移植性“小C++”。在网页上运行小程序的想法着实吸引了不少人的目光，于是，这门语言迅速崛起。事实证明，Java不仅仅适于在网页上内嵌动画 — 它是一门极好的完全的软件编程的小语言。“虚拟机”机制、垃圾回收以及没有指针等使它很容易实现不易崩溃且不会泄漏资源的可靠程序。

虽然不是C++的正式续篇，Java从C++ 中借用了大量的语法。它丢弃了很多C++的复杂功能，从而形成一门紧凑而易学的语言。不像C++，Java强制面向对象编程，要在Java里写非面向对象的程序就像要在Pascal里写“空心粉式代码”一样困难。

优点：二进制码可移植到其他平台。程序可以在网页中运行。内含的类库非常标准且极其健壮。自动分配合垃圾回收避免程序中资源泄漏。网上数量巨大的代码例程。

缺点：使用一个“虚拟机”来运行可移植的字节码而非本地机器码，程序将比真正编译器慢。有很多技术（例如“即时”编译器）很大的提高了Java的速度，不过速度永远比不过机器码方案。早期的功能，如AWT没经过慎重考虑，虽然被正式废除，但为了保持向后兼容不得不保留。越高级的技术，造成处理低级的机器功能越困难，Sun为这门语言增加新的“受祝福”功能的速度实在太慢。

移植性：最好的，但仍未达到它本应达到的水平。低级代码具有非常高的可移植性，但是，很多UI及新功能在某些平台上不稳定。

使用Java编写的游戏：网页上有大量小的Applet，但仅有一些是商业性的。有几个商业游戏使用Java作为内部脚本语言。

资料：Sun的官方Java页面有一些好的信息。IBM也有一个非常好的Java页面。JavaLobby是一个关于Java新闻的最好去处。

8、创作工具

上面所提及的编程语言涵盖了大多数的商业游戏。但是也有一个例外，这个大游戏由于它的缺席而变得突出。

“神秘岛”。没错，卖得最好的商业游戏不是使用以上任何一门语言编的，虽然有人说“神秘岛”99%是使用 3D建模工具制作的，其根本的编程逻辑是在HyperCard里完成的。

多数创作工具有点像Visual Basic，只是它们工作在更高的层次上。大多数工具使用一些拖拉式的流程图来模拟流程控制。很多内置解释的程序语言，但是这些语言都无法像上面所说的单独的语言那样健壮。

优点：快速原型 — 如果你的游戏符合工具制作的主旨，你或许能使你的游戏跑得比使用其他语言快。在很多情况下，你可以创造一个不需要任何代码的简单游戏。使用插件程序，如Shockware及IconAuthor播放器，你可以在网页上发布很多创作工具生成的程序。

缺点：专利权，至于将增加什么功能，你将受到工具制造者的支配。你必须考虑这些工具是否能满足你游戏的需要，因为有很多事情是那些创作工具无法完成的。某些工具会产生臃肿得可怕的程序。

移植性：因为创作工具是具有专利权的，你的移植性以他们提供的功能息息相关。有些系统，如Director可以在几种平台上创作和运行，有些工具则在某一平台上创作，在多种平台上运行，还有的是仅能在单一平台上创作和运行。

使用创作工具编写的游戏：“神秘岛”和其他一些同类型的探险游戏。所有的Shockwave游戏都在网络上。

资料：Director、HyperCard、SuperCard、IconAuthor、Authorware。

9、易语言

★全中文支持，无需跨越英语门槛。★全可视化编程，支持所见即所得程序界面设计和程序流程编码。★中文语句快速录入。提供多种内嵌专用输入法，彻底解决中文语句输入速度慢的问题。★代码即文档。自动规范强制代码格式转换，任何人编写的任何程序源代码格式均统一。★参数引导技术，方便程序语句参数录入。★无定义类关键字。所有程序定义部分均采用表格填表方式，用户无需记忆此类关键字及其使用格式。★命令格式统一。所有程序语句调用格式完全一致。★语法格式自动检查。自动检查并提示所输入语句的语法格式是否正确，且可自动添加各类名称。★全程提示与帮助。鼠标停留立即显示相关项目提示。编程时提示语法格式，调试时提示变量当前内容，随时按下F1键可得到与当前主题相关详细帮助等。★名称自动管理。用户修改任一名称定义，其它所有包含该名称的程序代码均自动修正。★集成化开发环境。集界面设计、代码编写、调试分析、编译打包等于一体。★学习资源丰富。详细的帮助文件、数十兆的知识库、数万用户的网上论坛、教材已出版发行……

10、结论

你可能希望得到一个关于“我该使用哪种语言”这个问题的更标准的结论。非常不幸，没有一个对所有应用程序都最佳的解决方案。C适于快而小的程序，但不支持面向对象的编程。C++完全支持面向对象，但是非常复杂。Visual Basic与Delphi易学，但不可移植且有专利权。Java有很多简洁的功能，但是慢。创作工具可以以最快的速度产生你的程序，但是仅对某一些类型的程序起作用。最好的方法是决定你要写什么样的游戏，并选择对你的游戏支持最好的语言。“试用三十天”的做法成为工业标准是件好事情。

⑹ 关于编译器的产生

编译器本身也是程序，通常也是C语言写的，世界上第一个编译器的部分内容肯定只能用机器码写。。。但机器码建立的一些文本处理功后，自然就用这个功能处理宏文本来代替机器码。。。当然第一台计算机能用一种文本语言来代替机器码，自然可以用这个简单的编译器去编译复杂的编译器，一个复杂的去编译更复杂的。。。。
当然最终结果就是C语言编译器本身也会是C语言写的，区别只是PC机的C语言编译器，去编译一个非PC机上运行的程序的
程序的编译器。。。。即使编译器编译编译器。。。比如java编译器是C/C++写的。。。还有现在的某款芯片的汇编编译器，本身会是C/c++语言写的，因为编译器也是程序，当然可以用C语言编译器去编译一个汇编编译器。。。只就是锤子可以做机器，当然机器也可以生产锤子。。。

⑺ 编译原理的发展历程

在20世纪40年代，由于冯·诺伊曼在存储-程序计算机方面的先锋作用，编写一串代码或程序已成必要，这样计算机就可以执行所需的计算。开始时，这些程序都是用机器语言（machine language ）编写的。机器语言就是表示机器实际操作的数字代码，例如：
C7 06 0000 0002 表示在IBM PC 上使用的Intel 8x86处理器将数字2移至地址0 0 0 0 （16进制）的指令。
但编写这样的代码是十分费时和乏味的，这种代码形式很快就被汇编语言（assembly language ）代替了。在汇编语言中，都是以符号形式给出指令和存储地址的。例如，汇编语言指令 MOV X,2 就与前面的机器指令等价（假设符号存储地址X是0 0 0 0 ）。汇编程序（assembler ）将汇编语言的符号代码和存储地址翻译成与机器语言相对应的数字代码。
汇编语言大大提高了编程的速度和准确度，人们至今仍在使用着它，在编码需要极快的速度和极高的简洁程度时尤为如此。但是，汇编语言也有许多缺点：编写起来也不容易，阅读和理解很难；而且汇编语言的编写严格依赖于特定的机器，所以为一台计算机编写的代码在应用于另一台计算机时必须完全重写。
发展编程技术的下一个重要步骤就是以一个更类似于数学定义或自然语言的简洁形式来编写程序的操作，它应与任何机器都无关，而且也可由一个程序翻译为可执行的代码。例如，前面的汇编语言代码可以写成一个简洁的与机器无关的形式 x = 2。
在1954年至1957年期间，IBM的John Backus带领的一个研究小组对FORTRAN语言及其编译器的开发，使得上面的担忧不必要了。但是，由于当时处理中所涉及到的大多数程序设计语言的翻译并不为人所掌握，所以这个项目的成功也伴随着巨大的辛劳。几乎与此同时，人们也在开发着第一个编译器， Noam Chomsky开始了他的自然语言结构的研究。他的发现最终使得编译器结构异常简单，甚至还带有了一些自动化。Chomsky的研究导致了根据语言文法（grammar ，指定其结构的规则）的难易程度以及识别它们所需的算法来为语言分类。正如现在所称的-与乔姆斯基分类结构（Chomsky hierarchy ）一样-包括了文法的4个层次：0型、1型、2型和3型文法，且其中的每一个都是其前者的专门化。2型（或上下文无关文法（context-free grammar ））被证明是程序设计语言中最有用的，而且今天它已代表着程序设计语言结构的标准方式。
分析问题（ parsing problem ，用于限定上下文无关语言的识别的有效算法）的研究是在20世纪60年代和70年代，它相当完善地解决了这一问题，现在它已是编译理论的一个标准部分。它们与乔姆斯基的3型文法相对应。对它们的研究与乔姆斯基的研究几乎同时开始，并且引出了表示程序设计语言的单词（或称为记号）的符号方式。
人们接着又深化了生成有效的目标代码的方法，这就是最初的编译器，它们被一直使用至今。人们通常将其误称为优化技术（optimization technique ），但因其从未真正地得到过被优化了的目标代码而仅仅改进了它的有效性，因此实际上应称作代码改进技术（code improvement technique ）。
这些程序最初被称为编译程序-编译器，但更确切地应称为分析程序生成器（parser generator ），这是因为它们仅仅能够自动处理编译的一部分。这些程序中最着名的是 Yacc （yet another compiler- compiler），它是由Steve Johnson在1975年为Unix系统编写的。
类似地，有穷自动机的研究也发展了另一种称为扫描程序生成器（scanner generator ）的工具，Lex （与Yacc同时，由Mike Lesk为Unix系统开发的）是这其中的佼佼者。在20世纪70年代后期和80年代早期，大量的项目都关注于编译器其他部分的生成自动化，这其中就包括代码生成。这些尝试并未取得多少成功，这大概是因为操作太复杂而人们又对其不甚了解。
编译器设计最近的发展包括：首先，编译器包括了更为复杂的算法的应用程序，它用于推断或简化程序中的信息；这又与更为复杂的程序设计语言（可允许此类分析）的发展结合在一起。其中典型的有用于函数语言编译的Hindle y - Milner类型检查的统一算法。
其次，编译器已越来越成为基于窗口的交互开发环境（interactive development environment，IDE ）的一部分，它包括了编辑器、链接程序、调试程序以及项目管理程序。这样的IDE的标准并没有多少，但是已沿着这一方向对标准的窗口环境进行开发了。

⑻ 编译器和开发环境的关系

谈谈程序设计语言、编译器和开发环境之间的关系

许多初学者都会对这三个概念区分不清，应该说这三个概念是完全不同的，不能混为一谈。在本文中，我就尽我最大的能力来讲讲这三个概念以及他们之间的关系。

首先说程序设计语言，它同人类的自然语言一样也是一个语言，并且它是自然语言的一个子集。大家都知道自然语言是极其庞大和复杂的系统，具有很多不不确定性和不精确性，因此至今我们也没有办法对自然语言进行形式化的描述。程序设计语言只是自然语言的一个很小的子集，在计算机系统中，一切都是需要确定性和精确性的描述，因此程序设计语言也是极为规范的，在程序设计语言中，几乎就不允许存在不确定性和不精确性，也就是说不能存在文法的二义性。这样一个程序设计语言就可以通过一系列的产生式来进行形式化的描述，这一系列的产生式就被称为文法，语言就是由文法来定义的。从另外一个角度来说，一个程序设计语言，它仅仅是一个语言，它只对程序进行形式上的要求。或者说，程序设计语言对应于编程中的编码阶段。我们有必要对程序开发的三个阶段进行了解，程序开发从时间先后顺序上可以分为三个阶段：1.编码阶段，2.编译阶段，3.运行阶段。在编码阶段，我们使用的就是程序设计语言。语言除了定义了文法以外，其他的任何事情他都不做。当然一种语言也有很多种版本，比如 BASIC 语言，就有很多种版本，C语言也是如此。这里所讲的语言的版本与编译器的版本是不一样的。C语言的标准版本就是 ANSI C，如果初学者会提出这样的问题“C语言哪个更好？”，这样的问题反映出他们对语言与编译器之间的关系的认识的不足。如果从语言的角度来讲 VC 和 TC 是没有多大区别的，他们基本上都能支持 ANSI C。

再来看看编译器。编译器与语言的关系就是，翻译者与语言的关系。编译器就是一个翻译，他把使用某种语言书写的源程序，翻译成为等价的使用目标语言书写的目标程序。前面我们也说了，语言是一个抽象的概念，是由文法来定义的。唯一实在的东西，也就是定义语言的文法。在使用语言时，我们只能说，使用这种语言去书写一段程序。编译器则是能够将某种语言的源程序进行翻译，然后生成目标程序。我们通常会说，某个编译器支持了什么语言，也就是说这个编译器能识别并翻译这种语言。现在的C编译器，一般都是支持了 ANSI C 语言的，另外，编译器的设计者可能还会对 ANSI C 进行一定的扩充，而且各个编译器进行扩充功能都是不同的，因此可能就会出现一个编译器诞生以后，就会出现一个新的语言的现象。TC 和 VC 就分别对 ANSI C 进行了不同的扩充，比如在 TC 中有 far 等关键字，ANSI C 中是没有的，在 VC 中有内嵌汇编的语法 _asm，而在 TC 中则是使用 asm 关键字，这些内容在 ANSI C 中没有的。编译器的输入时源程序，而其输出则是目标程序。一般情况下，源程序是使用某种高级语言书写的，而目标程序则是某个特定机器的机器语言程序。另一方面，编译器除了提供编译功能，还会提供一些运行库。所谓运行库就是由一些事先写好的子程序所组成的子程序库。例如C语言中的 printf 函数，就是由C的运行库提供的。在 ANSI C 中定义了一些C语言的标准库函数，这些库函数是标准C必须具备的，也可以说这些库函数成为了 ANSI C 的一个部分。另外，不同的编译器还可以提供自己的，非标准的库给用户使用，在 TC 中的 Graphics 库，其实就是由 TC 提供的，它不是属于 ANSI C 的。简单的说，编译器是由编译程序和运行库组成的。在程序的编译阶段，就是使用编译器对源程序进行编译生成目标程序。

在程序的运行阶段则是在一个特定的平台上，由这个平台来执行编译生成的程序。Java 虚拟机是一个平台，DOS 和 Windows 也是平台，编译器的作用就是沟通源程序和程序的运行平台。源程序相对于一个运行平台来说是不可识别的，但当编译器将源程序编译成为这个平台所能够识别的目标语言以后，程序就可以在这个平台上运行了。

应该看到，编译器在其中起到了很重要的作用。我们现在可以明确一些概念了，程序设计语言只是语言，它本身很难说有什么好坏，这就如同说“汉语和英语哪个好”一样。使用某一种程序设计语言，我们可以书写自己的程序，从而向计算机表达自己希望完成的功能。这个阶段，我们称为编码阶段。编译器由编译程序和运行库组成，编译程序负责将源程序翻译成为目标程序，运行库提供了一些基本的子程序给程序编写者使用。我们可以说编译器是否支持某种语言，例如 TC 编译器是支持 ANSI C 的，而 GCC 则是一个能够支持多种语言的编译器。然而不同的编译器除了提供对某种语言的支持以外，还可能对该语言进行了某些功能扩充。编译器在对语言的支持上，差别都是不太大的，这是因为许多语言都制定了一个标准，例如 ANSI C。编译器的另外一个重要特性，就是对运行平台的支持。平台指的是一个程序运行所需要的所有软件和硬件的基础。编译器对运行平台的支持，是通过将源程序编译成为目标程序，以及编译器所提供的运行库来实现的。例如，TC只能将C源程序编译生成，使用 80x86 CPU，操作系统为 DOS 的 16bit DOS 程序。VC只能将C源程序编译生成 80x86 CPU、操作系统为 Windows 的 32bit Windows 程序。使用编译器对源程序进行编译被称为编译阶段，这个阶段编译程序将源程序编译为某个平台的目标代码。程序在具体的平台上运行时，被称为运行阶段。应该指出，在编码阶段使用到的是程序设计语言，以及编译器所提供的库函数，这个阶段产生的是源程序。在编译阶段使用的是源程序和编译器，这个阶段产生的是目标程序。在运行阶段使用到的是目标程序和运行平台，这个时候产生的是程序运行结果。

因此说讨论一个程序设计语言好坏没有多大意义，因为他们使用的场合不同，比如汇编语言和 Java 语言，要谈论这两个语言的好坏是没有实际意义的。而说“C语言哪个好”之类的话也是没有意义的，我想大家学的C也就是在 ANSI C 基础上的C，并且不同的C语言之间的差别是极小的。我们通常指的 TC、VC 都是指编译器，而不是语言。编译器能够支持一种或者多种的程序设计语言，TC 能够支持 ANSI C，VC 能够支持 ANSI C 和 ANSI C++，而 GCC 则是一个支持多语言的编译器。如果真要说 VC 比 TC 好，只能说 VC 编译器提供的库函数更多，并且 VC 能够支持的平台是 Windows，而 VC 编译出来的代码也都是 32bit 的。

在以上概念中纠缠了这么久，我也不再想多说了。再来看开发环境。为了能够方便程序设计者进行编码、调试等工作，编译器制造商在制作好一个编译器以后，都会提供一个集成开发环境（又称为IDE）。在这个 IDE 中，用户可以完成编码、编译、调试、运行的全部工作。并且在最新的IDE中，可能还会提供一个可视化的设计功能，可以方便用户进行程序界面的设计。例如 VB 等。另外一个方面，开发环境除了包括 IDE 以外，还包括了程序运行的平台。比如硬件是 IBM PC 兼容机，操作系统是 Windows 等。

可能，能讲的也就这么多了，感觉讲的并不是很好，不过我已经尽力了。有些东西是很难说清楚的，“只能意会不可言传”指的就是这个了。不要怪我讲的不好，还是自己用心去理解和体会吧。

⑼ 编译器的发展史

编译器
编译器，是将便于人编写，阅读，维护的高级计算机语言翻译为计算机能识别，运行的低级机器语言的程序。编译器将源程序（Source program）作为输入，翻译产生使用目标语言（Target language）的等价程序。源程序一般为高级语言（High-level language），如Pascal，C++等，而目标语言则是汇编语言或目标机器的目标代码（Object code），有时也称作机器代码（Machine code）。

一个现代编译器的主要工作流程如下：

源程序（source code）→预处理器（preprocessor）→编译器（compiler）→汇编程序（assembler）→目标程序（object code）→连接器（链接器，Linker）→可执行程序（executables）
目录 [隐藏]
1 工作原理
2 编译器种类
3 预处理器（preprocessor）
4 编译器前端（frontend）
5 编译器后端（backend）
6 编译语言与解释语言对比
7 历史
8 参见

工作原理
翻译是从源代码（通常为高级语言）到能直接被计算机或虚拟机执行的目标代码（通常为低级语言或机器言）。然而，也存在从低级语言到高级语言的编译器，这类编译器中用来从由高级语言生成的低级语言代码重新生成高级语言代码的又被叫做反编译器。也有从一种高级语言生成另一种高级语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。

典型的编译器输出是由包含入口点的名字和地址以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的可执行程序。

编译器种类
编译器可以生成用来在与编译器本身所在的计算机和操作系统（平台）相同的环境下运行的目标代码，这种编译器又叫做“本地”编译器。另外，编译器也可以生成用来在其它平台上运行的目标代码，这种编译器又叫做交叉编译器。交叉编译器在生成新的硬件平台时非常有用。“源码到源码编译器”是指用一种高级语言作为输入，输出也是高级语言的编译器。例如: 自动并行化编译器经常采用一种高级语言作为输入，转换其中的代码，并用并行代码注释对它进行注释（如OpenMP）或者用语言构造进行注释（如FORTRAN的DOALL指令）。

预处理器（preprocessor）
作用是通过代入预定义等程序段将源程序补充完整。

编译器前端（frontend）
前端主要负责解析（parse）输入的源程序，由词法分析器和语法分析器协同工作。词法分析器负责把源程序中的‘单词’（Token）找出来,语法分析器把这些分散的单词按预先定义好的语法组装成有意义的表达式，语句，函数等等。例如“a = b + c;”前端词法分析器看到的是“a, =, b , +, c;”，语法分析器按定义的语法，先把他们组装成表达式“b + c”，再组装成“a = b + c”的语句。前端还负责语义（semantic checking）的检查，例如检测参与运算的变量是否是同一类型的，简单的错误处理。最终的结果常常是一个抽象的语法树（abstract syntax tree，或 AST），这样后端可以在此基础上进一步优化，处理。

编译器后端（backend）
编译器后端主要负责分析，优化中间代码（Intermediate representation）以及生成机器代码（Code Generation）。

一般说来所有的编译器分析，优化，变型都可以分成两大类：函数内（intraproceral）还是函数之间（interproceral）进行。很明显，函数间的分析，优化更准确，但需要更长的时间来完成。

编译器分析（compiler analysis）的对象是前端生成并传递过来的中间代码，现代的优化型编译器（optimizing compiler）常常用好几种层次的中间代码来表示程序，高层的中间代码（high level IR）接近输入的源程序的格式，与输入语言相关（language dependent），包含更多的全局性的信息，和源程序的结构；中层的中间代码（middle level IR）与输入语言无关，低层的中间代码(Low level IR)与机器语言类似。不同的分析，优化发生在最适合的那一层中间代码上。

常见的编译分析有函数调用树（call tree），控制流程图（Control flow graph），以及在此基础上的变量定义－使用，使用－定义链（define-use/use-define or u-d/d-u chain），变量别名分析（alias analysis），指针分析（pointer analysis），数据依赖分析（data dependence analysis）等等。

上述的程序分析结果是编译器优化（compiler optimization）和程序变形（compiler transformation）的前提条件。常见的优化和变新有：函数内嵌（inlining），无用代码删除（Dead code elimination），标准化循环结构（loop normalization），循环体展开（loop unrolling），循环体合并，分裂（loop fusion，loop fission），数组填充（array padding），等等。优化和变形的目的是减少代码的长度，提高内存（memory），缓存（cache）的使用率，减少读写磁盘，访问网络数据的频率。更高级的优化甚至可以把序列化的代码（serial code）变成并行运算，多线程的代码（parallelized，multi-threaded code）。

机器代码的生成是优化变型后的中间代码转换成机器指令的过程。现代编译器主要采用生成汇编代码（assembly code）的策略，而不直接生成二进制的目标代码（binary object code）。即使在代码生成阶段，高级编译器仍然要做很多分析，优化，变形的工作。例如如何分配寄存器（register allocatioin），如何选择合适的机器指令（instruction selection），如何合并几句代码成一句等等。

编译语言与解释语言对比
许多人将高级程序语言分为两类: 编译型语言和解释型语言。然而，实际上，这些语言中的大多数既可用编译型实现也可用解释型实现，分类实际上反映的是那种语言常见的实现方式。（但是，某些解释型语言，很难用编译型实现。比如那些允许在线代码更改的解释型语言。）

历史
上世纪50年代，IBM的John Backus带领一个研究小组对FORTRAN语言及其编译器进行开发。但由于当时人们对编译理论了解不多，开发工作变得既复杂又艰苦。与此同时，Noam Chomsky开始了他对自然语言结构的研究。他的发现最终使得编译器的结构异常简单，甚至还带有了一些自动化。Chomsky的研究导致了根据语言文法的难易程度以及识别它们所需要的算法来对语言分类。正如现在所称的Chomsky架构（Chomsky Hierarchy），它包括了文法的四个层次：0型文法、1型文法、2型文法和3型文法，且其中的每一个都是其前者的特殊情况。2型文法（或上下文无关文法）被证明是程序设计语言中最有用的，而且今天它已代表着程序设计语言结构的标准方式。分析问题（parsing problem，用于上下文无关文法识别的有效算法）的研究是在60年代和70年代，它相当完善的解决了这个问题。现在它已是编译原理中的一个标准部分。

有限状态自动机（Finite Automaton）和正则表达式（Regular Expression）同上下文无关文法紧密相关，它们与Chomsky的3型文法相对应。对它们的研究与Chomsky的研究几乎同时开始，并且引出了表示程序设计语言的单词的符号方式。

人们接着又深化了生成有效目标代码的方法，这就是最初的编译器，它们被一直使用至今。人们通常将其称为优化技术（Optimization Technique），但因其从未真正地得到过被优化了的目标代码而仅仅改进了它的有效性，因此实际上应称作代码改进技术（Code Improvement Technique）。

当分析问题变得好懂起来时，人们就在开发程序上花费了很大的功夫来研究这一部分的编译器自动构造。这些程序最初被称为编译器的编译器（Compiler-compiler），但更确切地应称为分析程序生成器（Parser Generator），这是因为它们仅仅能够自动处理编译的一部分。这些程序中最着名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年为Unix系统编写的。类似的，有限状态自动机的研究也发展了一种称为扫描程序生成器（Scanner Generator）的工具，Lex（与Yacc同时，由Mike Lesk为Unix系统开发）是这其中的佼佼者。

在70年代后期和80年代早期，大量的项目都贯注于编译器其它部分的生成自动化，这其中就包括了代码生成。这些尝试并未取得多少成功，这大概是因为操作太复杂而人们又对其不甚了解。

编译器设计最近的发展包括：首先，编译器包括了更加复杂算法的应用程序它用于推断或简化程序中的信息；这又与更为复杂的程序设计语言的发展结合在一起。其中典型的有用于函数语言编译的Hindley-Milner类型检查的统一算法。其次，编译器已越来越成为基于窗口的交互开发环境（Interactive Development Environment，IDE）的一部分，它包括了编辑器、连接程序、调试程序以及项目管理程序。这样的IDE标准并没有多少，但是对标准的窗口环境进行开发已成为方向。另一方面，尽管近年来在编译原理领域进行了大量的研究，但是基本的编译器设计原理在近20年中都没有多大的改变，它现在正迅速地成为计算机科学课程中的中心环节。

在九十年代，作为GNU项目或其它开放源代码项目的一部分，许多免费编译器和编译器开发工具被开发出来。这些工具可用来编译所有的计算机程序语言。它们中的一些项目被认为是高质量的，而且对现代编译理论感性趣的人可以很容易的得到它们的免费源代码。

大约在1999年，SGI公布了他们的一个工业化的并行化优化编译器Pro64的源代码，后被全世界多个编译器研究小组用来做研究平台，并命名为Open64。Open64的设计结构好，分析优化全面，是编译器高级研究的理想平台。

编译器是一种特殊的程序，它可以把以特定编程语言写成的程序变为机器可以运行的机器码。我们把一个程序写好，这时我们利用的环境是文本编辑器。这时我程序把程序称为源程序。在此以后程序员可以运行相应的编译器，通过指定需要编译的文件的名称就可以把相应的源文件（通过一个复杂的过程）转化为机器码了。

编译器工作方法
首先编译器进行语法分析，也就是要把那些字符串分离出来。然后进行语义分析，就是把各个由语法分析分析出的语法单元的意义搞清楚。最后生成的是目标文件，我们也称为obj文件。再经过链接器的链接就可以生成最后的可执行代码了。有些时候我们需要把多个文件产生的目标文件进行链接，产生最后的代码。我们把一过程称为交叉链接。

⑽ c语言编译器是什么东西

首先你要明白编译的意思，它是指把高级语言翻译成计算机
能读懂的低级语言（二进制代码），这样计算机才会执行你
的命令，编译器就相当于一个翻译，在翻译的过程中还会检
查你语法上有没有错误
C语言编译器自然是把用C语言写的程序翻译成二进制代码咯
【原创答人】

导航:首页 > 源码编译 > 自然语言处理编译器

自然语言处理编译器

与自然语言处理编译器相关的资料