语言种类识别算法_php 如何识别文本语言种类比如输入“你好”返回“中文”；输入“hello”返回英文

Ⅰ 有什么软件可以识别出语言的种类

推荐用 ibm简体中文语音识别系统.v9.1.专业版
ViaVoice识别率可达95%以上。使用便利，特别适合于起草文稿、撰写文章、和准备教案，是文职人员、作家和教育工作者的良好助手。

IBM拥有40多年提供语音解决方案的经验，并且拥有150多个语音技术专利。他领导了世界的语音识别技术，其语音识别产品在全球销售已达一百万套以上。IBM在提供端对端的语音集成解决方案领域居全球领先地位。

ViaVoice提供了若干特殊的“主题”来帮助你进一步提高对专有名词的识别准确度，它可以使ViaVoice的引擎对这些主题下的特殊词组给予重点注意。

几款语音识别软件：

emule下载
http://www.rsdown.cn/downinfo/813.html

Ⅱ 计算机语言的种类

机器语言（二进制代码）

汇编语言（面向机器的程序设计语言）

高级语言（按转换方式可分两类：

1、编译型语言； 2、解释型语言）

||按照客观系统的描述可分两类：

1、面向过程语言；

2、面向对象语言 ||

按照编程范型可分四类：

1、命令式语言；2、函数式语言；3、逻辑式语言；4、面向对象语言）

三种语言的优缺点

机器语言：可读性、可移植性差，编程繁杂。直接执行，速度快，资源占用少。汇编语言：不同的处理器有不同的汇编语言语法和编译器，编译的程序无法在不同的处理器上执行，缺乏可移植性，难于从汇编语言代码上理解程序设计意图，可维护性差，即使是完成简单的工作也需要大量的汇编语言代码，很容易产生bug，难于调试，使用汇编语言必须对某种处理器非常了解，而且只能针对特定的体系结构和处理器进行优化，开发效率很低，周期长且单调。能够保持机器语言的一致性，直接、简捷，并能像机器指令一样访问、控制计算机的各种硬件设备，如磁盘、存储器、CPU、I/O端口等。使用汇编语言，可以访问所有能够被访问的软、硬件资源，目标代码简短，占用内存少，执行速度快。高级语言：运行速度基本上比直接用汇编写的慢，速度和程序大小与编译软件有关。高级语言接近算法语言，易学、易掌握，级语言为程序员提供了结构化程序设计的环境和工具，使得设计出来的程序可读性好，可维护性强，可靠性高；高级语言远离机器语言，与具体的计算机硬件关系不大，可移植性好，重用率高；由于把繁杂琐碎的事务交给了编译程序去做，所以自动化程度高，开发周期短，且程序员得到解脱，可以集中时间和精力去从事对于他们来说更为重要的创造性劳动，以提高程序的质量。

高级语言的分类

按转换方式可分为两类：1、编译型语言；2、解释型语言

编译型语言：编译性语言写的程序在被执行之前，需要一个专门的编译过程，把程序编译成为机器语言的文件，比如exe文件，以后要运行的话就不用重新翻译了，直接使用编译的结果就行了（exe文件），因为翻译只做了一次，运行时不需要翻译，所以编译型语言的程序执行效率高。解释型语言：解释性语言的程序不需要编译，在运行程序的时候才翻译，每个语句都是执行的时候才翻译。这样解释性语言每执行一次就需要逐行翻译一次，效率比较低。现代解释性语言通常把源程序编译成中间代码，然后用解释器把中间代码一条条翻译成目标机器代码，一条条执行。关于脚本语言：脚本语言是一种解释性的语言，脚本语言是为了缩短传统的编写-编译-链接-运行（edit-compile-link-run）过程而创建的计算机编程语言。脚本语言一般都有相应的脚本引擎来解释执行。他们一般需要解释器才能运行。一个脚本通常是解释运行而非编译。脚本语言通常都有简单、易学、易用的特性，目的就是希望能让程序员快速完成程序的编写工作。而宏语言则可视为脚本语言的分支，两者也有实质上的相同之处。脚本语言一般都是以文本形式存在,类似于一种命令。

解释性语言：Java、Java、Perl、Python、Ruby、MATLAB 等。编译性语言： C/C++、Pascal/Object Pascal（Delphi) 脚本语言：Python、Java，ASP，php，Perl等

解释性语言：Java、Java、Perl、Python、Ruby、MATLAB 等。编译性语言： C/C++、Pascal/Object Pascal（Delphi) 脚本语言：Python、Java，ASP，PHP，Perl等

按照客观系统的描述可分为两类：1.面向过程语言; 2.面向对象语言

面向过程语言：面向过程语言是以过程或函数为基础的，这种语言对底层硬件，内存等操作比较方便，但是写代码和调试维护等会很麻烦。例如：c语言面向对象语言：面向对象语言（Object-Oriented Language）是一类以对象作为基本程序结构单位的程序设计语言，指用于描述的设计是以对象为核心，而对象是程序运行时刻的基本成分。语言中提供了类、继承等成分。面向对象语言的发展有两个方向：一种是纯面向对象语言，如Smalltalk、EIFFEL等；另一种是混合型面向对象语言，即在过程式语言及其它语言中加入类、继承等成分，如C++、Objective-C等

按照编程范型可分为：1.命令式语言; 2.函数式语言; 3.逻辑式语言; 4.面向对象语言

命令式语言：命令式程序设计语言是基于动作的语言，以冯诺依曼计算机体系结构为背景。机器语言及汇编语言是最早的命令式语言。在这种语言中，计算机被看做是动作的序列，程序就是用语言提供的操作命令书写的一个操作序列。用命令式程序设计语言编写程序，就是描述解题过程中每一步的过程，程序的运行过程就是问题的求解过程，因此也称为过程式语言。Fortran、ALGOL、COBOL、C、Ada、Pascal等都是命令式程序设计语言。函数式语言：函数式编程是种编程典范，它将电脑运算视为函数的计算。函数编程语言最重要的基础是 λ 演算（lambda calculus）。而且λ演算的函数可以接受函数当作输入（参数）和输出（返回值）。和指令式编程相比，函数式编程强调函数的计算比指令的执行重要。和过程化编程相比，函数式编程里，函数的计算可随时调用。这种语言的语义基础是基于数学函数概念的值映射的λ算子可计算模型。这种语言非常适合于进行人工智能等工作的计算。典型的函数式语言如 Lisp、Haskell、ML、Scheme 、F#等。逻辑式语言：这种语言的语义基础是基于一组已知规则的形式逻辑系统。这种语言主要用在专家系统的实现中。最着名的逻辑式语言是 Prolog。面向对象语言：现代语言中的大多数都提供面向对象的支持，但有些语言是直接建立在面向对象基本模型上的，语言的语法形式的语义就是基本对象操作。主要的纯面向对象语言是 Smalltalk。

Ⅲ 如何快速识别出是哪国语言

1.如果是球迷，并且经常上网看球，可以多看看各种语言解说的频道（在此热情推荐http://forum.wiziwig.eu/forums/3-Football-streams），通常
来说同一个语言听个两三场比赛就可以很轻松的辨认出来了。

2.
另有一种方法，就是输入一段稍长但内容简单的英文文本去google翻译成各种语言然后点击朗读。推荐用简单的英文文本这样可以减少翻
译得不堪入目的几率。

3.讨巧一点的方法是找一本想了解的语言的语法书，把介词、代词、连词这一类记下来，然后借助方法2或者网络词典记住其发音，然后就可以听大段的内容来捕捉熟悉的超高频词。

4.推荐个迅速了解多国语言的资源，Lonely Planet的欧洲语言指南
西欧常用语手册http://www.rayfile.com/files/ee253f99-f13b-11de-b10e-0014221b798a/

东欧常用语手册http://www.rayfile.com/files/3d45074a-f128-11de-ba5b-0014221b798a/

5.了解的语言特征。
德语很简单，如果听到很多的“屎”（真的是发第三声）和“此”，那一定是德语。

西
班牙语比较平实，元音辅音都比较自然，只有超高的语速和大舌头狂甩，但是仅用这种特征判断误伤率很高。勉强要算一个的话就是在反问句
后面总喜欢加一个“no?”，是/nɔ/，别读成英语了。。葡萄牙语有很多鼻音，如
ão, ãe õe等等，非常独特但比较难以描述，比如alemão，alemã，
alemães，informação， informações，但在巴葡里这些鼻音有所变化，特征不那么明显，好在巴葡还有别的特征，比如把t +
i/e读成“起”，d + i/e读成“几”。西语葡语的一些区别：欧葡会把词尾的s发成/ʃ/，词尾的o会读得像/u/，a像/ə/。意大利语真的像唱歌一样，韵律感十足。荷
兰语，正经点说一点大概就是把g读成/x/，另外有很多类似于中文的后鼻音ang的音，比如van。推荐听一听荷兰语版的i
love you：ik hou van
jou，听起来就像“一个好房友”，蛮形象的。另有一个无比喜感的音，paard（马），京腔十足。

Ⅳ 语言的成分是什么

语言的成分分数据成分，运算成分，控制成分，传输成分1．程序
从最一般的意义来说，程序是对解决某个计算问题的方法（算法）步骤的一种描述；而从计算机来说，计算机程序是用某种计算机能理解并执行的计算机语言作为描述语言，对解决问题的方法步骤的描述。计算机执行按程序所描述的方法步骤，能完成指定的功能。所以，程序就是供计算机执行后能完成特定功能的指令序列。
一个计算机程序主要描述两部分内容：描述问题的每个对象和对象之间的关系，以及描述对这些对象作处理的处理规则。其中关于对象及对象之间的关系是数据结构的内容，而处理规则是求解的算法。针对问题所涉及的对象和要完成的处理，设计合理的数据结构常可有效地简化算法，数据结构和算法是程序最主要的两个方面。

2．程序设计的任条和主要步骤
程序设计的任务就是分析解决问题的方法步骤（算法），并将解决问题算法的方法步骤用计算机语言记录下来。程序设计的主要步骤包括：认识问题、设计解决问题的算法、按算法编写程序、调试和测试程序。在程序开发过程中，上述步骤可能有反复，如发现程序有错，严重情况可能会要求重新认识问题和重新设计算法等。

3．机器语言和汇编语言
计算机能直接识别和执行的二进制代码称为计算机的机器语言。用有助于记忆的符号来代表二进制代码，称为汇编语言。汇编语言与机器语言几乎有一对一的关系。用汇编语言编写的程序称为“汇编源程序”，汇编源程序不能在计算机上直接执行，需要用汇编程序将汇编源
程序翻译成机器语言程序，然后执行由汇编程序翻译出来的机器语言程序。机器语言和汇编语言是与具体计算机紧密相关的，称它们是面向机器的语言。

4．高级语言
与机器语言和汇编语言相比较，高级语言与具体计算机无关，是一种能方便描述算法过程的计算机程序设计语言。高级语言种类千差万别，但一般包含有以下四种成分：数据成分用来描述程序所涉及的数据；运算成分用来描述运算；控制成分用来表达程序的控制构造；传输成分用来表达数据的传输。由于高级语言程序主要是描述计算机的解题过程，即描述复杂的加工处理过程，所以也称这种高级语言为面向过程语言。
用高级语言编写的程序称为“源程序”。计算机不能直接技源程序的语句运行，通常有解释方式和编译方式两种方法在计算机上执行源程序。
解释方式，即让计算机运行解释程序，解释程序逐句取出源程序中的语句，对它作解释执行，输入数据，产生结果。
编译方式，即先运行编译程序，从源程序一次翻译产生计算机可直接执行的二进制程序（称为目标程序）；然后让计算机执行目标程序，输入数据，产生结果。
解释方式的主要优点是计算机与人的交互性好，调试程序时，能一边执行一边直接改错，能较快得到一个正确的程序。缺点是逐句解释执行，运行速度慢。
编译方式的主要优点是计算机运行目标程序快，缺点是修改源程序后必须重新编译以产生新的目标程序。
现在也有将上述两种方式结合起来的，即先编译源程序，产生计算机还是不能直接执行的中间代码，然后让解释程序解释执行中间代码。这样做的好处首先是比直接解释执行快；更大的好处是中间代码独立于计算机，只要有相应的解释程序，就可在任何计算机上运行。

5．面向问题语言
面向问题语言是为了易于描述和求解某类特定领域的问题而专门设计的一种非过程语言。用面向问题语言解题时，不仅摆脱计算机的内部逻辑，也不必关心问题的求解算法和求解的过程，只需指出问题是做什么，数据的输入和输出形式，就能由相应的计算机系统得到所需结果。如报表语言、SOL(Structured Query Language)语言等。SQL语言是数据库查询和操纵语言，能直接使用数据库管理系统。由于使用面向问题语言来解题只要告诉计算机做什么，不必告诉计算机如何做，能方便用户的使用和提高程序的开发速度。但实现面向问题语言的系统从最一般的意义下实现问题如何求解，通常实现的效率较低。另外，面向问题语言要求问题已有通用的求解方法，目前其应用范围还比较狭窄。

1.2C语言基础

1．C语言的发展史
目的是为编写系统程序研制一种高级程序语言。1963年，参照ALGOL60语言，增添了能描述计算机硬件特性的能力，称为CPL语言。1967年，作进一步的简化，改称BCPL语言。1970年，再进一步简化，并突出了硬件处理能力，称为B语言，并用于编写UNIX操作系统。1972年，进一步扩充数据类型和恢复通用性，称为C语言，并用C语言重写了UNIX操作系统。以后 C语言开始流行，为统一版本，ANSI于 1987年制定了 C语言的标准，称为 ANSIC。

2．C语言的特点
C语言主要有以下特点：
（1）与其它高级语言比较，更接近硬件，与机器语言比较，又更接近算法。C程序易编写、易读、易查错和易修改。

Ⅳ php 如何识别文本语言种类，比如输入“你好”，返回“中文”；输入“hello”，返回英文

判断文本语言的种类其实是判断字符集的位置范围，这里提供几款正则给你参考：

<?php
$string='网络知道';
if(preg_match_all("/^([x81-xfe][x40-xfe])+$/"),$string,$match)
//使用preg_match_all判断的是全部是中文
//若使用preg_match则判断的是是否包含中文
//$match是一符合正则要求结果的多维数组
//如果是UTF-8编码的话，则可以将正则替换成/^([u4e00-u9fa5])+$/
{
echo'中文';
}
else
{
echo'不是中文';
}


?>

Ⅵ 关于语言识别技术怎么具体实现

首先从要是别的样本中读取一定量的字符串，再把这样的字符串与语言库中的字符串相比较即可。所以需要读文件和创建语言库（就是把各种语言的样板存入到数据库中）需要数据库方面的知识。
学一门编程语言，主要是面向对象的，比如 C++、C#之类的；还要学习了解数据库

Ⅶ tesseract能识别哪些语言

识别多种字体、多种语言的字符，在实际应用中是很常见的问题。
经过测试，及查看tesseract3.01的源码，tesseract 3.01版本是不支持多语言、多种字体OCR识别的。
tesseract3.01版本不支持新训练的数据，加入原有字符集，并不支持多个训练库的联合使用方式。

如何利用tesseract进行多语言或多字体识别哪？

一种方法是自己训练字符集，将所有的字体、语言的训练数据放入一个训练数据文件内。这种方法需要庞大的训练样本数据，工作量大，而且舍弃原有的google的训练库，实在是太可惜了。

另外一种方法就是升级tesseract到3.02版本。目前3.02版本还没有release，需要自行下载源码，编译，生成。tesseract3.02支持多个训练库联合使用的方式，这样就能支持多语言、多字体识别，并且tesseract3.02版本的固有数据集应该增加了大量的样本，因为其体积比3.01版本的数据文件大了很多。

tesseract多语言识别的原理及算法在文章Adapting the Tesseract Open Source OCR Engine for Multilingual OCR有专门的介绍。这里记录下自己对这篇文章的理解。

OCR字符识别的热点趋势：
拉丁文-> 中文、日文、韩文 -> 阿拉伯文 -> 印度语
这几种语言字符有各自的特征。

汉字、日文：有一些相同文字，但文字有上千种形状结构。
韩文：自己特有的文字结构，而且数量更多。
阿拉伯文：字母都连起来书写，且字母处在不同的位置，其形状也不同。
印度文：将字符连起来形成上千种形状，来表示不同的音节。其包含了阿拉伯文和韩文面临的问题。

汉字、韩文和印度文都有部首和词根的结构。相比韩文，汉字的词根在不同的字里，其形状也是不固定的，且常和其他部首连写。而印度文更复杂些。

拉丁文字符识别在另外一篇文章中有介绍，这里写些思路与未提到的问题。
1. 在连通区域分析后，找出blob，即单个字母块。
2. 行检测。利用等间距检测与分割算法，包括识别词与字母的空白区别。
3. 单个字符识别，并对初次识别效果不佳的字符进行分割与联想，对于多种可能，就应用词典的距离计算，选择出最好的可能性。

4. 多次识别：识别效果好的字符作为训练样本，对其他不好的字符进行再次识别。（自适应分类器）

问题：
一般一个字母是单连通区域，但也有例外，一个字母有多个连通区域，或嵌套孔洞，如圆圈中有一个c或R的字符。

--------------
文章的排版：
1. 横排、竖排、混合排列
tesseract最初支持处理横排的情况，若处理各种排列，tesseract需要考虑更多的特征检测。
段落缩进的检测；字符间距检测（竖排字符的间距中值小于字符大小的均值）；文本行（列）检测
另外，对于竖排占多数的页面，可以旋转90度，这样大部分文本可转换为横排，减少竖排区域误检率。

混合排列在各种文字中都存在且常见，所以，tesseract要处理这些情况。

2. 文本行、列检测
行检测算法：
每行文本中的字符直接的间距比较小，一般比行间距小，且一般字符大小都差不多，除了个别特殊位置上的字符。利用这个特征，将邻近字符串起来，就形成了一条线。多条线形成后，就有了多条线平行的特征，多条平行线就形成了一个模块。
不同的平行线形成的排版，就能将整个页面分割开来。

行检测完成后，就能检测行内的单个字符了。对于拉丁字符，空格是最小识别单位的特征，而一些语言的空格特征不明显，如中文字符，字、词之间空格没差别，词根之间也有空格，将一个连通区域作为一个独立的识别单位，这种识别方法缺少整体的识别能力，如字典等。一种解决方法是，先识别标点符号（punctuations），但对长句子，还是有局限性。

若存在多种语言混合编排的情况，字符的大小特征可能不一样，如拉丁与汉字。这就需要不同的语言字符，应用不同的阈值进行过滤。

3. 古斯拉夫语Cyrillic，类似俄语之类吧，小写字母x字符高度的估计
拉丁字符检测的方法，不适用于这种语言。
俄语的检测需要应用其他的特征。这里对俄语不熟悉，就忽略不看了。

4. 字、词的识别
包括分割、搜索及形状分类
字母语言的识别，与象形文字的识别，有很多不同。象形文字的词汇的边界不如字母文字清晰。
对于象形文字间的关联，tesseract应用最优优先搜索方法（best-first-search），在词典中寻找匹配的词汇，这个比字母词汇搜索需要更深的搜索层次。

形状分类
线宽、线长都可以作为字符的形状特征。对于一个字或字符，可以先粗略的分类，多选几个近似的分类,然后，再仔细的分类，从候选的类别选出可能的类别。

6. 上下文关联后处理
字典搜索

Ⅷ 编程语言都有哪些算法

（一）基本算法 : 1.枚举 2.搜索: 深度优先搜索广度优先搜索启发式搜索遗传算法（二）数据结构的算法（三）数论与代数算法（四）计算几何的算法：求凸包（五）图论算法： 1.哈夫曼编码 2.树的遍历 3.最短路径算法 4.最小生成树算法 5.最小树形图 6.网络流算法 7.匹配算法（六）动态规划（七）其他： 1.数值分析 2.加密算法 3.排序算法 4.检索算法 5.随机化算法

希望采纳

Ⅸ nlp算法是什么呢

1、nlp算法是自然语言处理算法。自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

2、自然语言处理（nlp）是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。

3、自然语言处理（nlp）并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

4、自然语言处理（nlp）主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

5、自然语言（nlp）的形式（字符串）与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看，我们必须消除歧义，而且有人认为它正是自然语言理解中的中心问题，即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。

导航:首页 > 源码编译 > 语言种类识别算法

语言种类识别算法

与语言种类识别算法相关的资料