语音算法引擎负责人_TTS是什么意思呢

① TTS是什么意思呢

TTS是指一项语音合成技术。

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。

文字转语音系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样。

(1)语音算法引擎负责人扩展阅读：

发展历史

1、17世纪法国人研发机械式的说话装置，直到19世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。

2、贝尔实验室在1939年制作出第一个电子语音合成器VODER，是一种利用共振峰原理所制作的合成器。

3、1960年，瑞典语言学家G. Fant则提出利用线性预测编码技术（LPC）来作为语音合成分析技术，并推动了日后的发展。

4、1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA，此技术可以合成比较自然的语音。

② 语音岗位职责

语音岗位职责

在当下社会，岗位职责使用的频率越来越高，岗位职责的明确对于企业规范用工、避免风险是非常重要的。岗位职责到底怎么制定才合适呢？以下是我帮大家整理的语音岗位职责，希望能够帮助到大家。

语音岗位职责1

一、严格按照课表规定的时间使用语音室，如有变动需经请示批准后执行。

二、实行坐班制，不迟到、早退、脱岗。管理员应于课前10分钟开门，课后10分钟内锁门，无课语音室不得长时间处于开门状态；上课前五分钟内，管理人员在各个语音室之间来回走动，必要时进入语音室，协助教师检查学生遵守语音室管理制度情况。

三、管理人员应钻研语音设备的使用及维护技术，经常与使用语音室教师沟通了解设备运行情况并听取意见，及时发现并处理设备故障，重大问题逐级汇报并迅速联系专业维修人员。

四、课后管理人员要认真检查各语音室设备是否出现故障,耳机等配件是否放在规定的位置上，以及学生座位有无缺损、涂写等现象，如有上述情况出现，根据《语音室使用记录表》追究最后一位使用者的责任。

五、负责语音室的安全及卫生。安排勤工助学学生定期打扫卫生并督促检查；锁门前务必检查门窗、电源等，出现异常情况需及时上报。如出现语音室门没锁好的情况，由当班管理员解决并承担责任。

六、做好语音室各种文字档案的搜集、整理和保管工作，包括《语音室基本情况表》、《语音室使用记录表》、《语音室维护记录表》、《语音室故障及维修记录表》、各种产品供应商的资料及其他文字资料。

七、做好语音室各种实物资料的整理和保管工作，包括各种启动光盘、使用说明、保修卡以及各种维修用工具、备件等

八、做好语音控制软件的维护工作，督促教师课前对u盘杀毒，并按时对杀毒软件进行病毒库升级。

七十四、多功能教室管理员岗位职责

一、多媒体与语言实验室工作人员必须坚守工作岗位，热情服务，虚心听取教师和学生的意见，不断改进工作方法和服务态度，努力提高服务质量。

二、严格遵守并执行多功能教室管理制度，维持正常良好的教学秩序。

三、负责管理多功能教室内一切机器设备，并对其登记造册，记录在案。

四、要定期擦拭机器和主控台，保持教室及教学设备的环境卫生。

五、做好机器设备的维护保养及维修工作，每学期至少应对设备进行一次大的检查和保养工作，以保证其性能良好。

六、严格执行学校的教学安排，根据教学课表使用多功能教室，没有经过学校领导同意管理人员不得擅自外借教室或将教室用于娱乐、聚会等活动。

七、机器使用结束后，应及时关断电源，锁好控制台，并注意防火、防盗，以保证媒体教室及设备的安全。

语音岗位职责2

职责描述：

1、用NLP相关知识研发智能问答系统的解决方案；

2、参与语义理解引擎与对话系统的设计与开发；

3、利用机器学习和NLP相关技术，参与构建行业/领域知识库，搭建知识管理平台；

4、实现应用产品解决方案，进行效果调优，并不断迭代产品效果。

任职要求：

1、计算机相关专业硕士，包括：自然语言处理、计算语言学、机器翻译、信息检索等；

2、熟悉自然语言处理、机器学习、深度学习等常用算法，熟悉NLP领域当前热点和前沿技术，对NLP有完整的、系统的认识；

3、有相关项目经历，包含但不仅限于以下方向：智能客服、文本分类、信息抽取、知识图谱、问答系统、对话系统等，有语音识别背景最佳；

4、熟练掌握C/C++编程语言；熟练使用Python，Shell等脚本语言；

5、良好的团队合作精神，较强的沟通能力；

6、优秀的分析和解决问题的能力，以及较强的`抗压能力。

语音岗位职责3

一、树立服务意识，端正服务态度，增强工作责任感，树立“服务、保障、协作、实干”的工作宗旨。

二、明确分工职责，刻苦钻研业务，不断提高业务水平，努力做到“科学化，规范化、程序化，人性化”的管理模式。

三、按照排课通知，提前做好教室使用的准备工作，检查并保证相关设备的正常运行。

四、耐心解答并帮助任课教师在使用过程中遇到的有关操作问题，课间经常巡回检查，发现问题及时排除。

五、每班使用结束后，及时检查有关设备的运行情况，检查老师填写的《使用情况表》，发生故障、损坏、遗失及其他事故，并立即向任课教师反映，作好书面记录。

六、保持各教室的安静、整洁，下班前切断水电，关好门窗。

七、电教设备一律不得外借，特殊情况，必须办理手续。

八、严格遵守学院的各项规章制度，杜绝上班期间擅离职守，做与工作无关的事情，切实履行有事外出请假制度。

九、完成领导交给的其它临时性工作。

;

③ 腾讯算法高级研究员陈松坚：智能问答技术及其应用

随着人工智能的飞速发展以及广泛落地应用，越来越多的设备将会被植入智能问答技术，人机交互场景随处可见，智能问答在未来将会成为一个非常重要的入口。

腾讯小知凭借着业界领先的智能AI引擎算法和海量大数据仓库，已将智能问答技术落地实施，并且经过大量的业务考验和优化，知识点匹配度和准确率都已达到90%以上，在2018 年 GITC 全球互联网技术大会上，腾讯小知荣获年度互联网最具价值产品奖。

腾讯小知算法负责人陈松坚也在会场发表了关于智能问答技术原理及其在To B场景下的应用的专题演讲，从自己的角度为我们展现智能问答技术的最新成果。

他首先从智能问答是什么，为什么和怎么做的三个问题出发，阐明了他对当前智能问答技术的定位和价值，首先，现阶段的智能问答是信息检索技术的升级，是量变而未达到质变。但是无论在To B还是To C的场景下，当前的技术都能够切实解决一些用户的痛点，提升用户体验，是亟待推进和充满想象的方向。

在回答怎么做这个问题时，他详细介绍了几种不同的问答机器人的实现路径，包括单轮丛敏问答机器人，多轮问答机器人及阅读理解机器人。其中重点阐述了单轮问答机器人的实现原理，包括字面匹配，词向量匹配，深度语义匹配，迁移学习等技术。

此后他还分享了小知团队将上述技术产品化的经验，包括智能客服机器人和电话机器人两大块，主要分享了当前产品的形态，亮点和实际项目中取得的一些成果。

最后，他简单总结了小知目前完成的工作以及就智能问答的发展提出了自己的几点看法。

--------------------------------------------------------------

以下是演讲稿全文：

各位下午好，很高兴今天能在这里给大家做分享报告。先介绍一下，我们腾讯小知是致力于为政府和各行业提供一揽子智能问答解决方案的团队，目前已经落地的包括基于文本的智能客服机器人和碧和基于语音的电话机器人等。

在大多数人的认知里，智能问答很可能是以上的3个印象，2011年打败了人类取得问答竞赛冠军的waston;2017年被沙特授予公民身份的机器人sofia;更为大家熟知的钢铁侠中的机器人管家jarvis。在大家心目中，智能就意味着能够像真人一样交流。然而作为从业者，很遗憾地告诉大家，目前的技术还远没有达到这个目标，我认为本质上目前的智能问答技术是对信息检索技术的一次升级，是量变而未到质变。这个皇冠上的明珠还等待我们去摘取。

既然问答技术还不成熟，那为什么还要投身到这个领域呢。我想从To B和To C两个角度去回答。对企业来讲，当前的问答技术虽然无法解答复杂的咨询，但是大部分的简单的头部问题是可以比较好的解答的。从本轮AI大潮NLP赛道的几名种子选手都从智能客服这个方向切入就可以看出企业是确实存在对智能问答的刚性需求。而对普通用户来讲，一方面siri等语音助手每天都在为用户提供便捷的交互界面，另一方面像amazon echo这一类的智能家居产品也逐步进入千家万户，成为物联网生态的中心入口之一，这便是智能问答的价值所在。

那如何实现智能问答机器人呢?我们先来看最基本的单轮问答机器人的实现原理。

熟悉搜索引擎的朋友会发现这个架构跟搜索引擎的很类似。单轮问答一般来说就是FAQ问答，是基于业务问答对组成的问答库进行检索匹配。其中FAQ问题集包含多个悔郑盯相似问法供用户问题去匹配。预处理阶段一般会进行文本纠错，标准化和底层NLP特征提取;召回阶段会在倒排索引中召回若干个候选问题(粗排)，而最后的匹配阶段会基于各种模型进行匹配打分并返回得分最高的结果(精排)。匹配阶段还会引入其他模块，如知识图谱和拒识模型，目的是辅助提升匹配的最终准确率。

retrieval中的匹配可以看做是naive solution，词袋+VSM, 筛选候选够用了，但是精排需要更精致的策略，第一，要利用监督信息做拟合，我们构建基于问题对的训练语料，拟合是否匹配这个二分类目标。第二，特征上抛弃稀疏的词袋模型，而是构造各种相似度来做base scorer，然后利用非线性的抗噪能力强的xgboost来做融合，比如我们用到词bigram, 字bigram, 核心词，名词等特征集合的相似度。这种方法的优缺点是一体的，由于模型只学习字面相似的特征，因此不受领域影响，通用性强，适合用在冷启动阶段;但也因为只考虑字面相似，无法处理更深层的语义匹配。

那如何度量语义的相似呢。词向量技术的兴起是语义匹配的前提，所谓词向量，是将孤立的传统的token表示映射到相互关联的向量空间中，这种关联性，或者说是相似性，是通过词语的上下文的来描述的。也就是说，上下文越相似的词语，他们的语义就越相似，词向量的欧式距离就越近。这是很容易理解的，更妙的是，通过对向量进行简单加减运算，能够呈现出概念的关系，比如king-man+woman的结果非常接近于queen, 因此说明词向量能够一定程度刻画语义。那对句子如何做向量表示呢?一个简单的想法是直接求和平均，WMD是另一个比较有意思且有效的做法，他将计算句子到句子的相似度建模成一个运输的问题，把句子p的各个词，运输到q的各个词上，也可以说是变换;运输成本是词向量的cosine相似度，而要运输的是各个词在句子中的权重，用线性规划求解一个最优解，即为p到q的距离。另外还有个有效的方法是SIF，思路是做词向量加权求和，但是突显出句子中非通用的部分，即权重用词频倒数来计算权重，实验效果也很不错。

上面的方法有一个问题就是没有利用有监督信息，所以效果有明显的天花板。下面介绍这个工作是基于深层网络做有监督学习的匹配的，做法也比较简单，首先把句子文本用one-hot编码，假如词典大小是500K，那编码完长度就是500K维，其实等于是词袋模型，然后输入到一个多层的神经网络去学习，最终得到一个128维的向量作为句子的语义表示，然后用cosine计算两个句子与文档的相似度作为模型输出。这个方法其实是将高维稀疏的token特征映射到低维语义空间，跟词向量的思路很类似，只不过训练目标不同，并且这里使用了深层网络结构。

但是CNN对上下文的处理能力依赖于窗口大小，远距离就没办法处理了，因此要考虑另一种网络单元RNN，这种单元是专门为时序模型量身打造的，简单来说，每一时刻t上的隐藏状态，或者说第t个词上的语义编码，都由两个输入共同决定，即上一时刻的隐藏状态和当前时刻的原始输入，而为了解决远距离传递导致的梯度消失和梯度爆炸等问题，RNN有一些变种结构来应对，比如 LSTM和GRU等。

CNN和RNN都是对原始输入进行语义编码的基本单元，编码后的向量就可以接入多层感知机进行相似度计算，如果是直接计算cosine相似度，那就是dssm的升级版，而更常见的做法是把两个句子的编码向量拼接在一起，再经过一个多层感知机计算相似度，而这种方法统称为表达式建模;

另一种方案考虑到两个句子之间的交互信息对学习他们是否匹配显然更为重要，这一类方案被称为交互式建模，右边是一个典型的例子，他最大的不同是首先对两个句子的所有窗口组合进行拼接和卷积，得到交互信息。然后再进行多次卷积和池化得到表示。其他的交互方式还包括编码之后，进行交互操作，如作差，点乘等，还有计算attention表示，也是常见的交互方式。

下面介绍我们的方案，跟上面介绍的模型相比，我们的方案主要做了两处改动，一个是使用了稠密连接的网络结构，让rnn层的输入和输出拼接在一起做为下一层的输入，第二个是混合注意力机制，即在计算attention向量进行交互式建模的基础上，增加self-attention向量计算，然后把两个attention向量经过门机制进行融合，这样做一方面引入了问句间的交互信息，同时又增强了对自身的表达建模。

上面的模型是比较复杂的模型，参数量有5.8M。在实际中应用中训练语料会严重不足，为了解决这个问题，我们引入了迁移学习的策略。首先第一种是多任务联合学习，比如在拟合两个问句是否匹配的同时，也对问句进行分类预测;另外还可以同时对匹配的问题对做seq2seq的翻译模型训练。这两个策略都证明能有效提升准确率。

而另一个思路更加直观，即引入其他领域的语料，所谓多语料迁移。Fine-tune即参数微调是其中一种做法，即先用通用语料训练网络，固定底层表达层的参数，然后再使用领域语料调整上层参数;另一种思路参考了对抗学习的思想，即引入一个新的任务“混淆分类器”去判别当前样本是来自源语料还是目标语料，通过在损失函数中增加反向的混淆分类损失项，让混淆分类器尽可能地无法区分样本的来源，从而保证共享了参数的表达网络能够学习到两部分语料中共性的部分。

以上的介绍都是为了完成一个基本的单轮对话机器人，而实际应用中，往往存在需要需要交互的场景，比如查询社保余额，就需要用户提供指定信息，如姓名，身份证号，手机号等。这种是所谓任务导向型机器人，而另一种，基于知识图谱的机器人也往往会涉及到多轮交互。这里简单介绍一下多轮对话机器人的架构，整体上是一个对话管理系统，总的来说是管理会话状态，包含4个模块，分别是输入部分：自然语言理解模块NLU，负责意图识别和抽取槽位实体，比如这里匹配到了意图是查询社保余额，抽取到了社保号1234。得到的意图和槽位值会送入到对话状态追踪模块，DST，他负责会话状态的更新，形式化来说是一个函数，输入是当前状态s和当前的query经过NLU处理过得到的意图和槽位值q, 输出新的状态s‘，下一步是把s’送入DPL，对话策略模块，这个模块是根据新的状态s‘输出行动a，通常这个决策选择会依赖于一个外部数据库或知识图谱，最后，由输出部分，自然语言生成模块NLG负责将行动转换为自然语言文本，返回给用户。

前面提到的单轮FAQ机器人，有一个问题是问答准确率依赖于问答库的质量，而问答库的构建耗时费力，所以针对数据较大的非结构化文档，如果可以直接从中抽取答案，是非常理想的做法。比如斯坦佛大学开源的drQA，就是基于wikipedia的语料做的一个开放域上的问答机器人，我们来看看这种阅读理解机器人的架构示意，他也是基于检索重排的思路，首先把可能的文段从语料库中摘取出来，然后送入阅读理解模型进行答案定位，打分，排序和选择得分最高的答案。阅读理解模型与匹配模型是类似的，需要先对问题和候选文段进行编码表示，不同之处在于最终预测的目标是答案的起始和结束位置。我所在的团队在去年，在阅读理解的权威公开测评Squad v1中取得过第一的成绩，同时参加这个测评的包括了google, facebook, 微软，阿里idst, 科大讯飞等国内外同行。说明业界对这种技术还是非常看重的。

下面分享小知在把以上技术落地产品化的经验。首先我们来看看小知的整体架构图，核心引擎有两部分，一块是上面重点阐述的深度语义匹配模型，另一块是本次分享没有展开的知识图谱引擎，在此之上，我们构建了FAQ机器人，多轮会话机器人(任务机器人)，闲聊机器人等。以下是我们单轮和多轮机器人的示例。

在我们实际的落地项目中，得益于深度迁移模型的语义匹配能力和行业知识图谱的的精准匹配和辅助追问，小知机器人能够做到95%左右的问答准确率，并且节省了50%以上的服务人力，切实为政府和企业提升效率和降低成本。

在智能客服的基础上，我们又打造了基于语音的电话机器人，力主融合智能客服，人工在线客服，工单系统和电话机器人，为客户打造从售前售中售后的整体解决方案。

以下是电话机器人的整体架构图，核心是自然语言理解NLU模块，负责识别用户提问意图

提取相关实体。根据NLU输出的结果，内置的对话管理引擎会进行流程状态流转和跟踪。

另外，ASR语音识别和TTS语音合成是不可或缺的重要服务，这三个模块相互协作，共同完成与用户的交互。

最后对智能问答的未来发展提几点我的看法。目前学术界比较公认的一个方向是，需要更有机地结合模型和规则，而在问答领域，规则的一大组成部分就是知识图谱，包括开放领域的知识图谱和专业领域知识图谱。而更进一步地，我们需要研究带有推理性质的事理型知识图谱去描述领域内的规则和知识，让机器人能够处理带有复杂条件的问题，提供更智能的回复。在我看来，智能问答的一个突破口就在于解决以上三个问题。以上就是今天分享的内容，谢谢大家。

主讲人介绍：

陈松坚，腾讯数据平台部算法高级研究员，有着8 年的 NLP 研发经验，2017 年加入腾讯 TEG 数据平台部，负责智能客服产品腾讯小知的算法规划和落地。负责过多个智能客服项目，对封闭领域的智能问答有丰富的实战经验。

④ 微软亚洲研究院的管理团队

院长洪小文博士
洪小文博士现任微软亚洲研究院院长，负责研究院在互联网搜索、数据挖掘、语音技术，及自然语言处理技术、系统、无线与网络、平台器件以及媒体通信等领域的研究管理工作。洪盯世博士同时还负责搜索技术中心（STC）及MSN/Live在中国搜索产品的开发。
来到中国之前，洪博士曾担任微软公司自然互动服务部门的架构师，在架构和技术层面上对微软语音服务器、自然用户界面平台和微软支持平台等诸多获奖产品的开发做出了突出的贡献。洪博士1995年加入微软总部任高级研究员。此前，洪博士曾任苹果公司的Apple-ISS研究中心的技术总监，带领其团队研发出苹果中文听写机产品并获得多项工业界大奖。
洪小文博士是美国电机电子工程师学会院士(IEEEFellow)和《Communication of the ACM》期刊的编委，在多种国际着名学术刊物及大会上发表过100多篇的学术论文。洪博士毕业于台湾大学，获得电机工程学士学位，之后继续深造于卡内基梅隆大学，并先后获得计算机科学硕士及博士学位。
常务副院长马维英博士
作为微软亚洲研究院的常务副院长，马维英博士负责带领研究团队从事互联网搜索和数据挖掘、自然语言计算以及人机交互等领域的研究工作。过去几年里，马维英博士的研究团队已经有大量的核心技术转化进微软搜索和在线服务产品中。他的团队还在国际重要学术会议和期刊上发表了许多高水平论文，包括国际信悔则闭息检索大会（SIGIR）、国际互联网大会（WWW）和国际多媒体大会（ACM Multimedia）等。在马博士的带领下，他的团队在互联网搜索和数据挖掘以及多媒体信息检索等研究领域的突出成就得到国际学术界的广泛认可。
在2001年加入微软亚洲研究院之前，马维英博士从1997年开始一直在美国加州的惠普实验室工作，从事多媒体自适应传输和移动因特网的分布式多媒体服务系统碧裂的研究。从1994年到1997年攻读博士学位期间，马维英博士参与了加州大学圣芭芭拉分校的Alexandria数字图书馆（Alexandria Digital Library）项目，在此过程中，他开发的互联网图像检索系统Netra被其他研究人员广泛引用，并且被认为是最具代表性的图像检索系统之一。
马维英博士是ACM信息系统学刊（TOIS）和ACM/Springer多媒体系统学报的编委。同时，他是第17届国际互联网大会（WWW）的程序委员会联合主席，2007环太平洋多媒体大会（PCM）的程序委员会主席，2008亚洲信息检索研讨会（AIRS）联合主席。马维英博士曾经担任过2005国际多媒体建模大会（MMM）、2005国际图像和视频检索大会（CIVR）的联合主席。另外，他还参与组织其他许多国际重要会议并担任程序委员会成员，比如ACM Multimedia, SIGIR, CIKM, KDD, 和WWW等学术大会。迄今为止，马维英博士已经在互联网搜索、信息检索、基于内容的图像检索、数据挖掘、自适应内容传输和移动访问等领域发表了250余篇论文。
马维英博士于1990年本科毕业于台湾清华大学电气工程系，之后于1994年和1997年分别获得美国加州大学圣芭芭拉分校（UCSB）电气和计算机工程系硕士和博士学位。
常务副院长郭百宁博士
郭百宁博士现为微软亚洲研究院副院长，主要从事网络图形学技术、基于网络应用的虚拟环境技术、几何模型、基于图像的模型和绘制、纹理合成、真实感图形图像技术等领域的研究。
郭百宁博士是美国电气电子工程师协会视觉及计算机图形学会刊的副主编。他曾经担任过国际程序委员会的委员，参加过多届国际图形学大会，包括美国计算机学会举办的国际计算机图形学大会（ACM SIGGRAPH），美国电气电子工程师协会举办的国际计算机可视化大会（IEEE Visualization），欧洲计算机绘制技术大会（Eurographics Symposium on Rendering），亚太计算机图形学大会（Pacific Graphics），美国计算机学会举办的虚拟现实软件与技术大会（ACM Symposium on Virtual Reality Software and Technology），美国计算机学会举办的固体与物理建模大会（ACM Symposium on Solid and Physical Modeling）。郭博士在国际着名杂志和学术会议上发表了七十多篇学术论文并拥有四十多项技术专利。
郭百宁博士于1999年加盟微软中国研究院（亚洲研究院前身）。此前他是美国英特尔公司硅谷总部研究院的资深研究员，负责下一代图形系统的研究。郭百宁博士在美国康乃尔大学获得硕士和博士学位，在北京大学获得学士学位。
常务副院长赵峰博士
赵峰博士，微软亚洲研究院常务副院长，主要负责机算机系统、无线与网络、硬件计算、软件分析等领域的研究工作。
在加入微软亚洲研究院之前，赵博士是微软总部雷德蒙研究院的首席研究员，负责网络嵌入式计算组。他领导开发了微软研究院传感器尘粒、微型网络服务、SenseWeb和SensorMap、数据中心基因组、焦耳计量器以及GAMPS数据压缩。借助多项赵博士研发的技术，如今的微软数据中心被誉为全球仪表化与监控最为密集的云计算基础架构。
赵博士是美国电机电子工程师学会院士(IEEE Fellow)，《美国计算机学会传感网络汇刊》(ACM Transactions on Sensor Networks)的创刊总编辑，并且撰写或合作撰写了超过100篇技术论文和书籍，其中包括摩根考夫曼出版的《无线传感器网络：信息处理方法》（与Leo Guibas合着）。赵博士获得过许多奖项，其中包括美国斯隆研究奖(Sloan Research Fellow), 美国国家科学基金青年研究奖(US National Science Foundation (NSF) Young Investigator Award )与美国海军研究局青年研究奖(Office of Naval Research (ONR) Young Investigator Award)。他的研究曾被BBC国际频道，商业周刊及科技评论等着名新闻媒体报道。
赵博士毕业于上海交通大学，并在美国麻省理工学院(MIT) 获得电机工程与计算机科学博士学位。在加入微软之前赵博士曾在位于硅谷的施乐帕洛阿尔托研究中心(Xerox Palo Alto Research Center) 担任首席科学家工作，领导该中心的传感器网络研究，并任教于美国俄亥俄州立大学和斯坦福大学。
技术战略总监张益肇博士
张益肇博士于1999年7月加盟微软亚洲研究院，从事语音方面的研究工作。现任微软亚洲研究院资深技术战略总监，负责研究项目沟通，知识产权资产管理，新的研究课题管理。履任微软亚洲研究院新职位之前，张博士任微软亚洲工程院副院长，是2003年工程院的创建者之一。在工程院，他带领团队开发Windows Mobile和Windows的产品，并建立起一支多学科技术产品孵化的团队。在加入工程院之前，张博士曾担任研究院语音组主任研究员和高校关系总监，他的团队成功的把汉语普通话语音识别引擎转化到了中文版Office和Windows中。
他曾是Nuance Communications公司研究部的创始人之一，该公司是电信领域自然语言界面研究的先驱。在Nuance工作期间，他曾从事自信度分析，声学建模，语音检测等领域的研究工作。他领导研究人员开发了 Nuance产品的日文版本，这是世界上第一个开放式日语语音识别系统。他还曾在麻省理工的林肯实验室开发出了新的语音识别算法，在东芝 ULSI 研究中心发明了一种新的电路优化技术，在通用电气公司的研发中心开展了模式识别方面的研究。
张博士毕业于麻省理工学院，获电气工程和计算机科学学士、硕士和博士学位。他在国际着名的杂志和学术会议上发表了多篇关于语音技术和机器学习方面的论文，是多项专利的拥有者。
副院长李世鹏博士
李世鹏博士于1999年5月加入微软亚洲研究院，现任副院长、首席研究员及多媒体计算组主任研究员。李博士同时负责协调微软亚洲研究院多媒体领域的研究工作。他的研究兴趣为信号与图像处理、媒体内容分析、图像与视频编码、高清电视技术、多媒体在无线与网络上的通信与在线播放技术、可伸缩媒体编码技术、应用层网络技术、数字版权管理、无线通信与网络、P2P网络技术、新媒体格式及系统、多媒体广告技术、数字医疗及用户意向挖掘等等。
从1996年10月至1999年5月，李博士在美国Sarnoff公司（前身为David Sarnoff研究中心及RCA实验室）多媒体技术实验室任研究员。李博士致力于广泛的多媒体领域的研究工作。他对MPEG-4和H.264国际标准里图像和视频编码技术作出重大贡献。1998年他发明和研制了世界上第一个高质量低成本的高清电视解码器。早在2000年他就在微软亚洲研究院发起了P2P传输流媒体的研究工作。他带领他的团队在2001年率先成功地研发了横跨太平洋的基于可伸缩视频编码的流媒体系统原型。他是可伸缩编码的倡导者并对H.264/AVC国际标准里的可伸缩扩展标准的制定起了巨大的推进作用。他于2006年首先提出5“D”的多媒体2.0概念，对新一代互联网多媒体的研究和发展指出了方向。他在图象/视频处理、压缩和通信、数字电视、多媒体及无线通信领域写作和合着超过200多篇国际学术论文，还拥有60多项被批准的和90多项正在被批准的相关美国专利。他合着了Marcel Dekker出版的专着《多媒体系统、标准和网络》（2000）、Wiley & Sons出版的《Wiley通信大网络全书》（2003）、Academic Press出版的《IP与无线网络中的多媒体》（2005）中的有关多媒体编码的章节。他合编了SPIE出版的《视觉通信及图像处理专刊》（2005）以及Springer出版的《计算机科学讲座：多媒体信息处理进展》（2008）。
李博士是IEEE电路和系统协会视频信号处理和通信委员会秘书长、多媒体系统与应用委员会会员，IEEE通信协会多媒体通信委员会委员，IEEE信号处理协会多媒体信号处理委员会历任委员。他现任《IEEE视频技术的电路与系统》期刊及《视频通信和图像表达》期刊的副主编。他担任过IEEE PCM2000特殊程序主席、IEEE PCM2001会务主席、VCIP2005程序主席、Packet Video 2006大会主席、ICME 2006领域主席、IEEE ISM 2006宣传主席、IEEE PSIVT 2006主题主席、IEEE SiPS 2007评奖主席、IEEE ICME 2007特殊程序主席、PCM 2008的程序主席、及ISCAS 2009领域主席。他还担任着VCIP 2010和CIVR 2010的大会主席。李博士同时还在几十个国际多媒体大会上担任过技术委员会委员。
李博士是山东大学、四川大学、华中科技大学、上海交通大学、香港中文大学、南开大学和天津大学的客座教授，同时也是中国科学技术大学和上海交通大学的兼职博导。
李博士于1988和1991分别获得中国科学技术大学无线电系学士和硕士学位。他于1996年获得美国宾州Lehigh大学的电机系博士学位。他曾于1991至1992在中国科学技术大学无线电系任助教。
李博士是中国科学技术大学历史上至今唯一的一个两次（1987、1991）郭沫若奖学金的获得者。他也是第一个同年获得两次Sarnoff成就奖的研究员（1997）。李博士曾获得VCIP 2007最佳论文奖、MMSP 2008最佳论文奖（海报）、以及《IEEE视频技术的电路与系统》期刊（2009）最佳论文奖。他指导的学生获得了VCIP 2005最佳学生论文奖。在微软亚洲研究院的十年中，李博士培养了三位MIT TR35奖（世界上35岁以下的最有潜力的35位创新者）的获得者。
副院长张峥博士
张峥博士于2002年加入微软亚洲研究院多媒体组，任项目负责人。张峥博士是微软亚洲研究院副院长兼首席研究员，负责系统和网络研究领域（含系统研究组和无线和网络研究组）。张峥博士曾任多个国际会议技术委员会委员，包括IPTPS, ICDCS, WWW, USENIX MobiSys，USENIX ATC等。
张峥博士1984年就读于复旦大学电子工程系；1987年作为复旦大学首批本科跳级的13名学生之一进入研究生课程；1990年赴美国德州大学达拉斯分校留学；1992年获硕士学位后，于1993年春转至伊利诺思香槟分校求学（UIUC），并于1996年秋获得博士学位。此后，张峥博士一直在惠普中央实验室工作,其研究领域涉及高性能超级计算机系统结构和大规模分布式系统, 有多项成果在国际相关会议发表，取得专利，并成功转移到产品中。
张峥博士也是网络杂志《新语丝》和《国风》的创办人之一，以“竹人”为笔名主持编辑《海外留学生年度诗选》首二卷，并曾在《国风》主持《艺廊》及《半瓶诗铺》专栏。
副院长宋罗兰
宋罗兰于1994年加入美国微软任系统工程师，之后前往东京负责微软在中国、日本、韩国、台湾、香港等国家及地区的商业应用系统开发，包括销售、市场、客户支持、人事以及行政。她成功管理过多个关键项目并积累了丰富的技术管理经验。她建立了一个全新的亚洲区IT团队：从招聘人才，制定战略计划，到管理几百万美金的运作资金。因为出色的工作，宋罗兰被提升为高级地区IT经理，负责亚洲12个子公司的业务。
1999年宋罗兰回到美国总部担任高级项目经理，负责系统设计、开发、测试以及公司网站的后台主要系统运作支持。其后，她作为高级商务经理，开发全球技术社区，并与亚洲、欧洲、非洲、以及拉美的团队一起将“MVP”（最有价值的专家）推广到全球，使之成为全球技术社区最成功的项目之一。
经过19年的海外生活，宋罗兰于2004年8月回到北京出任微软亚洲研究院高校关系部总监，负责整个亚洲地区的高校关系。她以极大的热情投入到新的工作中，并希望她的热情与经验能够帮助年轻一代挖掘并能完全发挥他们的潜质。

导航:首页 > 源码编译 > 语音算法引擎负责人

语音算法引擎负责人

语音岗位职责1

语音岗位职责2

语音岗位职责3

与语音算法引擎负责人相关的资料