学术论文百科

语音识别中的人工智能论文怎么写好

发布时间:2024-07-08 14:02:20

语音识别中的人工智能论文怎么写好

回答 交通: 智能系统实现安全畅通和智能交通系统是一种先进的运输管理模 式。 中国科学院自动化研究所副所长、复杂系统与智能科学重点实验室主任王飞跃介绍说, 人工系统主要利用计算机仿真技术,通过监测人们出行的行为计算交通流。农业: 农业专家系统可以代替农业专家群体走向地头,进入普通农家,并指导农民科学种田。 农业专家系统包含了农业各个领域的专家经验、知识,如作物栽培、植物保护、配方施 肥、农业经济效益分析等等。医学: 医疗专家系统可以把有关的医药知识和许多著名医生的临床经验都存储在计算机中, 根据病人的症状计算机可快速调用这些医学知识,自动进行辨症推理,确定病因,开具处方。 这些方面哦~亲

人工智能与机器人期刊上的专业文献不知道有没有你这类课题的研究,你可以通过关键词去检索下相关文献参考参考哈

人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。

工智能论文要抓住现在智能的特点。例如是语音操控还是 是手机操控。现在比较流行懒人模式,都是语音操控的比较多。

人工智能语音识别论文怎么写好写

屌丝和高富帅幸福的生活在一起

人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。

工智能论文要抓住现在智能的特点。例如是语音操控还是 是手机操控。现在比较流行懒人模式,都是语音操控的比较多。

人工智能是使用计算机编写的程序可以与人交流,使人感到与之交流的是一个人,而不是一台机器,比如可以和人下棋的计算机 程序,或者可以帮人决策的程序,如专家系统,如帮助病人的医疗诊断程序,或者帮助人决定投资的程序,人工智能应用范围很广。比如:博弈、自动推理、专家系统、自然语言理解、规划和机器人学、机器学习等。人工智能是一种计算机程序,可以辅助人们解决一些问题。

语音识别中的人工智能论文怎么写

所谓智能语音技术,就是研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方法,涉及语音识别、内容理解、对话问答等。一般来说,智能语音就是利用计算机对语音信息进行自动处理和识别的技术。

多媒体、网络技术与期刊编辑新变革 【内容提要】学术科技期刊的现状已不能适应科学技术的迅猛发展和读者的多样化需求 ,多媒体、网络技术的发展和应用将引发传统编辑手段的全面变革。学术科技期刊实现 全程电脑化的时机已逐渐趋向成熟。计算机技术的日新月异将使学术期刊编辑方法和手 段不会仅仅停留于简单的键盘输入和排版。目前,多媒体技术、网络技术的各种手段运 用于学术科技期刊的编辑出版发行,尚处于初始阶段,但不久将会全面而深入地展开。 【关 键 词】学术性期刊/编辑出版/多媒体技术/网络技术 【 正 文 】 一 计算机技术的发展日新月异,在未来的几年中,各种计算机相关技术都会得到飞速 发展和应用,使计算机变得更加人性化,智能化。而多媒体技术与网络技术的迅猛势头 对传统学术科技期刊带来的影响尤为深远。 目前,学术科技期刊的现状已不能适应科学技术的迅猛发展和读者的多样化需求, 纸介学术科技期刊,以传统的方式办刊,不仅难以在市场经济潮流中站稳脚跟,而且也 正受到计算机和多媒体网络技术、电子报刊和电子出版物的挑战。学术科技期刊必须面 对社会发展的现实,转变传统的期刊编辑出版模式,迅速实施期刊编辑出版的计算机化 ,并逐步实现向多媒体、网络化编辑的转变和过渡。使学术科技期刊所承载的信息更加 高速、全面、方便、准确地传至读者手中。 按照常规的期刊出版流程,作者的稿件经编辑加工后,由印刷厂录入排版,打出校 样,经过数次校对,然后制版印刷。如果利用作者的磁盘文件,在电脑上编辑加工,则 可省去排版输入程序,编辑人员坐在计算机前改稿把关,减少了校对次数,却又同时减 少出错的概率,并且大大减轻由重复输入造成的精力和时间的浪费,缩短出版周期。 值得指出的是,随着多媒体技术和网络技术的蓬勃兴起,越来越多的作者已不满足 于稿件软盘的寄递,而是希望用电子邮件把自己的稿件发送到编辑部的电子信箱中,出 版部门只要运行电脑中设置的E —mail程序,就可在计算机显示屏上看到作者的来稿。 在另一方面,计算机技术又始终处于高速发展的进程中。处理器速度不断得到提高 ,硬盘的容量也正以每年60%的幅度在增长,但是价格却在持续下降。1994年1兆字节 的价格为1美元,到1998年1 兆字节就只值5美分了。如果说, 以前阻滞我国学术科技 期刊电脑化进程的多为财经方面的原因,今天已经不成为太大的障碍。 问题主要在于,由于传统期刊编辑、出版和发行的配套运作已相对成熟,整个流通 程序比较固定和规范,而采用一种新的编辑形态,就意味要有相应的人员管理及工作运 作方式的变更。有些期刊编辑出版部门因此宁愿稳妥地在其固有领域及方式上保持观望 ,而不愿在这方面进行人员、资金和其他方面的投入,反映了一种认识上的误区。 应该看到,学术期刊实现全程电脑化已逐渐趋向成熟。而且,计算机技术的日新月 异的发展趋势还表明:学术期刊编辑方法和手段不会仅仅停留于目前较为普遍的简单的 键盘输入和排版。多媒体和网络的各种技术手段全面运用于学术期刊的编辑出版的前景 必将成为现实。多媒体技术和网络技术给予我们一个发挥创造力和提升人本身智慧能力 的机会。信息技术正在潜移默化地改造我们的听觉、视觉、嗅觉、触觉,改变着人类传 统的时空观念,社会运动方式,伦理道德观念和法律环境。这场席卷全球的革命刚刚从 改变我们的行知模式开始,正以坚定的步伐深入我们生活的每一个侧面,改造行业社会 生活的每一个角落,更改造着人们认识生活,思考世界的观点、方法。 二 多媒体技术是指用计算机对文字、图形、声音、动画、影像等多媒体信息进行综合 数字化处理的计算机技术。多媒体技术主要应用于多媒体个人计算机、多媒体信息管理 系统、多媒体通信、多媒体电子出版物等,近期以来,运用多媒体手段来对学术科技期 刊进行编辑加工、行政管理和发行宣传,也成为一种显著的趋向。多媒体技术的应用将 引发传统编辑手段的全面变革。传统编辑方法与手段同多媒体技术结合后,将给未来学 术科技期刊的编辑工作带来全新的变化。 多媒体技术与计算机、网络技术、通信技术、数字技术的结合,使期刊出版工作过 程和学术科研信息传播不受时间、地点、国界、环境等影响,这将有利于提高世界信息 的流通速度,促进远隔重洋的各民族文化科技的及时交流。 多媒体综合了报纸、广播、电视等功能,将文字、声音、图像、动画等要素结合起 来,这一结合也成为学术期刊编辑、发行的一种全新形式,给受众以全方位的、多维的 信息,光纤通道将电视网、电话网、计算机网三网合一,使三大传统媒介开始走向高度 的综合。 充分利用多媒体文、图、声、像的优势,有利于全面提高学术期刊编辑工作效率和 刊物质量,促进电脑多媒体编辑技术的有的放矢地发展,并为今后计算机技术的普及、 繁荣打下良好基础。 多媒体编辑要处理大量的3D图形、 数字音频和视频信息, 还有从Web网络传来的 高带宽信息。加速图形端口(AGP)即将大量投入应用,这是一种用来连接CPU和图形加 速器、比PCI更快的总线,AGP 同时还提供图形适配器与系统内存之间的连接,有了这 种连接,在3D应用程序中就可以将大量的纹理贴图保存在系统内存中。到2000年,所有 的图形都将是3维, 使用字处理或者电子表格软件的人将不会觉察到有什么不同。 近期出版的一些专业电子排版系统,已集文字处理与图形图像处理功能于一身。不 仅大大降低了此前许多排版软件在文稿中植入特定图像时的繁琐操作和不便,而且可以 利用软件提供的多种绘图、制图功能,使非美工专业人员也能方便地制作出具有专业水 准的图形图像,并通过手写板或扫描仪顺利实现图文混排。使数学、化学、物理等科学 公式的排版简便规范,同时提供各种流程图、电子电路以及各类图库。 近日,IBM公司分别推出中、英文语音识别系统的语音录入软件,它们以声音接收 装置为媒介,将阅读文稿的语音直接转化成计算机上文本的版面,尽管目前此类软件在 配置、环境、程序设计等方面有不少尚待完善之处,但随着新的优化软件的不断问世, 它必将极大地提高文字输入的速度,从而最大限度地改变期刊计算机排版采用键盘输入 的格局。可以预见在不久的将来,我们真的可以与计算机进行交谈,正如一些科幻电影 中描述的一样,计算机可以听懂我们话语,并按我们所说的去做。 多媒体技术的发明,终于使人和机器从原来的对立中摆脱出来,人性化的局面、虚 拟现实的出现,直到人工智能的进步,语音的输入使我们刹时感到PC已不再冰冷,芯片 上已能出现人的情感,而且是高智能的集成。 随着计算机网络以及电子邮件中可视图像和活动声像传输的成为现实,将进一步产 生期刊在稿件传递、审稿阅稿、修改校对、联系沟通、装帧质量、出刊速度全方位的突 破。

人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。

语音识别中的人工智能论文怎么写的

人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。

工智能论文要抓住现在智能的特点。例如是语音操控还是 是手机操控。现在比较流行懒人模式,都是语音操控的比较多。

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。  语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。  语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。  根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。  另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。  语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。  * 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。  * Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。  MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。  HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。  语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。  英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。  N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。  语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索  连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。  Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。  由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。  N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。  前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现   语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。  听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。  对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性   语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。  解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。  说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。  语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎   微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标   语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。  小结  以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

人工智能语音识别论文怎么写

屌丝和高富帅幸福的生活在一起

人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。  语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。  语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。  根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。  另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。  语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。  * 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。  * Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。  MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。  HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。  语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。  英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。  N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。  语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索  连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。  Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。  由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。  N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。  前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现   语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。  听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。  对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性   语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。  解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。  说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。  语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎   微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标   语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。  小结  以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

VeryCD上的电子书 书名:SBIA 2004——人工智能的最新进展Advances in Artificial Intelligence走近人工智能 人工智能(Artificial Intelligence,AI)一直都处于计算机技术的最前沿,经历了几起几落…… 长久以来,人工智能对于普通人来说是那样的可望而不可及,然而它却吸引了无数研究人员为之奉献才智,从美国的麻省理工学院(MIT)、卡内基-梅隆大学(CMU)到IBM公司,再到日本的本田公司、SONY公司以及国内的清华大学、中科院等科研院所,全世界的实验室都在进行着AI技术的实验。不久前,著名导演斯蒂文·斯皮尔伯格还将这一主题搬上了银幕,科幻片《人工智能》(AI)对许多人的头脑又一次产生了震动,引起了一些人士了解并探索人工智能领域的兴趣。 在本期技术专题中,中国科学院计算技术研究所智能信息处理开放实验室的几位研究人员将引领我们走近人工智能这一充满挑战与机遇的领域。 计算机与人工智能 "智能"源于拉丁语LEGERE,字面意思是采集(特别是果实)、收集、汇集,并由此进行选择,形成一个东西。INTELEGERE是从中进行选择,进而理解、领悟和认识。正如帕梅拉·麦考达克在《机器思维》(Machines Who Thinks,1979)中所提出的: 在复杂的机械装置与智能之间存在长期的联系。从几个世纪前出现的神话般的巨钟和机械自动机开始,人们已对机器操作的复杂性与自身的某些智能活动进行直观联系。经过几个世纪之后,新技术已使我们所建立的机器的复杂性大为提高。1936年,24岁的英国数学家图灵(Turing)提出了"自动机"理论,把研究会思维的机器和计算机的工作大大向前推进了一步,他也因此被称为"人工智能之父"。 人工智能领域的研究是从1956年正式开始的,这一年在达特茅斯大学召开的会议上正式使用了"人工智能"(Artificial Intelligence,AI)这个术语。随后的几十年中,人们从问题求解、逻辑推理与定理证明、自然语言理解、博弈、自动程序设计、专家系统、学习以及机器人学等多个角度展开了研究,已经建立了一些具有不同程度人工智能的计算机系统,例如能够求解微分方程、设计分析集成电路、合成人类自然语言,而进行情报检索,提供语音识别、手写体识别的多模式接口,应用于疾病诊断的专家系统以及控制太空飞行器和水下机器人更加贴近我们的生活。我们熟知的IBM的"深蓝"在棋盘上击败了国际象棋大师卡斯帕罗夫就是比较突出的例子。 当然,人工智能的发展也并不是一帆风顺的,也曾因计算机计算能力的限制无法模仿人脑的思考以及与实际需求的差距过远而走入低谷,但是随着硬件和软件的发展,计算机的运算能力在以指数级增长,同时网络技术蓬勃兴起,确保计算机已经具备了足够的条件来运行一些要求更高的AI软件,而且现在的AI具备了更多的现实应用的基础。90年代以来,人工智能研究又出现了新的高潮。 我们有幸采访了中国科学院计算技术研究所智能信息处理开放实验室史忠植研究员,请他和他的实验室成员引领我们走近人工智能这个让普通人感到深奥却又具有无穷魅力的领域。 问: 目前人工智能研究出现了新的高潮,那么现在有哪些新的研究热点和实际应用呢? 答: AI研究出现了新的高潮,这一方面是因为在人工智能理论方面有了新的进展,另一方面也是因为计算机硬件突飞猛进的发展。随着计算机速度的不断提高、存储容量的不断扩大、价格的不断降低以及网络技术的不断发展,许多原来无法完成的工作现在已经能够实现。目前人工智能研究的3个热点是: 智能接口、数据挖掘、主体及多主体系统。 智能接口技术是研究如何使人们能够方便自然地与计算机交流。为了实现这一目标,要求计算机能够看懂文字、听懂语言、说话表达,甚至能够进行不同语言之间的翻译,而这些功能的实现又依赖于知识表示方法的研究。因此,智能接口技术的研究既有巨大的应用价值,又有基础的理论意义。目前,智能接口技术已经取得了显著成果,文字识别、语音识别、语音合成、图像识别、机器翻译以及自然语言理解等技术已经开始实用化。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘和知识发现的研究目前已经形成了三根强大的技术支柱: 数据库、人工智能和数理统计。主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。 主体是具有信念、愿望、意图、能力、选择、承诺等心智状态的实体,比对象的粒度更大,智能性更高,而且具有一定自主性。主体试图自治地、独立地完成任务,而且可以和环境交互,与其他主体通信,通过规划达到目标。多主体系统主要研究在逻辑上或物理上分离的多个主体之间进行协调智能行为,最终实现问题求解。多主体系统试图用主体来模拟人的理性行为,主要应用在对现实世界和社会的模拟、机器人以及智能机械等领域。目前对主体和多主体系统的研究主要集中在主体和多主体理论、主体的体系结构和组织、主体语言、主体之间的协作和协调、通信和交互技术、多主体学习以及多主体系统应用等方面。 问: 您在人工智能领域研究了几十年,参与了许多国家重点研究课题,非常清楚国内外目前人工智能领域的研究情况。您认为目前我国人工智能的研究情况如何? 答: 我国开始"863计划"时,正值全世界的人工智能热潮。"863-306"主题的名称是"智能计算机系统",其任务就是在充分发掘现有计算机潜力的基础上,分析现有计算机在应用中的缺陷和"瓶颈",用人工智能技术克服这些问题,建立起更为和谐的人-机环境。经过十几年来的努力,我们缩短了我国人工智能技术与世界先进水平的差距,也为未来的发展奠定了技术和人才基础。 但是也应该看到目前我国人工智能研究中还存在一些问题,其特点是: 课题比较分散,应用项目偏多、基础研究比例略少、理论研究与实际应用需求结合不够紧密。选题时,容易跟着国外的选题走; 立项论证时,惯于考虑国外怎么做; 落实项目时,又往往顾及面面俱到,大而全; 再加上受研究经费的限制,所以很多课题既没有取得理论上的突破,也没有太大的实际应用价值。 今后,基础研究的比例应该适当提高,同时人工智能研究一定要与应用需求相结合。科学研究讲创新,而创新必须接受应用和市场的检验。因此,我们不仅要善于找到解决问题的答案,更重要的是要发现最迫切需要解决的问题和最迫切需要满足的市场需求。 问: 请您预测一下人工智能将来会向哪些方面发展? 答: 技术的发展总是超乎人们的想象,要准确地预测人工智能的未来是不可能的。但是,从目前的一些前瞻性研究可以看出未来人工智能可能会向以下几个方面发展: 模糊处理、并行化、神经网络和机器情感。 目前,人工智能的推理功能已获突破,学习及联想功能正在研究之中,下一步就是模仿人类右脑的模糊处理功能和整个大脑的并行化处理功能。人工神经网络是未来人工智能应用的新领域,未来智能计算机的构成,可能就是作为主机的冯·诺依曼型机与作为智能外围的人工神经网络的结合。研究表明: 情感是智能的一部分,而不是与智能相分离的,因此人工智能领域的下一个突破可能在于赋予计算机情感能力。情感能力对于计算机与人的自然交往至关重要。 人工智能一直处于计算机技术的前沿,人工智能研究的理论和发现在很大程度上将决定计算机技术的发展方向。今天,已经有很多人工智能研究的成果进入人们的日常生活。将来,人工智能技术的发展将会给人们的生活、工作和教育等带来更大的影响。 什么是人工智能? 人工智能也称机器智能,它是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多种学科互相渗透而发展起来的一门综合性学科。从计算机应用系统的角度出发,人工智能是研究如何制造出人造的智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学。 AI理论的实用性 在一年一度AT&T实验室举行的机器人足球赛中,每支球队的"球员"都装备上了AI软件和许多感应器,它们都很清楚自己该踢什么位置,同时也明白有些情况下不能死守岗位。尽管现在的AI技术只能使它们大部分时间处于个人盘带的状态,但它们传接配合的能力正在以很快的速度改进。 这种AI机器人组队打比赛看似无聊,但是有很强的现实意义。因为通过这类活动可以加强机器之间的协作能力。我们知道,Internet是由无数台服务器和无数台路由器组成的,路由器的作用就是为各自的数据选择通道并加以传送,如果利用一些智能化的路由器很好地协作,就能分析出传输数据的最佳路径,从而可以大大减少网络堵塞。 我国也已经在大学中开展了机器人足球赛,有很多学校组队参加,引起了大学生对人工智能研究的兴趣。 未来的AI产品 安放于加州劳伦斯·利佛摩尔国家实验室的ASCI White电脑,是IBM制造的世界最快的超级电脑,但其智力能力也仅为人脑的千分之一。现在,IBM正在开发能力更为强大的新超级电脑--"蓝色牛仔"(Blue Jean)。据其研究主任保罗·霍恩称,预计于4年后诞生的"蓝色牛仔"的智力水平将大致与人脑相当。 麻省理工学院的AI实验室进行一个的代号为Cog的项目。Cog计划意图赋予机器人以人类的行为。该实验的一个项目是让机器人捕捉眼睛的移动和面部表情,另一个项目是让机器人抓住从它眼前经过的东西,还有一个项目则是让机器人学会聆听音乐的节奏并将其在鼓上演奏出来。

相关百科
热门百科
首页
发表服务