论文投稿百科

关于语音合成的研究论文

发布时间:2024-07-07 14:41:43

关于语音合成的研究论文

是哈尔滨的么?如果是哈尔滨的可以在工大一区图书馆借,如果没有的话就查其所在期刊吧,或者可以去万方数据库下

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

这是让谁参考呢?

语音合成国内研究现状论文

文语转换系统的目的是将文字的输入自动地转换成语音输出,它在信息发布系统、语音应答系统、电子邮件中的语音服务、文稿校对系统以及残疾人语音辅助等许多方面有很大的应用前景。我国对汉语文语转换系统的研究发展迅速,已有许多单位先后研制出汉语文语转换系统。由于汉语的复杂性,使得现有的汉语语音学规则不够完善和精细,目前以此为基础开发出来的汉语文语转换系统的语音质量与实际应用要求还相差一段距离。本文针对现有汉语文语转换系统所存在的核心问题,从完善汉语的韵律规则展开研究工作。本文与传统的研究方法不同,将数据挖掘技术应用到汉语的韵律规则研究上。数据挖掘是从数据库中发现新的有用知识的过程,现已发展了很多数据挖掘算法,神经网络是其中的一种。本文以神经网络作为核心算法,开发了一个基于语音数据的数据挖掘系统—SpeechDM,并用SpeechDM系统对汉语中二字词的声调变化进行了研究,初步寻找出更精细、更可用的声调变化规则,为开发高质量的文语转换系统打下了基础。本文主要包括如下几方面的内容:1.介绍了语音合成的历史与背景,并介绍了汉语语音合成的发展及汉语韵律规则的研究现状。

hfsiufjskjfeigjoiefsnvofl类似于。。

语音的合成原理论文参考文献

普通话对英语语音的迁移作用摘 要: 本文在论述语言迁移理论本质的基础上,分析了影响迁移的因素,对汉英两种语言对比,从音素、音位、声调/语调语言、重音和节奏等层面分析了普通话对英语学习的负迁移作用,以便更好地帮助学生克服普通话的负迁移影响,促进英语语音的学习。关键词: 普通话;英语语音;语言迁移;对比研究The Transferring Effect of Mandarin on English PhoneticsLin YuhangDepartment of Foreign Languages and Literatures, Zhangzhou Teachers College 01021225Abstract: This paper is meant to help the Chinese English-learners to overcome the negative phonetic transfer and promote the study of English phonetics by dealing with language transfer theories, analyzing the factors affecting language transfer, comparing and analyzing some phonetic features of the Chinese and English languages, such as phone, phoneme, tone/intonation language, stress and words: Mandarin; English phonetics; language transfer; comparative analysis语音过关是英语学习的关键,同时也是难点。然而,外语界对语音教学问题的探讨却明显少于其他领域,这难免有些“避重就轻”之嫌。将英汉两种语音进行对比研究,对比教学,不失为一种良策,如张凤桐教授编著的《英国英语语音学和音系学》就是按照这一指导思想编写的教材。对比研究的理论基础是语言迁移,同时,对比研究和教学是正视语言迁移作用的科学方法和手段。然而就在将两种语音进行对比教学的过程中,产生了一些似是而非的说法,例如“普通话好,英语语音就好”是其中最具代表性的。这一说法过分夸大了语际间的正迁移作用,而忽略了负迁移作用。应该说这一问题的答案是不确定的。世界上有各种各样的语言,虽然各种语言有其相通的一面,但每一种语言都有其特有的语音体系,并有自己独特的发音规律。要全面正确地了解普通话对英语语音的迁移作用,就应该在认识语言迁移的本质和产生语言迁移因素的基础之上,将英汉语音、音位相关的方面作科学的对比研究。一、 语言迁移概念及其实质奥苏伯尔的认知结构迁移理论代表从认知的观点来解释迁移的一种主流倾向,然后有符号性图式理论、产生式理论、结构匹配理论与情境性理论等迁移理论。根据奥苏伯尔的认知结构迁移理论,“迁移是一种认知活动,体现了个体主动的心理加工过程”[1]。但也存在分歧,一些研究者着眼于各理论在更高层次上的概括,将迁移概括为“一种学习中习得的经验对其他学习的影响,是新旧经验的整合过程”[2],这种整合过程可以通过同化、顺应与重组三种方式实现,其实质是原有认知结构与新学习的相互影响、相互作用,从而形成新的认知结构的过程。迁移(transfer)作为一个心理术语,是指已获得的指示、技能、方法等对学习新知识、技能的影响。迁移是人类认知的一个普遍特征。在外语学习中,迁移“指的是人们已经掌握的知识在新的学习环境中发挥作用的心理过程”[3],主要是母语及母语学习经历对学习新语言的影响。语言迁移可分为正迁移(positive transfer)和负迁移(negative transfer)。如果某个外语结构在母语中有对应结构,或母语对外语的学习起促进作用,在学习中就会出现正迁移现象。但是如果某个结构在母语中没有对应的结构,或者两种语言中的对应结构有差异,也就是说,母语对外语的学习起干扰或抑制作用,就会产生反面的迁移,从而影响外语的学习,这就是学习中的负迁移现象。系统的语言迁移研究可追溯到上个世纪四五十年代的语言学家弗赖伊斯()和雷多()。他们从斯金娜()的行为主义心理学理论出发,认为“学习是刺激与反应的强化,是习惯的形成,是新旧知识的联结。因而在外语学习中,母语这种先前语言学习的习惯会对新的外语学习产生迁移作用”[4]。基于这一观点,他们认为“外语学习的主要困难是由两种语言的差异引起的,学习的主要任务就是找出并克服这种差异”[4],据此他们提出了对比分析假说(contrastive analysis hypothesis),即“将学习者的母语(mother tongue/native language)与目标语(target language)进行各方面的比较分析,找出两者的差异,解释或预测外语学习中已经或将要出现的困难与错误,并以此为指导教材的编写和教学活动。”[4]20世纪60年代末,乔姆斯基提出了语言习得机制( language acquisition device)假说和普遍语法 (universal grammar)理论。他认为:“人类语言结构存在着普遍性(language/linguistic universals),这种语言的普遍性反映了人类的经验过程,反映了人类获得新知识能力的普遍性”[5]。也就是说,人类生来就有自然学习语言的能力,它植根于人的内在机制,即语言习得机制。格林伯格( )通过对跨语言调查(cross-linguistic surveys)特别是对语序的分析来研究和证明语言的普遍性。总之,无论是强调母语迁移作用的对比分析假说,还是强调人类语言的普遍性而忽视母语迁移现象的普遍语法理论,都从不同的方面说明了正是各种语言具有一定的共性,母语才会对外语学习产生积极影响的正迁移作用,同时每种语言所具有的特殊性又使母语迁移对外语学习产生一定的负面影响,即负迁移。二、语言迁移产生的因素语言迁移绝非简单的母语与外语或第二语言间的迁移,也不是两种语言间的相似性或共同性就能决定迁移的程度。相反,它涉及各种不同类型的迁移,也涉及不同的主客观因素。任何迁移形式的产生都受到许多主客观因素的制约。影响英语语音学习迁移的因素很多,包括学习材料间的共同因素、对材料的理解程度、知识经验的概括水平、定势作用、认知结构的清晰性和稳定性及知识的运用等。奥苏伯尔认为,认知结构的3个变量影响新的学习或迁移的发生。认知结构即学生头脑中的知识结构,从广义上讲,它是学生已有观念的全部内容及其组织;从狭义上讲,它是学生在某一特殊领域中的观念的全部内容及其组织。认知结构变量就是学习者应用他的原有知识同化新知识时,原有认知结构在内容和组织方面的特征。影响陈述性知识迁移的变量是:可利用性、可辨别性和稳定性。此外,有学者认为以下问题与语言迁移密切相关。首先,情境特征引起的关注。情境包括最初的学习情境和后来的迁移情境,两种情境是否相似影响迁移水平。研究发现,物理的和社会的场景也是整个学习中重要的、有意义的组成部分。不同的场景或情境,其学习与迁移可能不同。因此,真实的英语学习情境,如外语角等,有助于将学得的语言知识与语言技能迁移到实际情境中去。其次,强调迁移的主动性与通达性。通达体现了学习者的主观能动性,意味着学习者可在迁移机会出现时,顺利地提取有关的经验或可利用的资源。有效的学习者有强烈的内部动机来调节自己的语言学习活动,如主动识别先前的语言学习与目前任务的相关性,识别恰当的语言使用和语言迁移情境,主动提取可利用的资源等,这些都是语言迁移产生的必要条件。三、 对比研究中普通话对英语语音的迁移作用对比研究是建立在美国学者雷多(R. Lado) 1957年提出的“对比分析(contrastive analysis)”基础上的一种语言分析方法。雷多的对比研究是一种在语音、语法和文化层次上对第一语言和第二语言进行严格的、逐一比较的体系。该对比研究的理论基础和焦点是语言迁移。语言的对比研究有助于人们认识语言间的区别和联系。李庭芗先生指出,“英、汉语在语音方面有哪些相同和相异的地方,是每个英语教师所必须了解的。英、汉对比的知识能帮助教师根据英、汉语的异同,预见学生在学习中的难点和重点,从而在教学方法上采取相应措施,以提高英语教学的质量”[6]。要学好英语语音,首先要了解哪些音是汉语中没有的,哪些音容易受汉语语音的干扰,英、汉语音之间怎样互相干扰的。普通话学习者在英语语音学习中产生的迁移,虽然不完全是具体知识的迁移,却是普通话发音习惯、发音部位的迁移,也是一种发音技能的迁移。对两者进行音素(phone)、音位(phoneme)及音节(syllable)等方面作系统的对比研究,无疑会促进找准正迁移作用的条件,而减少负迁移产生的干扰,有助于英语语音的学习。语音的最小单位是音素,但是在言语交际中能区别意义的最小语音单位是音位。音位分为音段音位(segmental phonemes)和超音段音位(super-segmental phonemes)两种,前者包括元音、辅音,元音与辅音、辅音与音在词中的组合,即音位组合或音节;后者则指重音(stress),音程(length),节奏(rhythm),音调(tone),语调(intonation)及音渡(juncture)等。以下是两种语言音位的对比分析和迁移作用的情况:1. 元音、辅音和声母和韵母属于印欧语系日耳曼语族的英语有20个元音、28个辅音。英语的音位是区别词义的最小单位。属于汉藏语系汉语的音位和英语一样,也是区别词义的最小单位。普通话是汉语的代表语言,有辅音音位,即声母22个,韵母31个。声母一般位于音节的开头,韵母是声母后的一部分,一般由元音或元音加辅音/n、n^/构成,如/B、o、Bi、en、uBn^/等韵母。英语元音分为单元音和双元音;普通话的元音分为单韵母和复韵母。英语的单元音数量比普通话的单韵母要多,而且分得细。普通话里只有6个单韵母;英语有12个单元音,而且分为前、中、后元音。其中/I、U、e、A、Q/等单元音在普通话中找不到近似的音,很难说普通话说得好的人一定就能发好这些音和包含这些音位的单词和句子。而在普通话中 能找到的近似音如/i、u/,前者发音的舌位比英语更靠前,后者则更靠后[7]。另外,普通话的复韵母/ei、Bi、Bo、ou/和英语的双元音/eI、aI、au、EU/虽都以强元音为主,向弱元音方向滑动。但是,普通话滑动较快,而且并没有达到弱元音的位置,念起来两音浑然一体;英语的双元音滑动较明显,两者相对独立,普通话较好的人很容易将like误念成/lak/或/lek/。值得注意的是两者在发音的部位和口形上都存在差异。发复韵母/ei、Bi、Bo、ou/的口形张得小于发双元音/eI、aI、aU、[U/,但舌位略靠后[7]。当然,能掌握汉语中的渐强复韵母,如/iB、ie、uB、uo/的学习者更容易发好英语中的双元音/I[、Z[、U[/。普通话和英语里都有三元音,其发音方法各不相同:发普通话三元音的方法是由弱到强,再由强到弱,中间的元音紧张度强,形成一个音节,如/iBo、uBi、ioU、iBo/等;英语的三元音由双元音加/[/组成,但不是出现在同一个音节里,其发音方法是由强到弱,再由弱到次强。普通话和英语的辅音音位也存在异同。英语的辅音多数是清浊成对的,如 /p、b/,/t、d/,/k、g/等;而普通话的辅音多数分为送气和不送气的清辅音,如/p、b、t、d、k、g、j、q、x、zh、ch、sh、z、c、s/等,浊辅音只有/r、m、n、l、ng/5个。汉语的送气和不送气区别意义;英语的清浊可以区别词义,影响元音的长度和同化相邻的辅音,如/lIt/中的/I/就发得比/lId/中的/I/短促,浊音能延长前面带的元音。又如元音/R:/在 caw,cord,caught三个单词中的音程不同,在caw中发音最长,在cord中次之,caught中则最短。此外,英语中的辅音根据所处的位置不同和所连接的音位的关系,产生音位变体(allophone)。如音位/t/在不同的发音环境中,它的发音是不一样的,在top中是送气的(aspirated);在stop中是不送气的(unaspirated);在certain中是鼻腔爆破(nasalized plosive);在little中是舌边爆破(lateral plosive);在that kid中是不完全爆破(incomplete plosive);在that day中是失去爆破(loss of plosive)。这些现象是英语中特有的,普通话再好,如果没有具备该语音知识,也学不好英语语音。诚然,普通话语音系统中的一些音位与英语的某些音位无大差别。比如,鼻辅音(nasal)在两种语音系统中构成一个自然类,可以用同样的区别特征加以描述,/m/,/n/,/N/可分别描述为〔+辅音性,+鼻音性,-后部性,+双唇性〕;〔+辅音性,+鼻音性,-后部性,+齿龈性〕;〔+辅音性,+鼻音性,+后部性,+软颚性〕。能发好普通话鼻辅音的学习者,语言的正迁移作用就能让他正确发好英语的鼻辅音。但学习者更应关注的那些和普通话发音的部位和方法有差异的近似音和汉语中根本没有的音位,如/W、T/,/F、V/,/tF、dV/等,不管普通话说得多地道的学习者,不加强练习,也不容易发好齿摩擦音(dental fricative)/W、T/,颚龈摩擦音(palato-alveolar fricative)/F、V/和颚龈塞擦音(palato-alveolar affricate)/tF、dV/。特别值得注意的是以下辅音在普通话和英语中的不同描述:/s、z/在英语中为齿龈摩擦音(alveolar fricative);在汉语中前者为齿摩擦音(dental fricative),后者为齿塞擦音(dental affricate)。/h/在英语中为喉擦音(glottal fricative);在汉语中为软颚摩擦音(velar fricative)。/r/在英语中为无摩擦延续音(approximate);在汉语中为卷舌摩擦音(retroflex fricative)[7]。2.音位组合—音节对比音节既是语音学中的一个概念,也是音位学中的重要概念。对音节的定义说法不一。就其结构而言,“音节是由一个或一系列音位构成的语音结构”[7](P20)。音节通常由起音(onset),领音(peak)和收音(coda)构成,领音一般是元音(vowel),起音和收音常常是辅音(consonant)。英语音节构成形态要比普通话音节构成复杂得多。具体形态如下:英语音节:V-VV-VVV-CV-CVV-CVVV-VC- VCC-CCVV-CVC-CVVC-CCV-VCCC-CCVC-CC CVC-CCCVVCC-CCCV-CCVVC-CCVVCC-CCVCC C-CCVCCCC-CVCC-CVCCC-CVCCCC汉语音节:V-VV-VVV-CV-CVV-CVVV-VC-CVC- CVVC从以上对比中可看出,普通话的音节结构比较简单,通常是单辅音加元音;英语音节的首、尾常常出现辅音群(consonant clusters)如 must tempt texts thousandths等。换言之,普通话中只有单辅音型的音节,没有辅音群型的音节。辅音群型的音节成为中国学习者,包括能说标准普通话学习者的语音难点。学习者习惯于在读英语辅音群中夹带元音,如把green念成/^[ri:n/。另外升调时容易从词尾的辅音开始,试图把它拉的很长,因而很费力,发出的音也很不规范。这是因为汉语的音节除/n/和/ng/两个鼻辅音外,都以元音结尾,即为开音节,而且节峰前最多只有一个辅音;而英语的音节节峰前最多可有三个辅音,如/sprIt/等,而节峰后最多可有四个。由于两种语言的音节系统不同,学生易将汉语的音节特征转移到英语学习中。3.语调语言(intonation language)和声调语言(tone language)汉语中的每一个字(或音节)都有一个区分字义作用的声调, 如/mā/妈,/má/麻,/mǎ/马,/mà/骂,/mB/吗,语音学家称汉语为声调语言;然而在英语中,单词的音调不改变它的词义,如book/buk/在读成平调、升调或降调时始终是“书”的意思,但英语的单词被用于句子时,就要赋予它一定的语调,来表达说话者的态度、语气等,这种语调的核心一般放在语句的末尾,所以语音学家把英语叫做语调语言。如:This is your↘seat.句未的降调表示肯定的语气,但 This is your ↗seat?表示疑问的口吻,以求取得对方的证实。汉语句子的语调也常常落在句未的重读字上,但由于这个重读字本身又有固定的声调,其实际语调必然受到该字本身的声调和所需语调的共同影响,即在原来字调的基础上,按所需语调去稍加调制、改变,使它既不完全失去原来的声调,又符合所需语调的要求。如:“这是我的球↘。”句中的“球”字本身是升调(阳平),而句末要求用降调,实际话语中只能采取折衷的办法,把“球”字的升调上升幅度减少一些。又如:“你的书↗,还是他的?”句中“书”字原本是高平调(阴平),而句子中间需要升调,语言实践中只能是把“书”字在原来的高平调后面接着稍微升高一些,成为高平调加升调。可见,由于汉语语调受字调的限制,升降规则比英语复杂,升降的幅度也要小。中国学生由于受汉语的这种声调、语调的负迁移影响,讲英语时往往语调平平,抑扬不太分明,升降起伏较小,很难学会英语那种梯级下降型的语调。近年来,语音学家趋向于更加强调英语语调的重要性,认为元音辅音是英语本身,而语调是英语的灵魂。假如元音辅音念得很准,而语调不对,听起来就不像英语。相反,假如元音辅音读得有些毛病,但语调正确,听起来还像英语。既然英语语调这样重要,那么我们要学好英语就必须注意汉语和英语在语调上的区别,努力在说英语时克服汉语语调的影响,勤学苦练,逐步掌握英语语调。4.其他语音方面的负迁移英语单词没有辨义的声调,重音是重要的语音要素,有区别词义的作用,如:´converse(名词,相反的事务),con´verse(动词,交谈)。在汉语词组中起辨义作用的是声调而不是重音,声调比重音在话语中具有更加重要的作用,除词尾含有虚词的词组(如桌子、木头等)和个别词组(如爸爸、妈妈等)外,大部分词组中的每个字都读成同样的轻重程度,如教师、电话、汽车、天气等。这种母语特点迁移到英语学习中,常常使初学者读多音节英语单词是重读、轻读音节不明甚至重音错位,如把´diligent读成´di´li´gent,di´ligent或dili´gent。在节奏和韵律方面,汉英之间的差别也很大。汉语是以音节(字)为计时单位的,而英语则以重音为计时单位的。汉语中,音节(字)的数目是韵律的基础,除了一些助词念得较快较含糊外,一般每个字所占用的时间大致相等,读得也清清楚楚。例如古诗中总是根据每行的字数来决定它的韵律或节奏,如柳宗元的《江雪》:千山鸟飞绝,万径人踪灭。孤舟蓑笠翁,独钓寒江雪。即使音节(字)有思想表达上所需的轻重之分,也不像英语那么明显、分明,所以,一般字较多的一句话所占用的时间,要比字较少的一句话占用的时间长,如“他有汽车。”和“他有一辆上海产的汽车。”但在英语中,重音和轻音是交替出现的,而重读音节才是节奏的基础、主体。重读音节总是声调较高,响度较大,发音清楚,所占时间较长;而轻读音节则声调较低,响度小,读得快而含糊,所占时间较短。所以,重音与重音之间总是保持大致相等的实际距离。重音之间的轻读音节越多,就读得越快越含糊。如:“Ann ´found the ´book she ´lost at ´last.”和“E´lizabeth ´found the ´article she was ´studying at the ´library.”前一个句子有8个音节,后一句却有19个音节,但两个句子同样只有5个重读音节。为了保持每两个重读音节之间所用时间大致相等,重读音节之间的轻读音节所占用的时间就不完全相同。后句话中,第一和第二个重读音节之间,第二和第三个重读音节之间分别由2个和1个轻读音节,而第三和第四个重读音节之间,第四和第五个重读音节之间各有4个轻读音节,为了保持5个重读音节之间大致相等的时间距离,第三至第五重读音节之间的轻读音节就要读得轻而快。中国学生对英语的这一特点较难把握,往往是按汉语习惯把每个音节(字)说得都很清楚,而不习惯把几个轻读音节压缩在一起,快速而含糊地读出来,因而听起来不是很自然。另外,在音节的衔接(juncture)方面,英语有汉语中所没有的连读(liaison)现象,也会给初学者带来一定的困难。在英语学习中,许多人可以发好一个单词的音,却说不出流畅、连贯的句子;能听懂英语单词,却听不懂连贯的句子。这种现象,我认为,主要原因之一就是他们没有掌握好英语中的连读。英语中有许多词是以辅音结尾的,在与紧接他们后面的一个词词首的元音连起来念,就产生了连读现象。但实际上汉语中也存在这种连读,只是我们平常没有意识到。汉语的连读一般出现在感叹句中,如:我的天哪! Wo de tiBn B好苦哇! HBo ku B然而汉语的连读范围不像英语连读现象那么普遍,而且大多数字以韵母结尾,使连读受到很大限制,所以学生在碰到英语连读时就会感到非常困难,同时也极大地限制了学生的听力发展。同化现象也是英语中最常见的一种音变现象,在连贯的说话或朗读中,音与音之间的相互影响是很自然的。其实,在汉语中也存在着类似的现象,如:面包 miBn-bBo → miBm-bBo难免 nBn-miBn → nBm-miBn这里的“面”和“难”都以/n/结尾,但因为受后面音/b/和/m/(双唇音)的影响,因此,“面”、“难”后面的/n/音就同化为双唇音/m/了。音渡指语音结构中两个音段界限之间的停顿过渡。普通话和英语两种语言中,音渡都有辨义功能,普通话好的学习者,一般能够注意英语音渡,但要完全掌握,仍然需要大量实践。四、结束语普通话和英语在发音的特征与规律、音位的数量与性质等方面都存在异同,而且差异性大于相似性,在二者相似性较强的方面,正迁移作用较为明显;二者差异表现明显的方面,负迁移作用却占了上风。既然普通话在英语语音学习中有“正迁移”和“负迁移”两方面的双重作用,因此,在英语语音教学中教师应与学生一起,尽量克服普通话对英语语音学习的干扰,促进普通话对英语语音学习的积极作用。在教学中教师帮助学生克服干扰时要突出要害,使学生深刻理解两种语言在发音方法以及语言表达方式上的异同。根据对比分析的理论观点,通过描写、选择、对比、预测对比分析的步骤,对普通话和英语进行科学的结构分析,找出两者之间的区别,以及区别程度的大小。通过这种有意识地对英汉语音系统进行对比分析,帮助学生做出有意义的概括,培养学生英汉语音系统差异的敏感性。正如吕淑湘在《中国人学英语》一文中指出:对于中国学生最有用的帮助就是让他认识英语和汉语的差别,对每一个具体问题,都尽可能用汉语的情况来跟英语作比较,让他通过这种比较得到更深刻的体会。中国学生必须认识到汉语、英语的差异,警惕汉语的干扰,尽量在英语学习中克服,避免汉语的干扰,这样才能更有效全面地学习英语。通过以上的讨论,很难说普通话好的学习者,英语语音就一定好;也不能说普通话不好的学习者英语语音就一定不好。影响英语语音学习迁移的因素很多,包括普通话和英语之间的异同因素、个体对异同因素的理解程度、知识经验的概括水平。此外,情境也参与迁移活动;学习者的主观能动性、个体特征等都是语言迁移得以产生的必要条件。普通话对英语语音的迁移作用绝非是单一的,两种语言之间的相似性也不能决定迁移的程度,它涉及多种不同的主客观影响因素,应综合考虑。孤立地研究某一因素或某一类型的迁移,不利于真正揭示迁移的本质,对英语语音学习也无实质性的助益。普通话好,只能说从语言学习的态度、方法等方面具备了发生语言迁移的可能性,但是否能克服语言负迁移的影响,真正发挥语言正迁移的作用于英语学习,还需要学习者发挥主体作用,了解一定的英语语音、音位理论知识,按照英语的语音、音位规律,掌握发音技巧,通过大量的训练,才能有较好的英语语音,说地道的英语。参考文献:1. D. .Educational Psychology:A Cognitive View〔M〕.New York:Holt,Rinehart and Winston,1968.2. 冯忠良.结构—定向教学的理论(上)[M].北京:北京师范大学出版社,1992.3. 蒋祖康.第二语言习得研究[M].北京:外语教学与研究出版社,. . Linguistic Across Culture[M].Ann Arbor: University of Michigan Press,. . Syntactic Structure[M].The Huge:Mouton,. 李庭芗.英语教学法[M].北京:高等教育出版社,. 张凤桐.英国英语语音学和音系学[M].成都:四川大学出版社,1998.8. 秦秀白.英语通论[M].武汉:华中师大出版社,1988.

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

关于研究林海音的论文

林海音(-),原名林含英,小名英子,原籍台湾省苗栗县,父母曾东渡日本经商,林海音于1918年3月18日生于日本大版,不久即返台,当时台湾已被日本帝国主义侵占,其父林焕父不甘在日寇铁蹄下生活,举家迁居北京,小英子即在北京长大。曾先后就读于北京城南厂甸小学、北京新闻专科学校,毕业后任《世界日报》记者。不久与报社同事夏承楹结婚。1948年8月同丈夫带着三个孩子回到故乡台湾,任《国语日报》编辑。1953主编《联合报》副刊,开始文艺创作,并兼任《文星》杂志编辑和世界新闻学校教员,1967年创办《纯文学杂志》,以后又经营纯文学出版社。 林海音的创作是丰厚的。讫今为止,已出版十八本书。散文集《窗》(与何凡合作)、《两地》、《作客美国》、《芸窗夜读》、《剪影话文坛》《一家之主》、《家住书坊边》,散文小说合集《冬青树》,短篇小说集《烛心》、《婚姻的故事》、《城南旧事》、《绿藻与咸蛋》;长篇小说《春风》、《晓云》、《孟珠的旅程》,广播剧集《薇薇的周记》、《林海音自选集》、《林海音童话集》,编选《中国近代作家与作品》,此外,还有许多文学评论、散文等,散见于台湾报刊。 回答者:哈利波特33 - 见习魔法师 二级 9-3 20:32林海音女士创作相关资料 以下资料录自儿童文学研究所研究生杨绚之硕士论文《林海音与儿童文学》 表2-1:创作类 童话 《林海音童话集动物篇》部分: 1<小快乐回家> 2<我们都长大了> 故事 《林海音童话集故事篇》部分: 1<金桥> 2<蔡家老屋> 3<迟到> 4<三盏灯> 5<哈哈哈> 6<爸爸的花椒糖> 7<骆驼队来了> 8<童年乐事> 散文 《林海音童话集动物篇》部分:<不怕冷的鸟—企鹅> 《林海音童话集故事篇》部分:<请到我的家乡来> 《奶奶的傻瓜相机》 小说 《冬青树》部分: 1<会唱的球> 2<母亲是好榜样> 3<妈妈说不行> 4<窃毒记> 5<谢谢你小姑娘> 6<爸爸不在家> 《绿藻与咸蛋》部分: 1<两粒芝麻> 2<周记本> 3<玫瑰> 4<萝卜乾的滋味> 5<贫非罪> 6<穷汉养娇儿> 《城南旧事》部分: 1<惠安馆> 2<我们看海去> 3<兰姨娘> 4<驴打滚儿> 5<爸爸的花儿落了> 剧本类 《薇薇的周记》三个广播剧: 1<薇薇的周记> 2<林夫人时间> 3<绿藻与咸蛋> 表2-2《林海音童话集》详细篇名及写作日期 《林海音童话集故事篇》 《林海音童话集动物篇》 1 <哈哈哈>页97~112 写作日期: <六趾儿>页69~84 写作日期: 2 <爸爸的花椒糖>页116~125 写作日期: <不怕冷的企鹅>页100~111 写作日期: 源自省教育厅出版中华儿童丛书 3 <金桥>页128~140 写作日期: 源自省教育厅出版中华儿童丛书 <小快乐回家>页49~64 写作日期: 源自小学生画刊316期 4 <三盏灯>页84~93 写作日期: <我们都长大了>页29~45 写作日期: 源自省教育厅出版中华儿童丛书 5 <骆驼队来了>页144~149 写作日期: 源自<冬阳童年骆驼队>,《城南旧事》 <井底蛙>页88~97 写作日期: 源自国语日报出版社《世界儿童文学名著》第一辑 6 <迟到>页73~81 节自<爸爸的花儿落了> 写作日期: <蔡家老屋>页152~169 写作日期: 源自省教育厅出版中华儿童丛书 7 <童年乐事>页172~175 节自<后记>,《城南旧事》 写作日期: 8 <请到我的家乡来>页28~69 写作日期: 源自省教育厅出版中华儿童丛书 表2-3:《城南旧事》版本与篇名比较 出版社 光启出版社 尔雅/纯文学出版社 格林文化出版社 出版年月 详细篇名 1. 城南旧事代序 2. 惠安馆传奇 3. 我们看海去 4. 兰姨娘 5. 驴打滚儿 6. 爸爸的花儿落了 1. 超越悲欢的童年 2. 冬阳童年骆驼队 3. 城南旧事重排前言(附插图16页) 4. 惠安馆 5. 爸爸的花儿落了 6. 后记 1. 惠安馆的小桂子 2. 我们看海去,兰姨娘 3. 驴儿打滚儿,爸爸的花儿落了 (以上为绘本,附三卷录音带) 表2-4非创作类: 一、翻译部分 1《伊索寓言》 2《一只坏小兔的故事》 3《小兔班杰明的故事》 4《猛狗唐恩》 5《井底蛙》 6《鸽子泰勒的故事》 7《狡猾的老猫》 8《山中旧事》 9《有趣的小妇人》 10《铁丝网上的小花》 11《快乐的死刑犯》 12《爸爸》 13《太阳石》 14《生命之歌:在起点和终点之间轻轻唱起》 15《伊索寓言1:幽默二十五选》 16《伊索寓言2:智慧二十五选》 贴子相关图片: 作者: .* 2005-2-28 11:06 回复此发言 -------------------------------------------------------------------------------- 2 林海音 17《伊索寓言3:机智二十五选》 18《刺猬温迪琪的故事》 19《母鸭杰玛的故事》 20《小猪柏朗的故事》 21《小兔彼得的故事》 22《一只坏小兔的故事》 二、改写部分 1《今古奇观》 2《林海音童话集动物篇》部分:<六趾儿> 3《寓言一》 4《寓言二》 5《寓言三》 6《寓言四》 表2-5:64年版国民小学低年级国语课本 第一册 第二册 第三册 第四册 第一课 我起来了 长了一岁 带弟弟上学 源自57年版 第1课带弟弟上学 一粒种子 源自57年版 第1课一粒种子 第二课 妈妈早 院子里 新教室 小松树长高了 第三课 谁起得早 外婆来了 给爸爸的信 源自57年版 第4课给爸爸的信 树的医生 源自57年版 第2课树的医生 第四课 我的书包 春天来了 源自57年版 第5课春天来了 我的日记 源自57年版第5课 暑假生活日记(一) 时钟 源自57年版 第5课时钟 第五课 少了一个人 种树 源自57年版 第7课种树 钓鱼 爱惜光阴 源自57年版 第6课爱惜光阴 第六课 玩皮球 一朵小红花 乘凉说故事 源自57年版第7课 暑假生活日记(二) 守时 第七课 小小鸟儿 到海边去 源自57年版 第8课到海边 国庆日 源自57年版 第9课国庆日 春季旅行日记 第八课 小狗跟我来 山上 源自57年版 第9课山上 飞机表演 小小爬山专家 第九课 小白兔赛跑 我下回还要来 双十节的晚上 我爱钓鱼 第十课 我做一条船 源自57年版 第9课我做一条船 小花猫 源自57年版 第12课小花猫 国父小时后 浓缩自57年版 第10课国父的家乡 第11课国父小的时候 家家大扫除 第十一课 公园里 儿童节 源自57年版 第13课儿童节 先总统 蒋公小的时候 源自57年版第12课 总统 蒋公小的时候 人人吃粽子 第十二课 过山洞 源自57年版 第10课 过山洞 到竹山去玩 陈英士先生小的时候 年年赛龙船 第十三课 自己做的礼物 源自57年版第23课 我送给妈妈的礼物 小山羊长大了 源自57年版第13课 我长大了 家 源自57年版 第12课家 第十四课 送礼物给妈妈 源自57年版 第24课母亲节 鹅妈妈真漂亮 源自57年版第17课 鹅妈妈真漂亮 小乌鸦 源自57年版第3册(二上)小乌鸦 第十五课 写给妈妈的话 美丽的蝴蝶姑娘 蜗牛的家 源自57年版 第13课蜗牛的家 第十六课 小马长大了 浓缩自57年版 第18课小马长大了 第19课学跑路 第20课学拉车 我的爸爸是农夫 源自57年版 第19课我的爸爸是农夫 小水滴的旅行(1) 源自57年版 第26课小水滴的旅行(1) 第十七课 小蚂蚁 浓缩自57年版 第16课小蚂蚁(1) 第17课小蚂蚁(2) 我的爸爸是军人 源自57年版 第20课我的爸爸是军人 小水滴的旅行(2) 源自57年版第27课小水滴的旅行(2) 第十八课 淘气的猴子 我的爸爸是老师 源自57年版第22课 我的爸爸是老师 小鹰学飞 第十九课 太阳 源自57年版第26课 暖和的太阳 妈祖的故事(1) 小白鸽的故事(1) 浓缩自57年版第17、18、19课 小白鸽(1)(2)(3) 第二十课 美丽的虹 源自57年版第27课 美丽的虹 妈祖的故事(2) 小白鸽的故事(2) 浓缩自57年版第17、18、19课 小白鸽(1)(2)(3) 第二十一课 小星星 亮晶晶 源自57年版 第28课月亮和星星 小白兔的嘴唇 我的好朋友 第二十二课 乌鸦喝水 源自57年版 第14课乌鸦喝水 小老鼠救狮子 枣树上的钱 第二十三课 球浮上来了 源自57年版 第30课聪明的孩子 拔萝卜(1) 源自57年版第29课 拔萝卜(1) 一块大石头(1) 源自57年版第28课一块大石头(1) 第二十四课 过桥 源自57年版第29课 过桥 拔萝卜(2) 源自57年版第30课 拔萝卜(2) 一块大石头(2) 源自57年版第29课一块大石头(2) 回答者:☆雪の77之风☆ - 试用期 一级 9-3 21:40林海音,原名林含英,小名英子,原籍台湾省苗栗县,父母曾东渡日本经商,林海音于1918年3月18日生于日本大版,不久即返台,当时台湾已被日本帝国主义侵占,其父林焕父不甘在日寇铁蹄下生活,举家迁居北京,小英子即在北京长大。曾先后就读于北京城南厂甸小学、北京新闻专科学校,毕业后任《世界日报》记者。不久与报社同事夏承楹结婚。1948年8月同丈夫带着三个孩子回到故乡台湾,任《国语日报》编辑。1953主编《联合报》副刊,开始文艺创作,并兼任《文星》杂志编辑和世界新闻学校教员,1967年创办《纯文学杂志》,以后又经营纯文学出版社。 林海音的创作是丰厚的。讫今为止,已出版十八本书。散文集《窗》(与何凡合作)、《两地》、《作客美国》、《芸窗夜读》、《剪影话文坛》《一家之主》、《家住书坊边》,散文小说合集《冬青树》,短篇小说集《烛心》、《婚姻的故事》、《城南旧事》、《绿藻与咸蛋》;长篇小说《春风》、《晓云》、《孟珠的旅程》,广播剧集《薇薇的周记》、《林海音自选集》、《林海音童话集》,编选《中国近代作家与作品》,此外,还有许多文学评论、散文等,散见于台湾报刊。 参考资料: 回答者:匿名1234567891 - 试用期 一级 9-4 21:29 林海音个人资料 首先要谈的是她的编辑事业,这部分可以从她的三个编辑台来看,第一个编辑台是一九五三年到一九六三年主编联合报副刊,她写过一篇文章「流水十年间」,就是她担任联副编辑十年的回忆。我们知道战后五○年代的国家文艺政策,对文坛掌控比较厉害,而林海音正是在这个时代主编「联合副刊」。她对联合副刊最大的改变是由比较综艺的性质,慢慢走向纯文学,这是她对台湾文坛发展第一个重要的影响。第二,她非常重视文学,她完全以文学的好坏作为取舍的标准。她知道很多台湾本土作家,经历了日本五十年统治,语言上较为吃亏,当她看到一些字句有很明显的日本味道,或比较不通顺的文章,会一个字一个字改好了才刊登出来,她鼓励了许多作家,对台湾的本土文坛有很大的影响。 五○年末、 船长事件 我也亲自走访北京、上海、南京。北京是林海音成长的地方,从五岁到三十岁离开,在那里居住了四分之一个世纪,她最著名的作品《城南旧事》,就是以一个小女孩的眼睛看北京城南成人世界的悲欢离合,女主角英子,就是林海音的第一个名字。到了城南我走遍了林海音成长的足迹,她一共住过七个家,大部分的家我都亲自拜访,她婚后住过两个家,一个是永光寺街的大家庭,一个是自组小家庭的南昌街我也去了。当我走在城南时,才知道原来林海音女士上学的时候,一定会经过文化街(琉璃厂也就是文化街),基本上城南在世界很多国家都是比较民俗的。一九四八年林海音回到她的第一故乡台湾,也是住在城南,就是重庆南路三段植物园一带,并住了二十五年。在北京时,我有一个很深刻的感触,其实林海音女士写《城南旧事》,她所怀念的那个北京城并不具任何的政治意义,它就是一座城,一座充满民俗的北京城,海音女士对那个城市,以及城市里的人物、风俗都非常的怀念。 一九六七年林海音创办《纯文学月刊》,她认为当时没有一份较为严肃且有水准的刊物,明知办文学杂志会赔钱她却做了,从一九六七年起一共出版了六十五期。她并在月刊出刊的第二年便成立纯文学出版社,从一九六八年到一九九五年一共经营了二十六年之久。纯文学出版社对於六○年、七○年代台湾文学的出版有很大的影响,林先生把纯文学出版社经营的非常好,特别是带动整个文学出版。林先生可以称为女强人,她不只经营很好的出版事业,写了许多好的作品,更经营了一个很标准的幸福家庭,她几乎每一方面都兼顾到,她的能力真的很强。 阅读林海音 接下来要谈林先生的作品。我们知道她所有的出版事业和写作,都是到了台湾才开始,北京栽培了林海音,而台湾成就了林海音。一九五五年她出版了第一本散文集《冬青树》,是家的文学,笔风让人感觉她是个非常开朗、快乐的家庭主妇,比如她提到台风天或下雨天地上积水,孩子兴奋得跑出去玩水,林海音的妈妈指责她不好好管小孩,但林海音却觉得小孩子就应该如此,而她自己也很想加入呢!她呈现了战后生活的面貌,虽然当时物质条件很差,却很有家的感觉,从文学史的研究角度,那个时期的写作内容非常狭窄,老是写一些身边琐事,可是我们却可以了解战后大陆来台的知识份子,如何在台湾开始生活,如何适应跟原来生长背景截然不同的环境。 城南旧事 小说《城南旧事》,也是她的经典名著。这一本书在台湾文学史上很重要,大陆也认为它是一部很重要的台湾作家作品。她生长在北京,她写北京怎麼会是台湾文学?作为台湾文学为什麼它那麼重要?很多人把它列为怀乡作品,甚至把它列为代表作。北京城,透过一个外来的小女孩英子,以小孩子的眼光来看北京,比北京更北京,至今北京人很可能还没办法呈现出这样道地的北京的民俗、风光。林海音先生拥有很细腻很敏锐的眼光,特别是她从一个女性的角度,来看当时比较低阶层一些北京人的生活,其实它的经典性不只限制在台湾,也是中国乃至世界更大环境下一部很好的作品,因为它呈现了真实的人性。 《城南旧事》不论从那个角度阅读都是很好的作品,有人说它是女性作品,因为里面的主角,比如惠安馆里面的秀珍、宋妈,都是以女性为主角,特别整个小说的叙述者英子,她还没有受过社会的薰染,用纯洁的眼光看这世界,即使看到一个小偷,也不会有那种我们既定的眼光,直接判定小偷是坏人。有人认为它是一部成长小说,每段故事的最后都是别离,最后一段「爸爸的花儿落了」,写道:爸爸去世了,英子也长大了。整部小说是一个成长的过程,可以是青少年成长小说,也可以是儿童读物,或是成年读者对童年的回忆,它是有很多面向的,我想这是经典小说很重要的条件。 以同情之笔写女性 林海音可能是战后台湾文学,最早拥有女性意识的作家,一直到六○、七○年代以后的女性小说的成就,其女性意识要超越林海音其实还很不容易。林海音写《婚姻的故事》是一九六三年,《烛芯》是一九六五年重要的作品,它们背景是五四,就是比她早的那一代,可能她母亲、婆婆那一代的封建压抑之下的女性,你可以看到她在为她们讲话,这就是林海音。她曾说自己受过五四的洗礼,她已经跳过来了,可是她看到许多在传统之下,被压抑受痛苦的女性。比如说她写一位女性自小指腹为婚,她嫁过去不到两天丈夫就去世了,明知道嫁过去马上就要守寡,还是得嫁过去,我们试想这样女人的一生。林海音的笔也关注到这女性的情欲发展,就是她压抑这麼多年,她有一个很漂亮或者很健康的小叔,那种想像或对男性的向往,整个挣扎的心路历程都写出来,非常的动人。又如姨太太在旧时代里种种不公平的处境...等,《婚姻的故事》大都是女性在中国传统建制度之下,如何被压抑的故事,这也是为何她的作品到现在都还会被提起的原因。 一九六五年她访问美国四个月,她是战后第一个受到美国国务院邀请的女作家,她访问文学家像赛珍珠,了解儿童文学出版...等,带了很多资料和幻灯片回到台湾,并写下《做客美国》。

首先要谈的是她的编辑事业,这部分可以从她的三个编辑台来看,第一个编辑台是一九五三年到一九六三年主编联合报副刊,她写过一篇文章「流水十年间」,就是她担任联副编辑十年的回忆。我们知道战后五○年代的国家文艺政策,对文坛掌控比较厉害,而林海音正是在这个时代主编「联合副刊」。她对联合副刊最大的改变是由比较综艺的性质,慢慢走向纯文学,这是她对台湾文坛发展第一个重要的影响。第二,她非常重视文学,她完全以文学的好坏作为取舍的标准。她知道很多台湾本土作家,经历了日本五十年统治,语言上较为吃亏,当她看到一些字句有很明显的日本味道,或比较不通顺的文章,会一个字一个字改好了才刊登出来,她鼓励了许多作家,对台湾的本土文坛有很大的影响。 五○年末、船长事件 我也亲自走访北京、上海、南京。北京是林海音成长的地方,从五岁到三十岁离开,在那里居住了四分之一个世纪,她最著名的作品《城南旧事》,就是以一个小女孩的眼睛看北京城南成人世界的悲欢离合,女主角英子,就是林海音的第一个名字。到了城南我走遍了林海音成长的足迹,她一共住过七个家,大部分的家我都亲自拜访,她婚后住过两个家,一个是永光寺街的大家庭,一个是自组小家庭的南昌街我也去了。当我走在城南时,才知道原来林海音女士上学的时候,一定会经过文化街(琉璃厂也就是文化街),基本上城南在世界很多国家都是比较民俗的。一九四八年林海音回到她的第一故乡台湾,也是住在城南,就是重庆南路三段植物园一带,并住了二十五年。在北京时,我有一个很深刻的感触,其实林海音女士写《城南旧事》,她所怀念的那个北京城并不具任何的政治意义,它就是一座城,一座充满民俗的北京城,海音女士对那个城市,以及城市里的人物、风俗都非常的怀念。 一九六七年林海音创办《纯文学月刊》,她认为当时没有一份较为严肃且有水准的刊物,明知办文学杂志会赔钱她却做了,从一九六七年起一共出版了六十五期。她并在月刊出刊的第二年便成立纯文学出版社,从一九六八年到一九九五年一共经营了二十六年之久。纯文学出版社对於六○年、七○年代台湾文学的出版有很大的影响,林先生把纯文学出版社经营的非常好,特别是带动整个文学出版。林先生可以称为女强人,她不只经营很好的出版事业,写了许多好的作品,更经营了一个很标准的幸福家庭,她几乎每一方面都兼顾到,她的能力真的很强。阅读林海音 接下来要谈林先生的作品。我们知道她所有的出版事业和写作,都是到了台湾才开始,北京栽培了林海音,而台湾成就了林海音。一九五五年她出版了第一本散文集《冬青树》,是家的文学,笔风让人感觉她是个非常开朗、快乐的家庭主妇,比如她提到台风天或下雨天地上积水,孩子兴奋得跑出去玩水,林海音的妈妈指责她不好好管小孩,但林海音却觉得小孩子就应该如此,而她自己也很想加入呢!她呈现了战后生活的面貌,虽然当时物质条件很差,却很有家的感觉,从文学史的研究角度,那个时期的写作内容非常狭窄,老是写一些身边琐事,可是我们却可以了解战后大陆来台的知识份子,如何在台湾开始生活,如何适应跟原来生长背景截然不同的环境。城南旧事 小说《城南旧事》,也是她的经典名著。这一本书在台湾文学史上很重要,大陆也认为它是一部很重要的台湾作家作品。她生长在北京,她写北京怎麼会是台湾文学?作为台湾文学为什麼它那麼重要?很多人把它列为怀乡作品,甚至把它列为代表作。北京城,透过一个外来的小女孩英子,以小孩子的眼光来看北京,比北京更北京,至今北京人很可能还没办法呈现出这样道地的北京的民俗、风光。林海音先生拥有很细腻很敏锐的眼光,特别是她从一个女性的角度,来看当时比较低阶层一些北京人的生活,其实它的经典性不只限制在台湾,也是中国乃至世界更大环境下一部很好的作品,因为它呈现了真实的人性。 《城南旧事》不论从那个角度阅读都是很好的作品,有人说它是女性作品,因为里面的主角,比如惠安馆里面的秀珍、宋妈,都是以女性为主角,特别整个小说的叙述者英子,她还没有受过社会的薰染,用纯洁的眼光看这世界,即使看到一个小偷,也不会有那种我们既定的眼光,直接判定小偷是坏人。有人认为它是一部成长小说,每段故事的最后都是别离,最后一段「爸爸的花儿落了」,写道:爸爸去世了,英子也长大了。整部小说是一个成长的过程,可以是青少年成长小说,也可以是儿童读物,或是成年读者对童年的回忆,它是有很多面向的,我想这是经典小说很重要的条件。以同情之笔写女性 林海音可能是战后台湾文学,最早拥有女性意识的作家,一直到六○、七○年代以后的女性小说的成就,其女性意识要超越林海音其实还很不容易。林海音写《婚姻的故事》是一九六三年,《烛芯》是一九六五年重要的作品,它们背景是五四,就是比她早的那一代,可能她母亲、婆婆那一代的封建压抑之下的女性,你可以看到她在为她们讲话,这就是林海音。她曾说自己受过五四的洗礼,她已经跳过来了,可是她看到许多在传统之下,被压抑受痛苦的女性。比如说她写一位女性自小指腹为婚,她嫁过去不到两天丈夫就去世了,明知道嫁过去马上就要守寡,还是得嫁过去,我们试想这样女人的一生。林海音的笔也关注到这女性的情欲发展,就是她压抑这麼多年,她有一个很漂亮或者很健康的小叔,那种想像或对男性的向往,整个挣扎的心路历程都写出来,非常的动人。又如姨太太在旧时代里种种不公平的处境...等,《婚姻的故事》大都是女性在中国传统建制度之下,如何被压抑的故事,这也是为何她的作品到现在都还会被提起的原因。 一九六五年她访问美国四个月,她是战后第一个受到美国国务院邀请的女作家,她访问文学家像赛珍珠,了解儿童文学出版...等,带了很多资料和幻灯片回到台湾,并写下《做客美国》。再来是《两地》,所谓两地大家知道是台北跟北京,她人虽然在台北但经常想起北京的童年,她一直有个愿望,希望有一天可

从儿童的视角看世界—论林海音《城南旧事》的思想内涵的论文怎么和你交流探讨呢?

林海音个人资料首先要谈的是她的编辑事业,这部分可以从她的三个编辑台来看,第一个编辑台是一九五三年到一九六三年主编联合报副刊,她写过一篇文章「流水十年间」,就是她担任联副编辑十年的回忆。我们知道战后五○年代的国家文艺政策,对文坛掌控比较厉害,而林海音正是在这个时代主编「联合副刊」。她对联合副刊最大的改变是由比较综艺的性质,慢慢走向纯文学,这是她对台湾文坛发展第一个重要的影响。第二,她非常重视文学,她完全以文学的好坏作为取舍的标准。她知道很多台湾本土作家,经历了日本五十年统治,语言上较为吃亏,当她看到一些字句有很明显的日本味道,或比较不通顺的文章,会一个字一个字改好了才刊登出来,她鼓励了许多作家,对台湾的本土文坛有很大的影响。 五○年末、船长事件 我也亲自走访北京、上海、南京。北京是林海音成长的地方,从五岁到三十岁离开,在那里居住了四分之一个世纪,她最著名的作品《城南旧事》,就是以一个小女孩的眼睛看北京城南成人世界的悲欢离合,女主角英子,就是林海音的第一个名字。到了城南我走遍了林海音成长的足迹,她一共住过七个家,大部分的家我都亲自拜访,她婚后住过两个家,一个是永光寺街的大家庭,一个是自组小家庭的南昌街我也去了。当我走在城南时,才知道原来林海音女士上学的时候,一定会经过文化街(琉璃厂也就是文化街),基本上城南在世界很多国家都是比较民俗的。一九四八年林海音回到她的第一故乡台湾,也是住在城南,就是重庆南路三段植物园一带,并住了二十五年。在北京时,我有一个很深刻的感触,其实林海音女士写《城南旧事》,她所怀念的那个北京城并不具任何的政治意义,它就是一座城,一座充满民俗的北京城,海音女士对那个城市,以及城市里的人物、风俗都非常的怀念。 一九六七年林海音创办《纯文学月刊》,她认为当时没有一份较为严肃且有水准的刊物,明知办文学杂志会赔钱她却做了,从一九六七年起一共出版了六十五期。她并在月刊出刊的第二年便成立纯文学出版社,从一九六八年到一九九五年一共经营了二十六年之久。纯文学出版社对於六○年、七○年代台湾文学的出版有很大的影响,林先生把纯文学出版社经营的非常好,特别是带动整个文学出版。林先生可以称为女强人,她不只经营很好的出版事业,写了许多好的作品,更经营了一个很标准的幸福家庭,她几乎每一方面都兼顾到,她的能力真的很强。阅读林海音 接下来要谈林先生的作品。我们知道她所有的出版事业和写作,都是到了台湾才开始,北京栽培了林海音,而台湾成就了林海音。一九五五年她出版了第一本散文集《冬青树》,是家的文学,笔风让人感觉她是个非常开朗、快乐的家庭主妇,比如她提到台风天或下雨天地上积水,孩子兴奋得跑出去玩水,林海音的妈妈指责她不好好管小孩,但林海音却觉得小孩子就应该如此,而她自己也很想加入呢!她呈现了战后生活的面貌,虽然当时物质条件很差,却很有家的感觉,从文学史的研究角度,那个时期的写作内容非常狭窄,老是写一些身边琐事,可是我们却可以了解战后大陆来台的知识份子,如何在台湾开始生活,如何适应跟原来生长背景截然不同的环境。城南旧事 小说《城南旧事》,也是她的经典名著。这一本书在台湾文学史上很重要,大陆也认为它是一部很重要的台湾作家作品。她生长在北京,她写北京怎麼会是台湾文学?作为台湾文学为什麼它那麼重要?很多人把它列为怀乡作品,甚至把它列为代表作。北京城,透过一个外来的小女孩英子,以小孩子的眼光来看北京,比北京更北京,至今北京人很可能还没办法呈现出这样道地的北京的民俗、风光。林海音先生拥有很细腻很敏锐的眼光,特别是她从一个女性的角度,来看当时比较低阶层一些北京人的生活,其实它的经典性不只限制在台湾,也是中国乃至世界更大环境下一部很好的作品,因为它呈现了真实的人性。 《城南旧事》不论从那个角度阅读都是很好的作品,有人说它是女性作品,因为里面的主角,比如惠安馆里面的秀珍、宋妈,都是以女性为主角,特别整个小说的叙述者英子,她还没有受过社会的薰染,用纯洁的眼光看这世界,即使看到一个小偷,也不会有那种我们既定的眼光,直接判定小偷是坏人。有人认为它是一部成长小说,每段故事的最后都是别离,最后一段「爸爸的花儿落了」,写道:爸爸去世了,英子也长大了。整部小说是一个成长的过程,可以是青少年成长小说,也可以是儿童读物,或是成年读者对童年的回忆,它是有很多面向的,我想这是经典小说很重要的条件。以同情之笔写女性 林海音可能是战后台湾文学,最早拥有女性意识的作家,一直到六○、七○年代以后的女性小说的成就,其女性意识要超越林海音其实还很不容易。林海音写《婚姻的故事》是一九六三年,《烛芯》是一九六五年重要的作品,它们背景是五四,就是比她早的那一代,可能她母亲、婆婆那一代的封建压抑之下的女性,你可以看到她在为她们讲话,这就是林海音。她曾说自己受过五四的洗礼,她已经跳过来了,可是她看到许多在传统之下,被压抑受痛苦的女性。比如说她写一位女性自小指腹为婚,她嫁过去不到两天丈夫就去世了,明知道嫁过去马上就要守寡,还是得嫁过去,我们试想这样女人的一生。林海音的笔也关注到这女性的情欲发展,就是她压抑这麼多年,她有一个很漂亮或者很健康的小叔,那种想像或对男性的向往,整个挣扎的心路历程都写出来,非常的动人。又如姨太太在旧时代里种种不公平的处境...等,《婚姻的故事》大都是女性在中国传统建制度之下,如何被压抑的故事,这也是为何她的作品到现在都还会被提起的原因。 一九六五年她访问美国四个月,她是战后第一个受到美国国务院邀请的女作家,她访问文学家像赛珍珠,了解儿童文学出版...等,带了很多资料和幻灯片回到台湾,并写下《做客美国》。

语言合成研究现状论文

这篇博客的主要内容是对语音合成 (text to speech)的背景知识进行介绍。 希望可以让读者通俗易懂的了解语音合成的工作原理, 并对为了理解state-of-the-art text to speech 的算法做基础。这个简介主要基于这篇论文 “Wavenet: a generative model for raw audio”的附录介绍的。 论文链接如下: , 以及stanford CS224S的课程, 链接如下 语音合成是通过文字人工生成人类声音, 也可以说语音生成是给定一段文字去生成对应的人类读音。 这里声音是一个连续的模拟的信号。而合成过程是通过计算机, 数字信号去模拟。 这里就需要数字信号处理模拟信号信息,详细内容可参考 [1]。 图片1, 就是一个例子用来表示人类声音的信号图。 这里横轴是时间, 纵轴是声音幅度大小。声音有三个重要的指标, 振幅(amplitude) , 周期(period) 和 频率(frequency) 。 振幅指的是波的高低幅度,表示声音的强弱,周期和频率互为倒数的关系, 用来表示两个波之间的时间长度,或者每秒震动的次数。  而声音合成是根据声波的特点, 用数字的方式去生成类似人声的频率和振幅, 即音频的数字化。了解了音频的数字化,也就知道了我们要生成的目标函数。 音频的数字化主要有三个步骤。 取样(sampling) :在音频数字化的过程,采样是指一个固定的频率对音频信号进行采样, 采样的频率越高, 对应的音频数据的保真度就越好。 当然, 数据量越大,需要的内存也就越大。 如果想完全无损采样, 需要使用Nyquist sampling frequency, 就是原音频的频率2倍。 量化 (quantization) : 采样的信号都要进行量化, 把信号的幅度变成有限的离散数值。比如从0 到 1, 只有 四个量化值可以用0, , , 的话, 量化就是选择最近的量化值来表示。 编码 (coding ):编码就是把每个数值用二进制的方式表示, 比如上面的例子, 就可以用2bit 二进制表示, 00, 01, 10, 11。 这样的数值用来保存在计算机上。 采样频率和采样量化级数是数字化声音的两个主要指标,直接影响声音的效果。 对于语音合成也是同样, 生成更高的采样频率和更多多的量化级数(比如16 bit), 会产生更真实的声音。  通常有三个采样频率标准 1. 采样, 用于高品质CD 音乐 2. 采样, 用于语音通话, 中品质音乐 3 . 采样, 用于低品质声音。 而量化标准一般有8位字长(256阶)低品质量化 和16位字长(65536阶)高品质量化。 还有一个重要参数就是通道(channel), 一次只采样一个声音波形为单通道, 一次采样多个声音波形就是多通道。 所以在语音合成的时候,产生的数据量是 数据量=采样频率* 量化位数*声道数 , 单位是bit/s。 一般声道数都假设为1.。 采样率和量化位数都是语音合成里的重要指标,也就是设计好的神经网络1秒钟必须生成的数据量 。 文本分析就是把文字转成类似音标的东西。 比如下图就是一个文本分析,用来分析 “PG&E will file schedules on April 20. ” 文本分析主要有四个步骤, 文字的规范化, 语音分析, 还有韵律分析。 下面一一道来。  文本分析首先是要确认单词和句子的结束。 空格会被用来当做隔词符. 句子的结束一般用标点符号来确定, 比如问号和感叹号 (?!), 但是句号有的时候要特别处理。 因为有些单词的缩写也包含句号, 比如 str. "My place on Main Str.  is around the corner". 这些特别情况一般都会采取规则(rule)的方式过滤掉。 接下来 是把非文字信息变成对应的文字, 比如句子中里有日期, 电话号码, 或者其他阿拉伯数字和符号。 这里就举个例子, 比如, I was born April 14. 就要变成, I was born April fourteen.  这个过程其实非常繁琐,现实文字中充满了 缩写,比如CS,  拼写错误, 网络用语, tmr --> tomorrow. 解决方式还是主要依靠rule based method, 建立各种各样的判断关系来转变。 语音分析就是把每个单词中的发音单词标出来, 比如Fig. 3 中的P, 就对应p和iy, 作为发音。 这个时候也很容易发现,发音的音标和对应的字母 不是一一对应的关系,反而需要音标去对齐 (allignment)。 这个对齐问题很经典, 可以用很多机器学习的方法去解决, 比如Expectation–maximization algorithm. 韵律分析就是英语里的语音语调, 汉语中的抑扬顿挫。 我们还是以英语为例, 韵律分析主要包含了: 重音 (Accent),边界 (boundaries),  音长 (duration),主频率 (F0). 重音(Accent) 就是指哪个音节发生重一点。 对于一个句子或者一个单词都有重音。 单词的重音一般都会标出来,英语语法里面有学过, 比如banana 这个单词, 第二个音节就是重音。 而对于句子而言,一样有的单词会重音,有的单词会发轻音。 一般有新内容的名词, 动词, 或者形容词会做重音处理。 比如下面的英语句子, surprise 就会被重音了, 而句子的重音点也会落到单词的重音上, 第二个音节rised, 就被重音啦。 英语的重音规则是一套英语语法,读者可以自行百度搜索。 I’m a little sur prised to hear it cha racterized as up beat . 边界 (Boundaries) 就是用来判断声调的边界的。 一般都是一个短语结束后,有个语调的边界。 比如下面的句子, For language, 就有一个边界, 而I 后面也是一个边界. For language, I , the author of the blog, like Chinese. 音长(Duration) 就是每个音节的发声长度。 这个通俗易懂。 NLP 里可以假定每个音节单词长度相同都是 100ms, 或者根据英语语法, 动词, 形容词之类的去确定。 也可以通过大量的数据集去寻找规律。 主频率 (F0 )就是声音的主频率。  应该说做傅里叶转换后, 值 (magnitude) 最大的那个。 也是人耳听到声音认定的频率。一个成年人的声音主频率在 100-300Hz 之间。 这个值可以用 线性回归来预测, 机器学习的方法预测也可以。一般会认为,人的声音频率是连续变化的,而且一个短语说完频率是下降趋势。 文本分析就介绍完了,这个方向比较偏语言学, 传统上是语言学家的研究方向,但是随着人工智能的兴起,这些feature 已经不用人为设计了,可以用端到端学习的方法来解决。 比如谷歌的文章 TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 就解救了我们。 这个部分就比较像我们算法工程师的工作内容了。 在未来的博客里, 会详细介绍如何用Wavenet 和WaveRNN 来实现这一步骤的。 今天这个博客就是简介一下算法。 这里说所谓的waveform synthesis 就是用这些 语言特征值(text features)去生成对应的声波,也就是生成前文所说的采样频率 和 振幅大小(对应的数字信号)。 这里面主要有两个算法。 串接合成(concatenative speech synthesis) : 这个方法呢, 就是把记录下来的音节拼在一起来组成一句话,在通过调整语音语调让它听起来自然些。 比较有名的有双音节拼接(Diphone Synthesis) 和单音节拼接(Unit Selection Synthesis)。这个方法比较繁琐, 需要对音节进行对齐(alignment), 调整音节的长短之类的。 参数合成 (Parametric Synthesis) : 这个方法呢, 需要的内存比较小,是通过统计的方法来生成对应的声音。 模型一般有隐马尔科夫模型 (HMM),还有最近提出的神经网络算法Wavenet, WaveRNN.  对于隐马尔科夫模型的算法, 一般都会生成梅尔频率倒谱系数 (MFCC),这个是声音的特征值。 感兴趣的可以参考这篇博客 去了解 MFCC。 对于神经网络的算法来说, 一般都是生成256 个 quantized values 基于softmax 的分类器, 对应 声音的 256 个量化值。 WaveRNN 和wavenet 就是用这种方法生成的。 下面是我学习语音合成的一些资料, 其中stanford cs224s 是强力推荐的,但是这个讲义讲的逻辑不是很清楚, 要反复看才会懂。 UCSB Digital Speech Processing Course 课程, 声音信号处理的基础。 建议读一遍, 链接如下,  Stanford CS224S WaveRNN,  音频的数字化,

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

相关百科
热门百科
首页
发表服务