基于动态权重的IV-PTN语种识别融合系统研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:jy860500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别(Language Recognition)是一种自动识别语音数据所属语言的技术,是语音识别以及其他相关应用的前端技术,也是语音技术的重要分支。和说话人识别类似,语种作为一种与语音密切相关的特征元素,也能通过特定方式进行特征化表示。本文根据现行语种识别系统对系统响应时间上的高要求,提出了一种基于动态权重的IV-PTN融合系统,使其在长时语音上保持较好性能的前提下,提高短时语音的识别性能,进而缩短系统响应时间。论文首先介绍了不同种类的语种识别方法。按照方法所利用的语言特性,可以划分为使用声学特征、使用音素特征、使用韵律特征的方法等;按照方法所利用的技术特性,可以划分为基于概率模型、基于神经网络模型的方法等。然后结合近年的工业应用趋势,重点介绍了基于神经网络的PTN(Phonetic Temporal Neural)语种识别系统和基于概率模型的Ivector(Identity vector)语种识别系统。针对Ivector系统对语音时间长度的鲁棒性较弱的问题,本文对Ivector系统和PTN系统进行组合,搭建成新型的融合系统——IV-PTN融合系统,有效提高了系统对语音时间长度的鲁棒性,使其在短时语音的条件下也有较好的性能表现。通过T-SNE算法对不同系统误判的特征进行可视化,发现Ivector系统和PTN系统高频误判的域并不一样,故而提出对融合系统后端添加一个动态权重模块,使其能够根据不同的子系统在特定语音段上误判概率的差异,自动分配不同的融合权重,以实现更优的系统融合效果。论文所采用的数据集为共包含十种不同的语种的AP16-OL7和AP17-OL3。实验中分别以((6(6(6(6(6(6)、EER、ER、DET为评价指标,首先探讨了PTN和Ivector语种识别方法,然后在二者的基础上分别搭建固定权重、动态权重的IV-PTN融合系统。实验结果表明,该固定权重的融合系统性能优于单个子系统。与基于固定权重、基于动态权重的对分数向量建模的系统融合方法相比,本文所提出的基于动态权重的对误判特征建模的方法能实现更优的打分结果。
其他文献
燃煤电厂烟气脱硫常采用湿法石灰石——石膏处理工艺。该工艺产生的脱硫废水水质特殊,传统“三联箱”(中和→沉淀→絮凝)工艺难以对所有水质指标处理达标,特别是对氨氮这一污染
高新区集群作为创新集群的具体表现形式,是产业集群高效化、集约化的产物。它能够提升一个国家国际竞争力、加快区域经济发展转型、缓解中小企业融资难题和创新难题,对促进国
活性炭作为一种多孔性材料,具有巨大的比表面积,是一种优良的吸附剂和载体材料。活性炭的化学性能非常稳定,具有耐酸、耐碱、耐热等优点,因此,活性炭的应用领域十分广泛,如医
锂作为能源矿产,需求量日渐增大,但目前却缺乏行之有效的勘查技术。本文在国家深地探测重大专项“锂能源金属矿产基地深部探测技术示范”的支持下,首次通过采用以地气测量为
自全球定位系统GPS(Global Positioning System)诞生以来,室外定位给我们的生活带来了极大的便利,但GPS只能工作在空旷的室外环境下,面对室内环境的复杂多变,GPS很难准确在室
近年来,激光绝对距离测量方法广泛应用于无人驾驶、三维成像等领域。激光绝对距离测量方法分为激光相位法测距、激光调频连续波法测距和激光脉冲法测距。其中,激光相位法测距
随着互联网蓬勃的发展,我们日常生活都已经离不开网络,各式各样的软件为我们的生活提供着便利。伴随着软件市场中同类型软件的增多,提高用户粘度变得非常重要。当市场上同时
本文制备了三种新型生物相容性良好的含糖聚合物,其方法是首先利用单电子转移活性自由基聚合(singleelectron transfer living radical polymerization,SET-LRP)的方法制备了
随着新世纪的创新业务和朝阳产业不断发展,4G通信速率逐渐满足不了市场需求,因此不管是为了解决目前通信速率问题还是为了迎接未来更大的技术挑战,部署5G技术是必经之路。D2D
本文简要介绍了浦东国际机场东航站楼规划设计的七大特点,即:"东西相对独立、南北一体"的规划设计和运行策略;"三层式航站楼结构";国内"集中与分散相结合的安检模式"和出发、