面向文本序列数据的语义分析与生成方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hacker888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据是自然语言处理任务中最普遍的数据类型。文本的基本组成单元是单词,如果将自然语句中的单词序列看作在离散时间上出现的观测值,单词顺序就构成了相应的文本序列。显然,文本序列中的单词并不是相互独立的,单词之间存在潜在的关联关系。然而,将单词看作独立个体的词袋模型,依然是文本数据处理过程中最常用的特征表示方法。基于词袋模型的表征学习和语义理解的方法,没有使用上下文的顺序依赖特征,无法准确表示文本上下文之间的依存关系。此外,除了传统的自然文本数据,多个文本标签也可以构成文本序列,目前缺乏对标签之间语义关系的分析。以序列数据中上下文的语义分析为基础,可以展开对文本表示学习,词义理解和文本生成及应用等科学问题的相关研究。传统词向量的学习过程只考虑单词的排列特征,忽略了单词之间的潜在语义信息。考虑序列数据中单词语义之间存在的关联关系,通过序列话题模型获取序列中潜在的语义依赖信息,并将此信息融入到词向量的学习过程中,训练并学习到表示能力更强的词向量,提出了一种结合语义依赖关系的词向量学习方法。考虑上下文中单词词义的依赖信息,采用隐马尔科夫依赖假设对文本序列的词义依赖进行建模,结合上下文中的语义关联信息和全局的统计特征,并利用知识库的先验知识,提出了一个基于潜在词义关联关系的词义消歧方法。此外,社交网络中的多个标签之间同样存在语义关联,考虑到标签和数据内容的强关联特性,多标签可以看作文本生成的目标序列,基于面向多模态社交网络数据的标签序列生成模型,实现对标签语义关联关系的建模及标签推荐,提出了一个面向多模态特征的文本序列生成架构。具体如下。一、融合语义依赖关系的词向量表示学习方法。为了融合潜在语义关系,对词向量的学习过程进行了拓展。原有的词向量学习方法依赖于上下文的共现特征,忽略了上下文中的语义依赖信息。在不改变词向量学习架构的基础上,将语义依赖关系信息融入到词向量的学习过程中。模型首先通过序列话题模型获取话题之间的依赖关系的相关系数,并将单词的话题分配视为对应的语义标签。利用话题关联权重辅助词向量的学习,同时不改变原有的学习框架。模型仅需极小的空间需求和额外的计算量,就能有效的将语义信息融入到学习过程,获得表达能力更强的词向量。通过单词相似度任务和单词类比任务对模型性能进行评估,实验结果表明融合了话题依赖关系的词向量,性能有显著提升,在训练数据总量较小时,性能优势更加明显。二、基于潜在词义关联关系的词义消歧方法。相同单词出现在不同语境和上下文的时候会表达不同的含义,单词的词义选择不仅依赖当前上下文的单词内容,同时也和上下文中其他单词的词义紧密相关。根据序列数据的特点,提出了基于词义关联关系的词义消歧方法。考虑文本序列的关联特性,提出词义之间的依赖性假设,通过连续位置关系构成的马尔科夫链建模词义之间的关联关系。利用潜在的序列话题模型将上下文关联关系和全局的词义分布信息结合,同时基于知识库信息的先验知识对词义关系进行分析和建模,并提出了不同策略缓解稀疏性问题。实验结果表明考虑了依存关系的词义消歧模型,在不同的测试集中都取得了具有竞争力的结果,对比基于知识库的模型有明显的性能提升。三、基于多模态特征的文本序列生成架构及在标签推荐中的应用。标签作社交网络中的常见的辅助信息,通常是以单词或短语的形式对数据内容进行主题提取和内容概述,因此和数据内容具有很强的相关性,同时标签之间也存在对应的语义关联。考虑到标签的序列特性,通过文本序列生成架构对标签的语义关系进行分析,并应用到标签推荐任务中。模型采用基于注意力机制的神经网络模型对数据的多模态特征进行提取,利用Encoder-Decoder架构生成数据内容相应的标签序列。在编码器的特征获取过程中加入注意力机制,从而得到和标签序列更具有相关性的特征。在解码器中采用循环神经网络生成标签序列。传统的标签研究方法直接以多标签分类或多类型分类的方式,忽略了标签序列中存在的关联关系。该模型通过序列生成架构对标签之间的关联进行建模,克服了此前方法灵活性不足,推荐结果单一等问题。在不同的公开数据集上对所提出模型的性能进行了验证,模型在不同的实验环境中都表现的更好,实验结果证明了文本生成方法在标签推荐任务中的有效性,证实了标签之间存在的语义关联,同时也表明了模型在多模态的数据环境中的良好性能。
其他文献
光电化学(Photoelectrochemical,PEC)传感作为近年来快速发展的一种新型分析技术,具有分析响应快、背景噪声小、成本低和易于小型化等优点,在环境监测、生化分析和临床诊断等领域得到了广泛研究与应用。在PEC传感器中,半导体电极材料的光电转换效率直接影响检测的灵敏度,因而起着至关重要的作用。虽然大多数半导体材料对紫外光有较好的吸收,光电转换效率较高,但紫外光的能量较高,易损伤生物识别
为了满足光纤通信系统的扩容需求、突破光电转换和数字信号处理的带宽瓶颈,模分复用传输与基于四波混频效应的全光信号处理成为国内外光纤通信技术的研究热点。由于高非线性少模光纤中模间四波混频效应的相位匹配条件灵活、可同时实现波长和模式转换、具有飞秒级的响应时间、对调制格式和通信速率透明等优点,将成为未来波分-模分复用(WDM-MDM)光网络节点中实现全光信号处理的重要技术手段。目前模间四波混频研究主要集中
在我们国家,绝大多数建筑行业从业者,往往在其漫长的职业生涯中都会挂着一项很"接地气"的专业职业技能的履历头衔——土木工程专业。之所以又"土"又"木",那是和中国古代建筑行业有一丝丝渊源的:泥土与木材,正是中国传统建筑几千年演进史中最常见的两种材料。
期刊
研究背景与目的:慢性肝病长期发展,可导致肝纤维化,进而发展为肝硬化。全球每年因肝硬化死亡病例约120万,我国约占其中11%,肝硬化是我国常见的疾病负担之一,而治疗手段有限。肝纤维化的最典型特征是细胞外基质(ECM)异常沉积和分布,其核心环节是肝星状细胞(HSCs)活化。阐明肝纤维化发生的分子机制,对阻断甚至逆转纤维化的发生与进展具有重大意义。ECM是调控HSCs活化和肝纤维化的关键要素之一,基质细
本文简要介绍了精度加工工艺:机械制造、精密加工、大规格结构件生产工艺;以液压支架为代表,使用机器人进行结构件焊接处理,研究双面成型的工艺内容,确保焊接精度。经工艺实践发现:机械焊接形成的坡口钝边、坡口间隔长度差异等各类问题,可采取焊接优化方法予以解决,加强焊缝补充热量控制,使其不大于14kJ/cm,背侧高度控制在2mm内,切实提升成型质量。
第一部分IL-37对Apo E–/–小鼠动脉粥样硬化进展的作用目的:目前IL-37被认为是一种能够下调多种促炎因子的抗炎物质,参与多种慢性疾病的发生发展。动脉粥样硬化是最常见的慢性疾病之一,但其缺乏有效的预防及治疗手段。本研究目的在于探究IL-37对动脉粥样硬化进展的保护作用,及其在动脉粥样硬化疾病进展中的免疫调控作用,寻找动脉粥样硬化潜在的新治疗靶点。方法:我们将实验组分为Apo E–/–及IL
机器人技术是具有前瞻性、战略性的高新技术。使用工业机器人可以降低废品率和产品成本,提高自动化生产线的利用率,降低因工人误操作导致的不良零件风险。工业机器人用于生产线后,能降低生产成本,通常为人工成本的1/4,且在生产质量、效率、管理方面能带来很多新的附加值。因此,在机器人技术快速提升、人力资源短缺、人力成本逐年提升等多种因素的共同作用下,工业机器人的应用成为企业的迫切需要。锦州立德减振器有限公司与
偏振反映了光的矢量特性。通过对光的偏振信息进行检测,能够得到被测物质的介电特性、结构特征、粗糙度、入射角等多种物理信息。然而传统的片上偏振光电探测器件往往依靠硅、锗、Ⅲ-Ⅴ族半导体等三维材料进行探测器层的制备,每一层材料的生长都要考虑晶格匹配的影响,这无疑增大了制备的难度,同时器件的集成度受到小尺寸效应的限制。因此,探究新型的偏振光电材料和探测器结构变得十分重要。层状材料是一类层与层之间以范德瓦尔
第一部分心源性卒中的防治调查目的医生对心房颤动(AF)的认识程度是预防心源性卒中的决定因素。本研究的目的是调查神经科医生对心源性卒中防治相关的知识、态度和行为的水平,分析其影响因素,以期提高对房颤患者的管理水平,为改善神经科医生对指南的有效实施奠定基础,并为制定卫生政策的部门提供基础数据。方法本研究为横断面调查,采用问卷调查的方式对参与者进行心源性卒中防治相关知识、态度、行为调查。问卷为自行设计的
被动锁模光纤激光器作为产生超短脉冲的优质光源,在实际应用和基础科研领域都起着不可估量的作用。一方面,其输出的脉冲具有窄脉宽、高峰值功率、高重复频率、宽带宽等优点,在通信、传感、精密加工等实际应用中发挥着不可替代的作用;另一方面,其结构紧凑、操作简单、成本低廉等优势,为研究超短脉冲的超快、超强非线性光物理学现象提供了优良的平台。而超短脉冲的瞬态动力学研究需要实时测量技术,时间拉伸-色散傅里叶变换技术