基于深度学习的定义句上位词提取研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:axjlzpf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据是互联网内容的重要载体,社交媒体、问答社区、新闻平台等互联网应用每天产生海量的文本数据。面对浩如烟海的文本资料,探讨如何高效地定位、获取有用的信息与知识具有很强的应用价值。例如检索引擎、知识图谱、自然语言处理等技术的不断发展为文本信息挖掘提供了有效途径。文本中概念或实体的上下位关系是一种重要的知识,通过提取和识别上下位语义关系有利于促进知识图谱的构建,进而为上层知识应用提供更好的支撑。目前通过公共字典(例如Word Net等)的方式只能获取公共领域以及少量专业领域的概念以及概念间关系,不能满足专业领域研究的知识需要。为此,研究如何有效地从各专业领域文本中提取上下位关系显得十分必要。定义句是一种用于描述或定义一个概念的特殊文本,其句法较固定,适合作为上下位关系提取算法的语料。关于定义句上位词提取的研究由来已久。早期,研究者们通过采用基于规则的方法来解决这样的问题,这种方法需要人工的拟定规则,耗时耗力且效果不佳。随着统计机器学习方法的兴起,机器学习的方法在此问题上取得了不小的突破,随着近年来深度学习的快速发展,基于分布和基于序列信息处理的方法使该问题的提取效果又得到了进一步改善。然而当前的方法主要聚焦特殊句法结构和传统的词表示特征,方法的应用具有一定局限性。本文提出了一个基于词性的句法结构特征表示,并构建了基于双向GRU(Gated Recurrent Units)的上位词提取模型。基于词性的句法结构特征表示相较于传统的词嵌入方法能够更好的反映出上位词在定义句中的句法结构信息,基于双向GRU的提取模型能够在提取效果和训练时间获得更优的效果。该方法能够在序列特征学习得出输出后,进一步被包括度中心性特征和传统文本词特征修正,从而提高上位词提取的准确度。通过在句法规范程度较高(Wikipedia)和规范程度较低的专业领域文本(Stack-Overflow)的两种数据集上进行验证,实验结果表明本文方法相较于当前其他方法具有更高的精度和普适性,取得了优于目前存在的上位词提取方法的91.2%和92.4%的F值。值得一提的是,我们的方法不仅提供了一个上位词提取的有效方法,而且我们提供了一个利用句法结构来学习语义关系的实例。
其他文献
自门泽尔的“正式交流过程”和“非正式交流过程”论提出后,以图书、期刊为主体的纸介质出版物就正式奠定了其在学术信息交流体系中的主导地位。20世纪80年代以来,数字化网络化技术的普及为非正式交流复兴提供了新的契机,其中社会化媒体平台作为数字化网络化环境下非正式学术信息交流的一种形式,极大方便了科研人员即时开展学术信息交流,其中微信群是科研人员偏爱的非正式交流重要渠道。鉴于此,本研究以高校科研人员为研究
脑机接口(Brain-Computer-Interface,BCI)是一种不依赖于正常的由外围神经和肌肉组成的输出通路的通讯系统,为实现脑-机互联提供了一种全新的途径。基于运动想象的脑机接口系统被众多研究者认为是最具发展潜力的一种脑机接口系统,它可以帮助人们直接通过思维来控制基于BCI接口的机器人,这使得脑机接口不仅在残疾人康复、老年人护理等医疗领域具有显著的优势,而且在教育、军事、娱乐、智能家居
科技的迅速发展让大部分人都拥有了智能手机。现代生活也因为智能手机便于随身携带和高度智能化的特点便利了许多。本研究将基于智能手机的移动学习应用到初中英语的听力教学中,尝试解决目前初中英语听力教学中存在的一些不足,为改进英语教学提出一些新的思路。本研究主要采用对比实验研究法,将智能手机应用于初中英语听力教学的移动学习中,并进行了为期一学期的对比实验研究。首先,笔者选取了四川省成都市西航港第二初级中学的
当前教育发展中,要求尊重人才的个体教育,尊重人才的独立性,而具备独立思维能力的人才也是社会发展的需要。目前我国的大部分学校都存在班级体量大,学生学习水平参差不齐的问题。教师在面对班级的几十个语言基础和水平不同的学生时,大都不得不采取“照顾大多数”的一刀切的教学方式。根据语言学家提出的理论,只有当学生的原有知识基础和认知水平得到充分考虑,教师针对不同学生制定难度适当的任务时,才能使学生的学习最有效。
随着移动互联网技术的发展,信息的传播和获取更加便捷,音乐得以渗透到大众日常生活之中,通过各类移动音乐应用程序获取在线音乐信息已经成为人们主要的娱乐方式之一。此外,依托于良好的政策、技术与经济环境,中国已上线的音乐App数量多达上百种,市场竞争激烈。如何提供更加优质的产品、服务以及用户环境,提高移动音乐APP用户体验以及用户粘性,值得进一步探讨。同时,由于音乐获取目标的不明确性,许多情况下用户并非主
近年来,随着城镇化进程加快,农村劳动力向城市迁移,蔬菜产业用工难的问题日益严重。为缓解蔬菜产业劳动力紧缺问题,各种形式的蔬菜移栽机应运而生,目前我国市场上的蔬菜移栽机多属于半自动移栽机,仍需要多人辅助才可完成移栽作业,其作业效率受到人工作效率的限制,整机的移栽效率并不高,劳动强度却依然很大。全自动移栽机则采用机械全自动取投苗,效率高,劳动强度低。随着农业机械化进程的推进,蔬菜产业对全自动蔬菜移栽机
烟草是我国重要经济作物,由于烟田杂草生长旺盛,影响烟株的生长发育,导致烤烟产量减少,品质降低,影响经济效益。因此在烟田揭膜后要及时除掉烟田杂草来保证烟草的产量和品质。目前丘陵山区烟田除草主要由人工完成,劳动强度大且效率低。虽然针对平原地区田间杂草已经有较成熟的除草方式,但是针对丘陵山区烟田杂草,依然没有很好的除草方式。因此本论文对丘陵山区烟田除草机的工作部件及其控制系统进行设计研究,解决丘陵山区烟
现实世界已经走向网络化,从交通网络到居民移动出行网络,从生物网络到蛋白质交互网络,从社会网络到犯罪网络,从互联网(Internet)到万维网(WWW)等等。这些网络分别从宏观、微观、抽象、具体的层面对现实世界进行刻画,因此网络科学研究为分析现实世界复杂系统的共性特征提供了有效手段,如通过对网络结构及其节点间的连接的紧密程度(即社团结构)的研究,对揭示节点的内部组织以及发现网络的潜在功能特征具有重要
本文主要研究多面体锥上的广义互补问题(GNCP)的误差界估计,并提出了一类新的求解GNCP的算法。全文共分三章。 第一章,简要回顾了广义互补问题的研究现状,同时介绍了本文的主要研究成果。 第二章,主要讨论广义互补问题的误差界估计,并对误差界成立的各相关性条件进行了分析。为此,我们首先将广义互补问题GNCP等价地转化为一个混合互补问题(MCP),然后基于转化后问题的相关结论,对广义互补问
随着信息技术的快速发展,在互联网上发表评论已成为人们表达观点传递经验的重要途径。这些评论数据大都包含了用户对某个实体的观点和情感倾向,通过对这些评论数据进行情感分析,快速了解用户的观点和态度,不仅可以为商家或客户提供更丰富更有价值的信息,而且可以及时阻止恶性事件的发展,继而造福社会和民众。但传统的情感分析只能挖掘出用户对某个实体整体的情感态度,而无法对实体中不同属性或方面的情感进行分析。因此,为了