基于关键词和图模型的自动文摘抽取

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:hymalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要技术通过算法将原始文档中重要信息摘录以形成摘要,便于阅读理解。针对现有自动文本摘要与关键词提取算法存在的不足,并降低信息过载程度,本文综合自动文本摘要和关键词提取技术,尝试高质量文本摘要方法。主要研究工作内容如下:(1)鉴于传统关键词提取方法未有效利用中文的结构特点,且文本特征信息不足等问题,本文提出At-Bi-LSTM-CRF网络模型,将关键词提取转变为实体的标注问题。首先,将向量化的文本序列输入双向长短时记忆神经网络层,得以提取文本双向长距离依赖特征。其次,利用注意力机制得到输入和输出之间的相关性,计算新权重后得到新输出的特征值,进一步提取了上下文信息,可以更准确地提取文本内容特征。最后,结合线性条件随机场处理标签之间的状态关系,得到全局最优标注序列,以获得更好的关键词提取效果。实验结果表明,与传统TF-IDF、CRF、LSTM等算法相比本文方法具有较好提取效果,并与不加注意力机制的算法相比,F1值仍有不错提升。(2)在计算文本相似度时,传统TextRank算法仅对比句子中重叠词数量,未考虑语义及结构信息,致使准确性降低,本文提出基于关键词和图模型的文本摘要提取算法。首先,融合关键词、词性、词句位置等特征信息并沿用至词移距离算法中,克服了传统词移距离算法的缺陷,实现了基于多特征加权融合的文本相似度计算算法,并获取语义相关层面的信息,从根本上提高了相似度的准确性。其次,根据相似度结果各句子权重被迭代计算,直至收敛。最终,依权重值排序,从高至低筛选文摘句。从实验结果来看,本文算法的提取效果优于传统MMR、TextRank算法以及优化过的ImpTextRank算法,提取的摘要与人工摘要更加相近,提高了文章摘要提取的质量。综上所述,本文采用优化的深度学习方法处理关键词,利用关键词作为特殊的文摘句这一特性,结合优化的TextRank方法抽取文本摘要。克服了传统TextRank方法忽略关键词的覆盖性、缺乏语义信息、结构信息等缺陷。
其他文献
固体除湿空调系统可由低品位能源驱动且无污染,吸附剂是固体除湿空调系统的核心。为解决传统固体除湿材料除湿效率低,除湿能耗高等问题,本文制备了具有高水蒸气吸附量、吸附/脱附速度快并且水热稳定性好的负载型改性硅胶复合除湿材料和金属有机框架材料/陶瓷纤维纸除湿材料两种除湿材料。采用氮气吸附-解吸法(BET)、扫描电镜(SEM)、X射线衍射(PXRD)和热重分析(TG)对除湿材料进行了表征和分析。研究了两种
随着能源消耗与环境治理的矛盾日益突出,壮大清洁能源的发展已经成为未来社会的一种必然趋势。本文基于太阳能光伏光热综合利用技术,设计了太阳能光伏光热综合利用装置,构建了与此装置相匹配的具有太阳能集热暖风、太阳能集热水和太阳能发电蓄电三种功能模块的采暖通风系统,并为满足不同的使用需求设计了五种运行模式,可以依据具体情形下的不同需求选择对应的运行模式。基于瞬态模拟软件TRNSYS,以西安市某典型住宅建筑的
鄂尔多斯盆地侏罗纪煤田查明资源量约为]279亿吨,是世界罕见的优质煤炭资源生产基地。侏罗纪煤田主采的2#煤层含有不同程度的夹矸层。随着深部煤炭开发的不断深入,煤层厚硬砂岩夹矸层分布范围大幅增加,赋存不稳定,对大采高综采工作面,尤其是智能综采工作面的开采带来严重问题。不稳定贯穿工作面的厚层砂岩夹矸导致大功率采煤机截割困难,截齿磨损严重,效率低。成本大幅增加。对此,本文以榆北矿区智能综采工作面大采高煤
教学楼是专门进行教学活动的建筑物,具有人员集中的特点。若地震中出现破坏会造成大量人员伤亡;另外在地震中教学楼多作为紧急避难场所和临时指挥中心。高烈度地震区建筑物震害将更严重,坡屋面使框架结构受力复杂,因此十分有必要对教学楼建筑抗震性能进行研究。本教学楼项目所在地区抗震设防烈度为8度,地震加速度为0.2g,属于高烈度地区。本文首先利用PKPM软件对具有坡屋面的潼关金城小学教学楼进行结构设计,然后在此
学位
煤矿井下的通风安全是保证井下安全作业的重要条件之一,良好的通风环境能够为井下工作人员提供安全保障。煤矿井下最容易发生安全事故的地点是掘进工作面,掘进工作面的局部通风设备主要包括局部通风机和风窗,而局部通风机基本没有实现变频,因此需经常调节风窗开度控制风量。现有煤矿井下调节风窗仍采用手动调节的方式,这种调节方式无法实现实时调节,且难以保证调节精度,存在安全隐患。因此实现风窗自动化,如何将对风窗开度的
随着物联网和通信技术的应用,智慧城市得到了发展,大数据中心作为智慧城市建设的中心,发挥着越来越重要的作用。银川市政府为了保证智慧银川大数据中心的安全、可靠运行,必须有机房监控系统从动力,环境,安保等方面对机房进行全面监控。本文根据智慧银川大数据中心机房监控系统的功能和性能需求,研究与设计智慧银川大数据中心的机房监控系统方案,并对方案的重要部分进行了详细的分析和设计。主要研究与设计内容包括以下几个方
煤层自燃是影响煤矿安全生产的重要因素之一,受开采深度、采煤方式、顶板处理、漏风条件等因素的影响。在我国西北地区,基本为侏罗纪时期成煤,具有低硫、低磷、低灰分的特点,属于优质煤资源,约占各成煤时期煤炭资源总量的40%左右。侏罗纪煤自燃发火较为严重,为此开展陕北地区曹家滩煤矿侏罗纪煤层采空区防灭火技术的研究,提升煤矿开采安全性,对净化环境、保护资源都具有重要意义。榆北曹家滩矿属于榆神矿区一期规划区范围
为了治理黄土高原水土流失,国家实施了系列水土保持措施,其中包括坡改梯措施。梯田作为黄土高原地区重要的一项水土保持措施,具有高效的保水、保土和保肥作用,对防治水土流失具有重要意义。传统梯田统计方法速度慢且精度低,亟需提出一种快速有效的梯田提取方法,科学准确的评估梯田对土壤侵蚀量估算的影响,为黄土高原水土保持工作和生态环境建设提供数据依据。本文以延河流域为研究区,基于高分一号数据(GF-1),分别采用
煤炭开采过程中,煤自燃始终威胁着矿井的安全生产。随着矿井开采深度和强度的增加,在瓦斯存在的情况下,煤自燃所引发的灾害往往更为严重。在矿井火区中,燃烧的瓦斯很容易将煤引燃,热辐射作为瓦斯燃烧传递热量的主要形式,在很大程度上影响瓦斯燃烧引燃煤体的过程。因此,对热辐射引燃煤体特性和临界条件进行研究,有助于探明瓦斯燃烧引燃煤体的途径,在一定程度上降低煤矿井下煤自燃和瓦斯爆炸的危险,从而减少煤矿重特大事故的
硅橡胶泡沫(SiF)因其特殊的硅氧键而具备一定的阻燃性能,但由于侧链基团的不稳定导致其阻燃抑烟性能不能满足应用需求。无机硅系阻燃剂具备无毒环保、生烟量少、热释放量低、火安全性能高等优势而被应用于很多聚合物高分子材料中,但因其与高分子材料相容性差、亲和性不好等问题而被限制。本文采取表面改性技术和微胶囊技术对无机硅系阻燃剂进行改性处理,并将其与硼酸锌(ZB)复配添加到SiF中,采用多种表征手段对其阻燃