搜索引擎返回结果的自动摘要研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:yy838026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限,因此仅通过用户输入的关键词并不能很好的体现用户的查询意图。另外,搜索引擎将查询结果返回给用户时,往往将只包含用户查询请求的几个句子作为Web页面的摘要返回给用户。虽然返回摘要的内容包含用户的查询关键词,但是这些句子并不能表达出整个Web文档的中心意思。也就是说,用户通过阅读搜索引擎返回的摘要并不能确定自己查找的信息是否包含在这个页面中。针对上述问题,本文对搜索引擎返回结果的自动摘要进行了研究,在对用户查询关键词扩展的基础上,提出一种适合用户查询的句子权重计算方法,通过有效地利用关键词间的距离信息来提高摘要的准确率和覆盖率,方便用户查找自己所需要的信息。基于伪相关反馈的思想,对用户的查询关键词进行扩展。根据用户的原始查询关键词将文本中的句子分为主题相关句和非主题相关句,只选取主题相关句子中的名词或者名词短语作为查询扩展的候选扩展词语。通过计算候选词与用户查询关键词之间的相关权重来选择查询扩展的扩展词。从而使最终得到的查询关键词序列既体现Web页面的主题,又满足和查询的相关性。在计算句子的重要度时,考虑句子中包含的用户查询关键词之间的关系,基于“词距离越近,关系越密切”的原则,在句子权重计算公式中有效地引入词的距离信息,提高用户查询的准确效率。实验结果表明,使用融合词距离信息的句子权重计算方法可以帮助用户更加有效地选择用户感兴趣的句子,使得生成的摘要既能准确的表达用户的查询意图又能体现Web页面的中心思想,从而提高用户查询信息的效率,节省查找信息的时间。
其他文献
本文是针对计算机辅助几何设计与制造(CAGD/CAM)中的曲线曲面造型问题,运用融合的思想研究了广义圆弧曲线曲面造型研究及其应用。其内容包括:基于融合的样条曲线造型方法概述
随着“互联网+”时代的来临,互联网规模日益壮大,相应底层网络结构也日趋复杂。用户网络的安全性以及稳定性成为当今社会关注的热门话题,而如何解决互联网的持续可靠运行业已
随着计算机无线网络技术的迅速发展,无线局域网(WLAN)不断提高的传输能力和高效的移动能力已成为通信领域的一个重要发展产业之一,被人们越来越关注,并广泛应用于各个领域。  
P2P (Peer-to-Peer)对等网络已经成为Internet中最重要的应用系统之一。然而,P2P具有的开放、匿名以及松耦合等特性,使得网络系统的安全面临着巨大的挑战,由此导致不可靠的服
无线局域网(WLAN)因其移动性、灵活性和经济性的特点,目前已得到广泛的发展。随着无线局域网的用户越来越广泛,其安全性的不足也渐渐凸显出来,成为制约其发展的一大要素。目前的
计算机断层扫描成像技术是医学成像领域的常用方法,心脏断层图像可视化是医学图像分析中的热点研究问题,旨在提供更加直观的人体心脏的三维信息。论文针对左心室形态和断层数
进化算法是一类通过模拟自然界中物种进化过程与机制来求解优化与搜索问题的一类自适应、自组织、自学习的人工智能技术。该算法基于这样的基本认识:“从简单到复杂、从低级到
近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个