Web信息抽取与网页摘要的研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sakurzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确地提取出网页的主题内容并生成文档摘要已经成为一个非常重要而有意义的研究方向。随着万维网的飞速发展,在Internet上形成了不计其数的以HTML网页形式存在的信息源,但是Web页面通常含有很多用户并不关心的信息,如广告链接和图像等,它们分布于网页四周,甚至附着在正文旁边,文档主题很不明确,使用户不能迅速定位所需信息,也会增大搜索引擎索引文件的大小,影响搜索的速度和准确率。本文分析了网页与普通文本的不同,根据Web页面的特征,在分析其结构的基础上,提出了网页信息抽取的可行性方法。基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。因此,在把网页解析成普通DOM树的基础上,添加了相关度属性和信息熵值属性作为判断依据,不仅提高了准确率,也减小了结果对信息熵阈值的依赖性。用节点频度值而不是信息熵值来进行噪音块的判断,在一定程度上提高了效率。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在0.96以上,是Web信息抽取的一种有效手段。在以上工作的基础上,针对Web信息检索的需求和Web文档的特点,采用拟人思维,给出了一种以段落结构为指导的自动摘要方法。该方法对段落之间的内容语义关系进行分析,进而划分出文档的主题层次,得到文档的段落结构;在段落结构的指导下,使用特征分析和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量。将网页信息抽取器应用到公安局“网上作战”系统的一个子系统,即公安网刑侦信息抽取系统与发布系统中,实现公安网刑侦信息的抽取和摘要,并为公安局“网上作战”系统中的其他子系统,如信息比对系统等提供数据支持,取得了不错的效果。
其他文献
数据挖掘技术作为一种用于从大规模数据集中提取潜在有用的信息和知识的技术,越来越得到广泛的研究和应用。而关联规则挖掘作为最初推动数据挖掘迅猛发展的一个重要因素,被广泛
在“建设廉洁型、高效型、服务型政府”成为各级政府改革工作方式适应新形式新需要的行动指南后,探索和研究实现这一目标的方式一直在进行。信息技术革命的快速发展给这一目标
WirelessHART是第一个为工业自动过程设计的开放标准无线通信协议。WirelessHART标准使用TDMA和跳信道技术来控制网络的访问和网络设备之间的通信。与采用无线ad-hoc或对等网
变电站巡检机器人是国家863计划项目,该巡检机器人是集多传感器融合技术、电磁兼容技术、导航及行为规划技术、机器人视觉、语音技术、海量、稳定的无线传输技术于一体的复杂
移动自组网是一种不依赖于固定基础设施的自组织无线网络,它组网方便、快捷,不受时间和空间的约束。由于在自组网中随着节点移动,网络拓扑结构会频繁变化,传统路由协议将不再
自适应随机测试(Adaptive Random Testing,ART)是一种增强的随机测试,比随机测试更有效。当前已有的ART算法在多维条件下的有效性普遍不理想,甚至比随机测试更差。此外,这些
目前,互联网已经从以传统通信服务为主转变成为支持各种新型应用的网络平台。这些新型应用都是利用对等(P2P)网络技术构建覆盖网络,从而能够保证高效快捷的网络的路由定位,提供
从当前的实际情况出发,经过对有关报业集团新闻数据管理系统的考察和分析,确立了宁夏日报报业集团新闻数据管理系统的具体要实现的功能。并阐述新闻管理系统的结构设计和功能设
本文为求解TSP问题设计了一种改进的遗传算法。在学习和研究过程中,了解到遗传算法在求解TSP问题的有效性,且影响遗传算法性能的参数主要有初始种群的质量、群体的大小、交叉概
电力系统图形编辑器是电力系统应用软件的一个重要组成部分,能够方便地绘制和显示电力系统中的各类设备元件,提供统一的图形用户界面。SVG是由W3C组织开发的一种开放标准的文