Web信息分类与自动摘要的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:nj_wpp1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的不断发展,网上的信息极度膨胀,网络用户越来越难以从信息海洋中快速有效的查找到所需要的信息。为了解决这一难题,要求人们在Internet这样一个动态变化的环境下对信息进行收集、分析、分类、评价以提供有效的信息服务。本文以网页文本信息为研究对象,针对网页信息内容多样、结构复杂的特点,从理论和应用两个角度对网页文本信息的分类方法和自动摘要做了深入研究。运用正向最大和逆向最大分词算法对网页提取的文本信息进行分词,使用K-means聚类算法,Bayers分类算法对信息进行分类,设计并实现了适合于新闻网页信息的自动分类器。详细分析了主题词的结构成分,并对所有超文本标记进行分析,将<TITLE>等九个重要的标记在进行主题词评价的时候被分配更大的权重,设计了主题词权重系数公式,结合句子位置信息计算句子得分、根据句子得分利用LUHN和LSA算法进行摘要提取,最终设计并实现了一套Web自动文本摘要原型系统。经实验表明,改进了主题词评价标准后,利用LUHN、LSA算法所生成的摘要与人工摘要相比可以达到70%以上的精确率和召回率;K-means算法的精确率可以达到72.5%,Bayers算法的精确率和召回率都可以达到90%以上。
其他文献
近年来,随着信息技术的发展,数字图像的数量正在飞速增长。如何在这海量的数字图像中找到我们所需要的图像数据越来越被人们所关注。基于内容的图像检索成为当前的一个热门研
计算机技术的发展极大地促进了计算科学的发展,然而由于工艺技术及材料物理性能的限制,单台计算机的运算速度还是有限度的,使得单处理机远远满足不了现代许多领域中大规模的计算
随着微处理器技术的发展以及通信、控制、消费类电子产品等嵌入式应用的迅速发展,嵌入式系统已逐渐深入到人们生活的方方面面。在这其中,有相当大的一部分应用需要存储和管理大
目前,电子商务作为一种可行的商业运作机制,正迅速地应用到广泛的经济领域中,改变着传统的经济模式。政府部门把电子商务引入到政府采购工作中,将信息技术和政府采购业务相结
步态是指人们行走的姿势,是一种远距离情况下唯一可感知的生物行为特征。与传统的指纹、虹膜、脸像等生物生理特征相比,步态具有难于隐藏和伪装、便于采集和远距离低分辨率识
需求分析在整个软件生命周期中是极其重要和基础的。随着软件系统规模的扩大,它直接关系到软件系统的成功与否。用例作为一种功能强大的需求建模工具,是记录系统需求的主要载
多媒体和网络通信技术的迅猛发展为多媒体信息的处理、发布和存储提供了极大便利,同时也给网络普及带来负面影响,如盗版侵权行为等数字信息安全问题。数字水印技术的出现,为
本次设计以EFAT/P-IIB型过程控制实验装置为研究对象,应用先进的计算机控制技术和智能控制理论,设计了基于模糊神经网络的计算机监控系统。 在本文设计的计算机监控系统中
签名是一种使用广泛的识别身份的生物特征,基于手写签名的身份鉴别在金融、军事、商业、通信、办公自动化、工程文件等领域有广泛的应用前景,签名鉴别技术的研究对于实际应用
随着劳动力市场信息化步伐的进一步加快,劳动力市场信息系统为各地区劳动力资源的调配起到了重要作用,但是劳动力市场的日益发展壮大,迫切要求在全省、全国范围内的统一,实现