论文部分内容阅读
内容创业千帆竞发,自媒体平台春潮涌动。微信、微博、头条号、百家号等自媒体平台的受众范围已经远远超过传统媒体。生存在流量化中的自媒体,在给人们带来便利的同时也产生了海量的文本信息,自媒体文本中广告、电商、服务等因素也给用户获取信息增加了难度。如何帮助用户快速选择和甄别自媒体文本,高效率、高质量获得自己所需信息,把握同主题下自媒体动向已是迫切需要解决的问题。文本摘要是文章内容的真实反应,简洁且完整。自媒体文本自动文摘,在关注文本统计特征的基础上,着重挖掘文本潜在的主题信息,能够帮助用户选择、甄别同主题下自媒体文本,同时自动生成简短的文本摘要,极大提高用户阅读效率。本文主要研究工作如下:(1)利用主题爬虫技术聚焦用户搜索主题下的自媒体文本,构建自媒体文本语料库,以主题块的方式采集文本,能够极大提高文本覆盖率和页面利用率。(2)为满足面向主题的需求,同时解决自媒体文本相似度计算效率低的问题,本文提出基于LDA改进的文本相似度计算方法—LDA-C,该方法通过LDA挖掘文本潜在主题层,将字、词、句、文档作为相关主题的向量表示,构建主题空间,主题向量的余弦相似度即为文本相似度。通过实验证明,该方法在自媒体文本相似性准确度计算上比LD、TF-IDF、PLSA方法更高,并且能够降低计算复杂度,提高计算效率,同时消除未登录词的影响,避免外部词典的使用。(3)基于图排序思想,针对同主题下的自媒体文本特征,提出LDA-WSCoRank+自动文摘算法,该方法对CoRank算法进行以下改进:词句协同打分,避免以句子为粒度进行句子排序时对于特征词权重的忽略:句间重构,采用主题向量余弦相似度表示边权重,并设定边关系阈值来约束节点间的边个数,降低计算复杂度:冗余控制,通过MMR算法,克服图排序的冗余缺陷,提高文摘覆盖率;输出优化,按照原文语序,重组摘要句,保持文摘连贯性和可读性。最后以微信文本作为测试语料集对改进算法验证,通过对比TeamBest、TextRank、CoRank 算法,LDA-WSCoRank+在 ROUGE-1、ROUGE-2 和 ROUGESU上评分较高,说明该算法在文摘的完整度和连贯性表现优秀。(4)在本文研究工作的基础上,设计实现自媒体文本自动文摘系统,给出系统详细设计与实现流程,经用户实验证明,该系统能够极大提高用户选择、甄别文章的效率和准确率,提高用户阅读收益。