基于关键词向量的主题模型构建与评论数据可视分析

来源 :燕山大学 | 被引量 : 0次 | 上传用户:abcdefghijklmn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户社交网络的成熟,用户消费体验对商家的参考价值越来越大。而点评类网站中的评论数据存在数据量庞大、时间跨度广等问题,降低了顾客的消费体验。因此,本文针对评论数据高维、多元的特点,以评论文本主题为切入角度,研究面向评论数据关键词的可视分析方法。首先,针对用户评价数据不完整、噪声或异常值多、词性不一致等问题,提出用户评论数据抽象与处理方法。基于字符串匹配方法文本清洗评论数据集,去除评论数据中与评价主题弱相关内容并填补缺失值。构建用户评价数据停用词表,并基于此降低主题提取时不必要的维度。同时,基于词形还原方法,消除时态、单复数等单词变形问题,还原单段文本中不同的单词词形。其次,针对传统方法中主题模型与词向量模型不能兼顾全局预测及局部词与词相关性的问题,提出基于评论数据关键词向量的主题模型构建方法。其一,构建主题提取和关键词表示方法:基于LDA模型提取评论数据主题,作为主题模型数据基础。然后,基于负采样方法优化Word2Vec中CBOW模型,从而将评论数据主题转换为词向量。其二,构建融合LDA和Word2Vec的评论数据关键词向量主题模型:基于余弦相似度计算关键词向量与用户评论中词向量的距离,通过Page Rank方法迭代,从而提高主题模型准确度,支撑文本可视分析。其三,验证关键词向量的主题模型构建方法的可行性:对比LDA与TF-IDF的传统算法,从准确率、召回率和F1值三个角度进行模型准确度评估,说明本文所述方法能够更为准确的获取用于可视化系统的用户评论文本关键词。然后,结合关键词向量的主题模型构建方法,设计分类、推荐和时态图等表征方法,使用户多视角进行可视分析,减少可视分析过程中的负担。最后,通过案例分析、深入访谈以及用户反馈,评估可视分析的可行性与实用性。该系统可扩展到其它领域的评论文本可视分析中,探索评论文本中的隐藏模式。
其他文献
内蒙古砂金矿的形成与脉金、砾岩金及“矿源层”的存在密切相关,具有多源补给的特点。新构造运动间歇性抬升对区内砂金矿的形成具显著的控制作用,并导致再生富集。有利的地貌、气候条件亦为区内砂金矿的形成奠定了基础。砂金矿床的形成时间主要是中更新世至全新世的早中期,并主要分布于长期以上升为主的褶皱隆起区。
期刊
目的 探讨慢性肾功能衰竭(CRF)血液透析患者并发导管相关性血流感染(CEBSI)的相关影响因素。方法回顾性分析2018年6月—2022年9月于沧州市人民医院行血液透析的453例CRF患者的临床资料,依据透析期间是否出现CEBSI分为两组,通过查阅病例资料、电话随访等多种方式收集患者基础资料,先行单因素分析,待获得有统计学差异的项目后再行Logistic回归分析,获得影响CRF血液透析患者并发CE
期刊
本文概述了在目前我厂#3坞仅有200t吊车的建造条件下,如何通过工艺创新来解决超过1000t的大型铰刀梁的移位安装及调整,其精度控制,包含:铰刀梁移位方案、工装支撑方案、安装调整方案、精度控制方案等几个方面的内容。
会议
目的 探究己酸菌微胶囊化及其在无窖泥发酵生产浓香型白酒中的应用。方法 采用锐孔-凝固浴法制备己酸菌微胶囊,通过单因素筛选、Box-Behnkn实验设计和神经网络结合遗传算法优化得到最佳的己酸菌微胶囊制备工艺参数。结果 制备己酸菌微胶囊的最佳工艺条件为:海藻酸钠浓度1.71%、氯化钙浓度2.85%、固化时间37 min,此时活菌数达到最高,为2.17×10~8个/g。对制备好的己酸菌微胶囊进行浓香型
期刊
餐饮业油烟与汽车尾气、工业生产废气,是城市空气污染的三大主因。随着蓝天保卫战的开展,汽车尾气、工业废气的治理及管控逐见成效,我们的空气质量得到改善的同时,各大城市餐饮业油烟污染治理提上日程。为彻底解决油烟污染问题,宿城区自2018年以来,开展了油烟专项治理行动并出台多项制度规章,创新管理方法,在餐饮业油烟污染治理方面取得显著成效,空气质量明显好转,油烟投诉显著减少,但是餐饮业油烟污染治理工作仍存在
学位
目的:观察现状-背景-评估-建议(SBAR)沟通模式在手术室巡回护士术中交接班中的应用效果。方法:选取2020年2—4月常规术中交接班沟通模式的95例手术患者为对照组,2020年6—8月接受SBAR沟通模式交接班的96例手术患者为研究组,比较两组巡回护士病情掌握度评分、交接缺陷(信息沟通错误、交接内容不完整、物品交接不清)发生率、接班巡回护士满意度和交接班时间。结果:研究组巡回护士病情与诊断、特殊
期刊
目的:观察胰泰复方对慢性胰腺炎胰腺纤维化大鼠血清羟脯氨酸(Hyp)含量的影响。方法:30只大鼠随机分成3组,中药治疗组、模型组分别予13.3%L-精氨酸腹腔注射,造成慢性胰腺炎模型,正常组给予同样剂量的生理盐水注射,10d后中药治疗组以胰泰复方灌胃,正常组和模型组予生理盐水灌胃。2个月后,取胰腺组织用于HE染色,取血清用紫外分光光度法测定Hyp的含量。结果:与模型组相比,治疗组治疗后Hyp含量明显
期刊
双累积曲线是检验降水与径流关系一致性及其变化的常用方法 ,通常用于水文气象要素一致性的检验、缺值的插补或资料校正,以及水文气象要素的趋势性变化及其强度分析。能够反映人类活动对径流影响的阶段性变化,可以定量地反映降水变化和人类活动变化的贡献率。根据密云水库流域1960年~2012年的逐日降雨、流量观测资料汇总,运用数理统计、随机水文学及时间序列理论等方法 ,通过对流域径流年内变化、年际变化、年代变化
期刊
本文围绕地源热泵在暖通空调设计中的运用开展研究,合理运用现代地源热泵技术,以提升人们室内生活舒适度为主要目的,简单分析地源热泵技术概述和应用特点及其在暖通空调设计中的应用方法,并深入探讨该技术在暖通空调设计中的实际应用,以供参考。
期刊
为减少施工过程对营业线的影响,现在跨铁路营业线桥梁施工中越来越普遍地采用转体法施工。而称重试验是转体施工中重要的一步,通过称重试验获得相关力学参数,为后续转体指挥决策提供依据。通过跨既有焦柳线铁路(56 m+56 m)T构桥梁转体施工称重试验施工实践,介绍了转体桥梁施工中称重试验的一般方法及原理,提出了相应配重方案的一般方法。
期刊