基于文本的企业安全隐患关联规则挖掘及预警方法

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:zmdwfh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国石油企业经历多年的安全管理存储了大量的安全管理文本数据,由于这些文本数据种类繁多,而且是非结构化数据,本文旨在找出隐藏在大量安全管理文本数据中企业的管理短板及安全隐患,降低企业风险,提升企业的安全管理水平。本文针对非结构化的文本数据,采用分词、词性标注等文本挖掘技术,结合关联规则算法,构建一种针对石油企业安全隐患文本数据的挖掘方法,找出安全隐患及漏洞,并编制了面向石油化工领域的文本挖掘软件。(1)本文将结巴分词和THULAC分词技术引入石油行业安全管理文本数据中,由于石油行业有很多专业名词,为了减少分词遗漏,继而采用了分词发现与专词合并,同时由于文本数据种类复杂,为了更好的对数据进行分析,对分词结果进行了标注,主要标注了设备设施、机构团体、人员岗位、规范标准等七类,保证了后续有针对性地进行分析,同时把安全管理文本数据按照标注类别进行了抽取,形成了结构化数据库。以两个企业安全管理文本数据为例,分别形成了25916条和10930条结构化数据库。(2)针对文本数据比较庞大,为了有效地挖掘文本数据的关联关系,建立了一种基于Apriori算法的文本挖掘的模型。结合分词技术,找出关键字,利用Apriori算法,调整合适的支持度和置信度,找出强关联规则,从而可以利用强关联规则,分析企业的安全管理现状,找出管理的缺陷和安全隐患,进而提升安全水平,降低风险,以两个企业为例,分别形成了93条和70条强关联规则。之后将关联规则以网络图的形式展现出来。根据生成的关联规则结合网络图进行分析,得到企业在安全管理方面存在的问题,并提出建议。(3)为了便于得到数据背后的知识,提高分析效率,本文利用Python语言、可视化工具Pyqt算法包开发了文本挖掘可视化软件。该软件基于本论文所运用的文本挖掘方法并加入可视化功能,同时采用了人机交互的操作方式,让使用者在文本挖掘的过程中可以实时进行调整,直观地得到安全隐患的关联关系。
其他文献
初至表示地震波最先到达检波器的时刻,是地震资料的一种重要信息。近年来,随着勘探任务的复杂化和勘探规模的扩大化,初至拾取工作面临着很多新的挑战。其中,主要有地震记录的缺道和低信噪比的问题。为此,往往需要引入额外的处理环节,例如插值或者去噪等。这些环节不仅增加了人力物力的消耗,同时也影响着初至拾取结果的准确性。全卷积神经网络是一种被广泛应用于图像、语音领域的深度学习工具。其强大的数据信息挖掘能力和表征
对油田岩心数据进行分析能够帮助人们更好地开发油田,提高油田采收率。随着油气勘探领域技术的不断提高,在油田开发过程中产生的数据呈指数型增长,传统的岩心数据分析方法并不能高效地分析海量的油田生产数据,无法发掘出其中潜在的信息。随着数据挖掘技术在石油领域中的普及,使得通过大数据分析技术对岩心数据进行数据挖掘成为了一项有价值的研究。本文介绍了数据挖掘技术在国内外石油领域中的研究现状,分析了目前将数据挖掘技
火力发电等工业控制领域一直致力于研究历史数据中蕴含的有价值的控制规律,以指导设备运行优化,提高经济效益。但由于工业控制系统组成复杂、参数耦合性较强,针对此类大规模复杂多元的时序控制数据的分析需要结合领域知识进行大量渐进式探索尝试。可视分析技术能够提供灵活的视图交互以支持复杂的数据迭代分析过程,目前已成为此类迭代分析问题的高效探索方法之一。随着对工业控制数据可视分析研究的深入,需要分析的控制过程和参
照相机和光谱仪的功能广为人知。成像光谱仪就是结合了两者的功能,空间信合和光谱信息都可以通过成像光谱仪获得。由于这种性能,成像光谱仪的运用范围非常大。在本篇论文中,主要讨论的是DMD编码成像光谱仪算法的研究,论文的主要安排如下:1.成像光谱仪以及成像光谱仪的分类、应用和研究现状。引出了编码成像光谱仪。DMD编码成像光谱仪是其中一种方式,并简述了其优点。2.数字微镜DMD是编码成像系统的一个重要器件。
LNG接收站的红外热成像监测具有关键设施体积大、场地情况复杂等特点,对红外热成像的数据清洗、异常识别与定位等提出了更高的要求。针对红外热成像监测技术在LNG接收站应用过程中易出现的问题,本文从异常数据清洗、异常监测及识别、异常区域定位及预警三个方面展开研究,提出相应的解决方案,并根据案例分析结果验证了该方法的可行性和有效性:(1)针对监测过程中异物通过镜头前方引发误报警的问题,提出了基于HOG+S
在油气生产过程中,其原材料大多具有易燃、易爆、有毒的性质,同时因为生产过程连续性强、技术复杂、设备繁多等特性,一旦发生事故,不仅会导致人员伤亡和财产损失,同时也会产生巨大的社会影响,甚至会危害到社会公众安全,产生难以想象的经济损失和无法挽救的后果。本文针对油气生产工艺操作过程中可能存在的操作行为失误,建立工艺模拟操作平台,利用视线追踪技术对操作者的异常认知行为进行监控,将眼动数据和眼动热点图像等特
新时期背景下,智能技术的广泛普及,为机械制造行业进一步发展提供了强大的技术支撑,促进机械制造技术愈加成熟,在一定程度上提高了社会生产水平,为国家经济建设奠定了良好基础。基于此,本文将针对新时代背景下我国机械制造与智能制造现状进行分析,深入探索机械智能制造的特点和意义,并对机械智能制造技术展开研究,希望能够为专业人士提供参考、借鉴。
对学生学业进展及影响因素进行可视化与分析有助于优化课程结构和师资配置,改进专业课程教与学的过程,提升大学各专业的教学质量。然而,长时间跨度的离散化学生成绩数据难以直接展现学生学业进展;学生成绩又具有高维多元、时序相关等数据特征,且易受学生自身、课程结构和教师等多因素影响,对分析过程带来挑战。为此,本文面向专业教学的学业进展分析进行可视化与交互设计研究,并开发了可视分析原型系统——APVAS,支持从
手写文本(字符串)识别方法是将手写文本转化为电子文本的技术。近年来随着计算机技术的发展和深度学习方法的兴起,涌现出多种字符串识别方法。它们按照对输入图片的切分思路可以分为两类:基于显式切分(也叫过切分策略方法,over-segmentation)的字符串识别方法和基于隐式切分(也叫无切分策略方法,segmentation-free)的字符串识别方法,两种方法其各有优缺点。本文拟融合两种方法,利用这
油藏生命周期是指油田从勘探、开采、加工、储存和运输到销售的所有业务和数据。随着油田长期开采和注水开发的深入,特高含水油田的高耗水层不断发育,导致油田开采效率低下,不利于提高原油采收率,大大增加了成本。因此,立足于油藏生命周期的全过程,研究如何改善高耗水层油藏的开发、提高油田采收率对我国石油行业具有十分重要的意义。针对油田高耗水层普遍发育、开采效率低下的问题,本文以孤东油田历史数据为研究对象,展开了