基于预训练模型的海关商品异常申报检测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:TRACY101688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济全球化的发展,我国海关进出口商品总量逐年增加,对进出口商品征税成为海关的一项繁重的任务。我国海关目前对商品税号的审核主要采用人工方式,关员根据商品的文本信息对税号进行判断,但人工核查费时费力且存在标准不一致等问题。因此,如何快速准确地对大量申报数据进行异常申报检测成为如今海关急需解决的问题。为了能快速准确检测海关进出口商品的异常申报,本文使用自然语言处理中的预训练模型,得到包含海关语义信息的商品文本嵌入表示,利用嵌入表示得到海关文本的同义要素表,在同义要素表的帮助下,改进过采样算法实现异常申报检测算法,最后为验证上述算法,设计并实现了海关进出口商品异常申报检测系统。本文主要工作如下:第一,使用传统预训练模型得到海关商品的嵌入表示不包含语义信息,为了得到包含海关专有知识的同义要素表,本文对SBERT(Sentence-BERT)进行改进后,通过在海关进出口商品文本语料上微调,得到具有海关语义信息且能进行相似度比较的要素嵌入表示。该嵌入表示一方面可将同一类要素通过聚类操作得到该类要素对应的同义要素表,通过该表可在异常检测前对申报数据进行数据增强以提高分类效果;另一方面可以将构成申报商品的要素嵌入表示求平均后送入分类算法中,作为商品的向量化表示。第二,海关数据中异常申报占比较小,海关商品异常检测问题属于类别不平衡的二分类问题。经典的SMOTE过采样算法由于没有考虑样本分布,导致合成样本的包含的有效信息较少,本文对SMOTE算法进行改进,提出了I-SMOTE(Improved Synthetic Minority Oversampling Technique)算法。I-SMOTE算法在合成样本时通过考虑样本分布,使合成点更符合原数据分布,包含更多有效信息。选取四个UCI不平衡数据集,选用三种经典单分类器算法对SMOTE算法和I-SMOTE算法进行对比实验,实验结果证明I-SMOTE算法较SMOTE算法可更有效的提升分类算法模型的分类能力。对于海关真实的申报数据,分别用随机森林、XGboost和Light GBM三种集成学习分类器对SMOTE算法、I-SMOTE算法、使用同义要素表进行数据增强+I-SMOTE算法三种方法进行实验,实验结果证明使用同义要素表对申报数据进行数据增强可以提升异常检测效果。第三,为了使异常检测技术服务于海关,解决人工进行申报商品异常检测耗时耗力的问题,本文设计并实现了海关进出口商品异常申报检测原型系统,该系统可对指定税号的申报数据进行异常检测分析,辅助关员快速高效的进行异常检测。
其他文献
枳壳作为重要的中药材之一,是川渝、湖南、江西等地脱贫致富的重要经济作物。而枳壳病虫害的传染性和传播性严重威胁枳壳产品的产量和质量,极大地制约着乡村振兴。因此,枳壳病虫害的早发现、早治疗以及对乡村种植户病虫害防治知识与方法的普及至关重要。现阶段针对枳壳病虫害的图像识别研究仍然较少,依赖人工观察经验识别和管理病虫害效率低、准确率低。因此,基于枳壳病虫害识别算法的研究及智能识别系统的研发对于推进枳壳种植
随着互联网的快速发展,网络广告时代也随之而来。不同于传统的纸媒广告、电视媒体广告,网络广告具有可追踪的特性,所以企业对于量化广告投放效果的需求越来越强烈。但是,量化广告投放效果所需环节众多,企业开发一个功能齐全的软件需要付出巨大的人力成本,导致大部分企业尚不具备量化广告投放效果的能力。除此之外,网络广告的定价权在广告平台手中,对于企业客户,其广告花费不透明。所以,本系统的重心将放在量化广告投放效果
图像拼接技术对同一场景不同视点拍摄的一系列具有公共像素区域的图像实现配准与融合以生成一幅结构自然的高分辨率全景图像,在医学影像生成、全景摄影、智能驾驶、农业生产和林业监测上有着充分的应用。同时,图像拼接又是一项极具挑战性的任务,主要的难点可归为由拍摄视点变化导致的视差问题,以及在视点发生较多移动导致的宽基线问题。视差问题多产生匹配伪影,宽基线则由于匹配信息较少难以有效配准或造成非重叠区的形状失真。
本文以湖北省十堰市某供销社为试点,依托于科技部重点研发计划项目-绿色宜居村镇技术创新项目(2019YFD1101104),针对传统集中采购交易系统中存在的数据易篡改、数据可信程度低、难以处理大规模用户请求等问题,借助分布式思想、排队论和区块链技术设计开发了集中采购系统交易管理子系统,能够有效帮助农民依靠供销社等平台从网上集中采购生产生活物资,降低生产生活成本。首先,针对单个服务器无法处理大规模请求
互联网的迅速发展给人们生活带来了巨大的便利,但是,网络的过度使用和依赖会造成网络成瘾的风险。网瘾不仅会影响学生的学习生活,甚至会导致抑郁、自杀等更严重的后果。因此,提前发现网络成瘾的高风险人群,并在早期阶段及时进行干预治疗是非常有必要的。现阶段针对网瘾的检测方法大多使用心理学家的调查问卷,但是这种方法具有一定的局限性。目前,计算机领域多数研究使用朴素贝叶斯、逻辑回归等传统机器学习算法进行建模,而这
学术文献是科学研究人员明确科研方向或思路、传递学术价值信息、了解研究主题动态及发展规律的重要知识载体。伴随着学术大数据时代的到来,数字化信息资源爆炸式增长,入门学者检索信息时,很难获取、辨别与自己研究主题相关的文献资源,无法对自己的研究主题的现状及发展趋势有初步认识。因此本文设计完成了基于引用网络的主题发展分析系统,以可视化方式帮助入门学者获取主题内关键文献,完成体系化阅读需求,并基于时序引文网络
椭圆检测是计算机视觉中的一项基础性任务,为图像分析提供了有效的支持措施,在很多实际场景中都有着广泛的应用。例如,椭圆检测可以参与对工业器件的质检工作,或者在智能交通中高效的识别交通标志、在医学影像领域中辅助医疗诊断,以及在生物和农业领域中有助于对不同物体的形状分析。因此,在有限资源上运行的快速椭圆检测是各种实时性的计算机视觉系统中非常重要的问题。在椭圆检测过程中,对于在大量的候选片段(边缘或弧段)
随着科技的不断进步以及互联网技术的不断发展,软件系统的数量及规模在不断的壮大,保证软件系统的质量是亟待解决的问题。模糊测试技术作为当前软件工程领域用于挖掘软件漏洞的有效方式之一,其在发现软件潜在漏洞方面有着非常显著的效果。模糊测试工具AFL作为当前模糊测试领域最具有代表性的工具之一,其已帮助软件开发者发现了众多软件项目的潜在安全漏洞。同时,AFL也是目前最具有研究价值的工具之一。尽管AFL具有突出
科学研究人员在对海上目标探测时一直采用传统手工单一作业,无实时性且操作繁琐,亟需一个实时管理分析声纳数据的自动化平台。另外,研究人员根据声纳数据对目标特征初判时会受到噪音影响,导致误差较大,还需要设计算法修正初判结果。基于双深度Q网络的行船数据管理与分析系统将声纳数据可视化为波形图和灰度图,并且将采集到的音视频数据以及处理后的音频数据存储到本地文件以及数据库中。本系统分为音视频采集处理模块、数据库
我国的纺织服装生产出口位居世界第一,我国纺织业在国际贸易中的占比就决定着对国外市场的依赖程度。当前,全球经济增速放缓,国内经济进入新常态,我国纺织服装企业正面临着复杂多变的国内外环境,再加上国内新冠肺炎疫情的影响,这为我国纺织服装企业带来了更多的挑战。所以,在此背景下加快我国纺织服装企业的转型升级刻不容缓。一、我国纺织产业转型升级的现状
期刊