基于Python的网页爬虫技术研究

来源 :信息与电脑 | 被引量 : 0次 | 上传用户:jiugeqingjiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技推动了网络技术的进步,网络信息越来越多.如何从互联网中快速准确地收集所需的信息,成为了一个巨大的挑战.因此,网络爬虫技术应运而生,相比较于传统的人工搜集,该技术可以快速准确地收集信息.本文分析了 Python在爬虫程序开发方面的优势,阐述了爬虫的架构及工作原理,最后提出爬虫的合法性问题以及反爬虫技术.
其他文献
为准确地从文本信息中提取出文本所蕴含的情感,笔者提出一种基于注意力机制的长短期记忆网络(Long Short-Term Memory,LSTM)模型.该模型首先将文本转化为词向量矩阵,作为双向长短期记忆网络的输入,进而学习文本词语、句子之间的序列关系,最后引入注意力机制,将双向LSTM的输出与注意力机制相结合,得到的结果经全连接层后输入softmax分类器进行情感极性分析.实验结果表明,引入注意力机制的LSTM模型相较于传统机器学习方法(Support Vector Machine,SVM)以及标准的LS
针对传统实体识别解决方案存在识别准确率较低、自适应能力差等问题,笔者提出一种基于Bert-BilLSTM-CRF的神经网络模型识别互联网金融实体.首先,利用Bert模型对训练集进行预训练,获取抽象特征;其次,利用BiLSTM模型得到具有序列号的抽象特征;再次,把输出结果带入自注意力机制层中对结果进行加权求和,得到加权的抽象特征;最后,通过条件随机场(Conditional Random Filed,CRF)进行解码,提取真实实体.实验结果表明,该方法能够有效提升识别准确率.
为满足高清及超高清视频兴起后,人们的生活社会需求,2020年发布的多功能视频编码(Versatile Video Coding,VVC)在高效率视频编码(High Efficiency Video Coding,HEVC)的基础上进行了改进.VVC实现了在相同图像质量的条件下提升视频压缩率的目标.本文针对HEVC以及VVC中的帧内预测部分进行研究比较,并进行视频帧内编码对比测试.最后,通过测试得到以下结论:VVC较HEVC有22.21%的码率节省,可进一步提升视频压缩性能.
运用“中医证素辨证理论”,分析半夏泻心汤的方解及其对应的病位证素与病性证素,通过对比半夏泻心汤的证素与脾胃系病的证素,发现半夏泻心汤涉及的证素,与脾胃病中常见的胃脘痛、胃痞、吐酸、泄泻等疾病的证素,均有明显的相似性,临床上可根据具体疾病的证素,灵活运用本方治疗.通过证素辨证分析半夏泻心汤,以冀拓展本方的临床应用的新思路.
本文以上海市轨道交通为研究对象,基于复杂网络理论,首先分析上海市地铁网络各线路之间的连接关系,然后分析网络中各站点的位置和关系,最后选取上海市地铁共计18条线路的2020年1月1日至12月30日共360天的数据作为实验数据库,利用BP神经网络对客流量进行分析与预测.研究结果表明,绝大多数站点的度值为2,聚类系数接近于0,平均路径长度值为18.51,具有无标度网络的特性.通过对上海市轨道交通网络的拓扑特性进行分析,可为上海市轨道交通网络后期的规划与运营提供有效的指导依据.
立体匹配是双目立体视觉系统的关键步骤,笔者针对传统Census立体匹配算法像素值易受噪声影响、匹配精度低等缺点,提出一种改进算法.像素值采用窗口加权中值代替,并将灰度差的绝对值(Absolute Difference,AD)和Census变换融合进行代价计算,以提升初始视差精度;在代价聚合步骤,根据不同窗口是边缘区域或者平坦区域自适应选择阈值,以提高聚合效果.实验结果表明,所提算法在Middlebury测试平台上的5组图像中的平均匹配误差为5.49%,匹配效果明显提高,具有较高的精度和较强的鲁棒性.
目的 探究高压氧联合回神醒脑汤改善脑梗死患者神经、认知和肢体功能及生活能力的作用分析.方法 选取2018年3月-2019年10月在医院接受治疗的86例脑梗死患者为研究对象,采用随机数字表法分为对照组与观察组,每组43例.对照组采用常规治疗,观察组在此基础之上采用高压氧联合回神醒脑汤治疗,疗程4周.观察两组临床疗效、神经功能、认知功能、肢体运动功能、日常生活能力及血清学指标.结果 观察组总有效率高于对照组(P<0.05).治疗后,两组C反应蛋白(CRP)、D-二聚体(D-Dimer)、血栓调节蛋白(TM)、
目的 分析耳穴压豆疗法对神经根型颈椎病患者的护理干预效果.方法 选取2018年10月-2020年10月在医院诊治的60例神经根型颈椎病患者,随机分成两组,每组30例.对照组患者用传统推拿方法进行护理干预,观察组患者在对照组基础上用耳穴压豆疗法进行护理干预,比较两组患者护理前后的疼痛情况和睡眠问题,疼痛情况用疼痛视觉模拟量表(VAS)表示,睡眠问题用睡眠状况自评量表(SR SS)表示.结果 干预前,两组的VAS疼痛评分和SRSS睡眠评分比较,差异无统计学意义(P>0.05),干预后,观察组与对照组的VAS疼
目的 总结阮诗玮教授辨治络病的思想与临床经验.方法 从学术思想入手,归纳出阮诗玮教授对络病的三个观点,即新病久病均可入络,表里脏腑皆有所络,络病积滞沉久缠绵,总结阮诗玮教授辨治络病的治法方药,并列举医案参佐.结果 与结论传播阮诗玮教授的学术经验,探讨中医药在治疗络病的优势与方向,推广中医治疗的精髓,进而发展中医药事业.
近年来,网络通信已成为一种主要的通信手段,但是通信信息面临着被随时篡改的风险.因此,设计基于高级加密标准(Advanced Encryption Standard,AES)的网络通信信息实时加密传输系统.首先,设计伪噪声序列(Pseudo Noise,PN)发生器与现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)主控芯片;其次,建立数据实时加密模块,加强数据信息传输加密效果;再次,设置实时加密模块流程,细化加密模块的设计过程,并结合AES优化网络通信加密传输算法