龙源期刊网

http://www.qikan.com.cn

基于

Python

聚焦型网络爬虫的影评获取技

作者:郭向向

郑嘉慧

苗学芹

来源:《时代金融》

2019

年第

11

摘要:在大数据的环境下,网络资源越加丰富,传统的搜索引擎已经不能够满足大众获取

信息的需求,随着计算机逐步的发展,网络爬虫的出现进入了人们的视野。本文主要讲述了网

络爬虫的概念、模块以及操作流程,并通过给定的网址快速爬取影评信息,进行分词做成词云

图形式展示出来。

关键词:

Python;

爬虫

;

影评

;

正则表达式

;

词云

当今互联网技术迅速发展,出现了包括大数据和云计算等等新型的技术,在如此庞大的数

据量中获取自己想要的需要耗费大量的时间,搜索的结果准确率也不是很高。本文通过利用

Python

爬虫分类中的聚焦型爬虫网络系统,在指定的网页下抓取相关的信息。在本文的实验中

通过在电脑网页中以手机用户的身份抓取猫眼网中最新电影《悲伤逆流成河》的影评信息,成

功的爬取后保存到本地,接着利用

jieba

分词对下载好的影评信息进行过滤筛选,将高频率出

现的词语通过影评词云图的形式展现在面前。这样的爬取信息大大的提高了爬取信息的准确

性,提高了资源的利用率,节约了查找信息的时间,真正的实现了有目的性的抓取信息。

一、基于

Python

的聚焦型网络爬虫架构

(一)网络爬虫的定义及分类

网络爬虫,又称网页蜘蛛,是一个功能强大的能够自动提取网页信息的程序。它模仿浏览

器访问网络资源,从而获取用户需要的信息。网络爬虫主要分为四类:通用型爬虫、聚焦型爬

虫、增量型爬虫、深层爬虫。

(二)工作流程

聚焦型网络爬虫的工作流程如下:第一:找出初始种子

URL

的集合

.

第二:在该集合中將

相应的

url

从确定的网站下载到本地,将相同的

url

队列放在一起。第三:对已经下载好的数据

进行分析处理。第四:重复第二第三步骤,直到将所有的

url

进行完全抓取。

二、数据获取

本文采用

Python

网络爬虫来进行处理,由于猫眼是一个反爬虫的网站,所以在做网络爬

虫时,还需要进行浏览器访问模拟,通过对网页源代码的分析,用正则表达式来获取所需数

据。所以本实验以爬取猫眼最新电影影评为例,详细讲解

Python

聚焦型爬虫的实现原理。

基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术相关推荐

  1. 基于python的房地产数据分析_基于Python的数据分析

    转载 | CSDN 编辑 | 雷课小雷 下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念.数据分析流程.Python优势.常用模块的用途以及使用Python进行数据分析的学习方法及步骤 ...

  2. python多维数据分析_使用python进行数据分析

    Life is short, I use python! 1 python中常用的数据分析包 2 python:一维数据分析 2.1 用numpy包进行一维数据分析 import numpy as n ...

  3. 用python进行股票数据分析_利用python进行股票数据分析

    个人觉得这问题问的不太对,说句不好的话,你是来搞编程的还是做股票的. 当然,如果题主只是用来搜集资料,看数据的话那还是可以操作一波的,至于python要怎么入门,个人下面会推荐一些入门级的书籍,通过这 ...

  4. python足球大数据分析_使用Python抓取欧洲足球联赛数据进行大数据分析

    背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展现 其中 ...

  5. python tus股票数据分析_使用Python进行快速复盘[1]: 数据获取与整理

    各位小伙伴周末好,本周想给大伙分享的内容是使用Python进行复盘,有小伙伴问到自己是否有必要学习Python,不可否认Python在进行数据分析时有很多优势,学习曲线也不算特别陡峭,但每个人具体情况 ...

  6. 用python处理excel 数据分析_使用python集合进行EXCEL数据分析

    使用python集合进行EXCEL数据分析 标准库 Python真正精彩的方面之一是它具有非常丰富的模块标准库 ,无需安装第三方模块即可进行一些复杂的编程. 如果您在系统上有效安装了python,则可 ...

  7. 基于python的房地产数据分析_基于Python的数据分析实战项目

    本文中项目资料来源于网易云课堂,代码为纯手工码字滴,请放心食用,不定期更新,欢迎对Python.数据分析以及编程感兴趣的同学留言沟通. 详细介绍了数十个数据分析相关的实战项目,大量使用pandas.n ...

  8. 用python做生物信息数据分析_基于Python的自动获取生物信息数据的软件设计

    基于 Python 的自动获取生物信息数据的软件设计 * 周斯涵,刘月兰 ** [摘 要] [摘 要] 从国际生物信息学数据库中采集数据来进行相关领域的分析, 但随着数据库规模不断扩大 , 数据来源种 ...

  9. python朋友圈数据分析_基于Python的微信朋友圈数据可视化分析之地点

    前提 朋友圈的相关数据请参照上一篇文章<基于Python的微信朋友圈数据可视化分析之个性签名>获取,本篇文章默认需要的数据已经下载保存至本地的 csv 文件中了. 将好友的地点按照省份进行 ...

最新文章

  1. 【电商日志项目之七】项目调优
  2. 区块链开源实现fabric快速部署及CLI体验
  3. java 中 a = a++ 的分析
  4. 2020总结--惟愿人间花满天
  5. 【学习笔记】18、函数的其他功能
  6. 带进度的文件复制 - 回复 冷风无泪 的问题
  7. python去除图片上的文字_Python图像处理之识别图像中的文字(实例讲解)
  8. (转载)DevExpress ASPxGridView 使用文档六:模板
  9. jenkins ssh 远程部署_Jenkins部署jar到远程服务器
  10. 2020年朋友圈十大谣言:包括蚊蝇可以传播新冠病毒等
  11. 【语音合成】基于matlab语音信号变调【含Matlab源码 566期】
  12. 【YY手机】用AVR单片机制作手机系列教程-制作篇
  13. Spring核心注解
  14. centos7 yum安装时遇到错误:Header V3 RSA/SHA256 Signature, key ID 352c64e5: NOKEY
  15. pytorch nn.AdaptiveAvgPool2d(1)
  16. 【转载 | 强化学习】Curriculum Learning和Self-paced Learning的相关知识及应用
  17. MFC CString转ASCII字符串
  18. app间共享(交互)方法
  19. 洛谷1456 Monkey King
  20. yami认证显示连接服务器失败,yamip安装教程

热门文章

  1. (Hadoop、HBase、Kafka)中,Zookeeper都作为核心组件使用
  2. Microsoft Windows PE
  3. C# GDI 手绘图片转化为电子版处理
  4. 分析app(课堂练习)
  5. 软件工程--总体设计过程详解
  6. 腾讯云:轻量服务器8核16G18M配置性能及限制条件说明
  7. 【每日三省吾身】常见Web漏洞基本原理
  8. android studio 混淆包,gogoapp体育-官网首页
  9. 【1.2】基本逻辑运算
  10. 运维自我提升:怎样做好企业 IT 运维工作