基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术
龙源期刊网
http://www.qikan.com.cn
基于
Python
聚焦型网络爬虫的影评获取技
术
作者:郭向向
郑嘉慧
苗学芹
来源:《时代金融》
2019
年第
11
期
摘要:在大数据的环境下,网络资源越加丰富,传统的搜索引擎已经不能够满足大众获取
信息的需求,随着计算机逐步的发展,网络爬虫的出现进入了人们的视野。本文主要讲述了网
络爬虫的概念、模块以及操作流程,并通过给定的网址快速爬取影评信息,进行分词做成词云
图形式展示出来。
关键词:
Python;
爬虫
;
影评
;
正则表达式
;
词云
当今互联网技术迅速发展,出现了包括大数据和云计算等等新型的技术,在如此庞大的数
据量中获取自己想要的需要耗费大量的时间,搜索的结果准确率也不是很高。本文通过利用
Python
爬虫分类中的聚焦型爬虫网络系统,在指定的网页下抓取相关的信息。在本文的实验中
通过在电脑网页中以手机用户的身份抓取猫眼网中最新电影《悲伤逆流成河》的影评信息,成
功的爬取后保存到本地,接着利用
jieba
分词对下载好的影评信息进行过滤筛选,将高频率出
现的词语通过影评词云图的形式展现在面前。这样的爬取信息大大的提高了爬取信息的准确
性,提高了资源的利用率,节约了查找信息的时间,真正的实现了有目的性的抓取信息。
一、基于
Python
的聚焦型网络爬虫架构
(一)网络爬虫的定义及分类
网络爬虫,又称网页蜘蛛,是一个功能强大的能够自动提取网页信息的程序。它模仿浏览
器访问网络资源,从而获取用户需要的信息。网络爬虫主要分为四类:通用型爬虫、聚焦型爬
虫、增量型爬虫、深层爬虫。
(二)工作流程
聚焦型网络爬虫的工作流程如下:第一:找出初始种子
URL
的集合
.
第二:在该集合中將
相应的
url
从确定的网站下载到本地,将相同的
url
队列放在一起。第三:对已经下载好的数据
进行分析处理。第四:重复第二第三步骤,直到将所有的
url
进行完全抓取。
二、数据获取
本文采用
Python
网络爬虫来进行处理,由于猫眼是一个反爬虫的网站,所以在做网络爬
虫时,还需要进行浏览器访问模拟,通过对网页源代码的分析,用正则表达式来获取所需数
据。所以本实验以爬取猫眼最新电影影评为例,详细讲解
Python
聚焦型爬虫的实现原理。
基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术相关推荐
- 基于python的房地产数据分析_基于Python的数据分析
转载 | CSDN 编辑 | 雷课小雷 下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念.数据分析流程.Python优势.常用模块的用途以及使用Python进行数据分析的学习方法及步骤 ...
- python多维数据分析_使用python进行数据分析
Life is short, I use python! 1 python中常用的数据分析包 2 python:一维数据分析 2.1 用numpy包进行一维数据分析 import numpy as n ...
- 用python进行股票数据分析_利用python进行股票数据分析
个人觉得这问题问的不太对,说句不好的话,你是来搞编程的还是做股票的. 当然,如果题主只是用来搜集资料,看数据的话那还是可以操作一波的,至于python要怎么入门,个人下面会推荐一些入门级的书籍,通过这 ...
- python足球大数据分析_使用Python抓取欧洲足球联赛数据进行大数据分析
背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展现 其中 ...
- python tus股票数据分析_使用Python进行快速复盘[1]: 数据获取与整理
各位小伙伴周末好,本周想给大伙分享的内容是使用Python进行复盘,有小伙伴问到自己是否有必要学习Python,不可否认Python在进行数据分析时有很多优势,学习曲线也不算特别陡峭,但每个人具体情况 ...
- 用python处理excel 数据分析_使用python集合进行EXCEL数据分析
使用python集合进行EXCEL数据分析 标准库 Python真正精彩的方面之一是它具有非常丰富的模块标准库 ,无需安装第三方模块即可进行一些复杂的编程. 如果您在系统上有效安装了python,则可 ...
- 基于python的房地产数据分析_基于Python的数据分析实战项目
本文中项目资料来源于网易云课堂,代码为纯手工码字滴,请放心食用,不定期更新,欢迎对Python.数据分析以及编程感兴趣的同学留言沟通. 详细介绍了数十个数据分析相关的实战项目,大量使用pandas.n ...
- 用python做生物信息数据分析_基于Python的自动获取生物信息数据的软件设计
基于 Python 的自动获取生物信息数据的软件设计 * 周斯涵,刘月兰 ** [摘 要] [摘 要] 从国际生物信息学数据库中采集数据来进行相关领域的分析, 但随着数据库规模不断扩大 , 数据来源种 ...
- python朋友圈数据分析_基于Python的微信朋友圈数据可视化分析之地点
前提 朋友圈的相关数据请参照上一篇文章<基于Python的微信朋友圈数据可视化分析之个性签名>获取,本篇文章默认需要的数据已经下载保存至本地的 csv 文件中了. 将好友的地点按照省份进行 ...
最新文章
- 【电商日志项目之七】项目调优
- 区块链开源实现fabric快速部署及CLI体验
- java 中 a = a++ 的分析
- 2020总结--惟愿人间花满天
- 【学习笔记】18、函数的其他功能
- 带进度的文件复制 - 回复 冷风无泪 的问题
- python去除图片上的文字_Python图像处理之识别图像中的文字(实例讲解)
- (转载)DevExpress ASPxGridView 使用文档六:模板
- jenkins ssh 远程部署_Jenkins部署jar到远程服务器
- 2020年朋友圈十大谣言:包括蚊蝇可以传播新冠病毒等
- 【语音合成】基于matlab语音信号变调【含Matlab源码 566期】
- 【YY手机】用AVR单片机制作手机系列教程-制作篇
- Spring核心注解
- centos7 yum安装时遇到错误:Header V3 RSA/SHA256 Signature, key ID 352c64e5: NOKEY
- pytorch nn.AdaptiveAvgPool2d(1)
- 【转载 | 强化学习】Curriculum Learning和Self-paced Learning的相关知识及应用
- MFC CString转ASCII字符串
- app间共享(交互)方法
- 洛谷1456 Monkey King
- yami认证显示连接服务器失败,yamip安装教程