爬取Google Play中app的用户评论(1)
第一次写爬虫,真的踩了不少的坑
坑1:
看了爬虫视频后,首先尝试用request库和beautifulsoup来爬取Google Play
然后总是报错连接超时 ,应该是谷歌的反爬虫机制导致的
然后我的解决方法是用代理ip,于是成功解决了连接超时的问题
(我用了是翻墙的软件,补充:千万别用全局代理模式,详见坑3)
第一个坑就这么解决了,花了我几天的时间
坑2:
解决了连接的问题之后,我兴高采烈的把要爬取的内容写出来
结果一运行,发现什么都显示不出来
我第一反应是我写的代码有问题,然后检查了好久发现完全正确
于是我尝试爬取别的数据,结果正确爬取出来了 这就让我很懵
后来上网查了很多,发现很多人都说可能是因为js渲染的缘故
网页源代码和开发者工具中所看到的代码其实是不一样的 所以爬取不到内容
于是我尝试了一下禁用js 果然用户评论就加载不出来了
这时我才明白问题出在哪里
上网查了之后发现有两个方法解决:
1.查看开发者工具中network里面xhr内容,找到真正的源代码
2.利用selenium和phantomjs解析网页
我一开始是打算采用第一种方法的,但是看网上各种教程之后
发现谷歌的network里面的信息好像和大家的不大一样
很难找到用户评论源代码的url地址 尝试许久之后放弃
然后开始尝试第二种方法
首先打开命令行 pip install selenium==2.48.0
注意一定要是2.48.0版本 要是直接pip install selenium的话 之后会和phantomjs版本不兼容的
然后去phantomjs官网下载 下载后把路径加入环境变量的path里面 在把bin中的phantomjs.exe放入python路径下
最后验证二者是否成功 若是失败 则后续编程都会报错
这两个坑花了我将近一个星期的时间 终于告一段落了
补充:
坑3:
第三个坑是第二个坑的后续,我用另外一台电脑重复上述步骤的过程中
在命令行检测selenium和phantomjs安装的时会报502的错误
上网查也没找到原因 于是就此搁置
过了两天之后 无意中我打开了翻墙软件的全局代理模式,紧接着运行程序
结果!! 报了502错!! 然后我猛然惊醒 在回过头打开命令行 发现也是502错误
于是我关掉了全局代理模式在试,程序运行成功!
别问我为什么 我也不知道全局代理模式为什么会报502错误
总之,在巧合之下,我解决了这个问题 现在两台电脑都可以写爬虫了 在也不用把电脑背来背去了 开森
爬取Google Play中app的用户评论(1)相关推荐
- 爬取Google Play中app的用户评论(2)
我遇到的下一个困难是如何爬取完整的用户评论 如图,很多评论都是折叠起来的 要是想直接获取完整的用户评论,最后只能得到空值 于是我尝试另外写一个方法来获取完整的评论 结果不尽人意 然后我看书上的实例 ...
- 爬取某东购买猪肉的用户评论,为生产经营提供了方向性参考
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于乡村四十二,作者至善 背景 最近在调研电商平台黑猪肉市场需求情况,电商平台有效的用户 ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...
- 利用python的scrapy框架爬取google搜索结果页面内容
scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...
- 爬取Google patent上公司所有专利
爬取Google patent上公司所有专利 需求:给出了需要爬取的公司列表,形式如下: ['DURATA THERAPEUTICS INC','DYNAVAX TECHNOLOGIES CORP'] ...
- python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——小猿搜题
python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--小猿搜题 # 导入扩展库 import re # 正则表达式库 import collections ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——小猿搜题
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...
- 爬取Google Scholar论文列表,如何利用公开数据进行合著作者分析?
Preface 之前同学读研选导师,帮忙参考了一下.我发现有些老师很年轻,但是 Google Scholar 各项数据都高得离谱(主要是 citation 和 h-index ),甚至轻松碾压一些在人 ...
- 爬取google scholar数据
突破限制爬取网页数据 googlesholar为例[转] 分类: 常用工具使用 2010-11-04 09:23 931人阅读 评论(1) 收藏 举报 浏览器google服务器stringwindow ...
最新文章
- Linux下各类TCP网络服务器的实现源代码
- linux各文件夹的作用域
- linux sed在容器中怎么用,概述LFCS 基础之sed用法
- Androidclient与服务端交互之登陆演示样例
- 分布式服务器客户端实验
- 编译错误: Too much data space used by DLL's in MODULES section
- python编程从入门到实战的16堂课_Python编程从入门到实战的16堂课(第2版)简介,目录书摘...
- [: -ge: unary operator expected 错误
- 盛夏七月,欢迎来京城看“火烧云”
- 用友NC6.5 6.33 6.3 5.7 5.5 5.02最新补丁下载
- cad画直角命令_在cad中怎么画角度?cad画角度三种方法介绍
- 谷歌翻译 onebox 升级
- 数据库 MySQL 中 DQL 数据库查询语言(特别重要)
- HTML+JS+websocket 实现联机“游戏王”对战(一)
- LOJ 534 花团(线段树+dfs栈)
- 牛顿法和高斯牛顿法对比
- 代谢组学通路富集分析
- Android数据存储(内部,外部,SharedPreferences,SQlite)
- GoogLeNet: Going deeper with convolutions
- 为什么采用实时操作系统?
热门文章
- Photoshop基础教程一:界面及新建
- phalcon mysql_phalcon mysql_phalcon数据库操作
- 论文阅读(Multimodal Dialog Systems via Capturing Context-aware Dependencies of Semantic Elements)
- Python中requirement 的使用
- 移动硬盘位置不可用无法访问函数不正确修复方法?
- echarts3 地图应用 给背景地图上色(2)附:世界各大城市经纬度
- hyperledger环境搭建(mac11.1、ubunt20)
- 今日发现:BlueJ和MenuetOS
- lazysnapping
- java clh_【Java】CLH 自旋锁