爬取Google Play中app的用户评论（1）

第一次写爬虫，真的踩了不少的坑

坑1：

看了爬虫视频后，首先尝试用request库和beautifulsoup来爬取Google Play

然后总是报错连接超时，应该是谷歌的反爬虫机制导致的

然后我的解决方法是用代理ip，于是成功解决了连接超时的问题

（我用了是翻墙的软件，补充：千万别用全局代理模式，详见坑3）

第一个坑就这么解决了，花了我几天的时间

坑2：

解决了连接的问题之后，我兴高采烈的把要爬取的内容写出来

结果一运行，发现什么都显示不出来

我第一反应是我写的代码有问题，然后检查了好久发现完全正确

于是我尝试爬取别的数据，结果正确爬取出来了这就让我很懵

后来上网查了很多，发现很多人都说可能是因为js渲染的缘故

网页源代码和开发者工具中所看到的代码其实是不一样的所以爬取不到内容

于是我尝试了一下禁用js 果然用户评论就加载不出来了

这时我才明白问题出在哪里

上网查了之后发现有两个方法解决：

1.查看开发者工具中network里面xhr内容，找到真正的源代码

2.利用selenium和phantomjs解析网页

我一开始是打算采用第一种方法的，但是看网上各种教程之后

发现谷歌的network里面的信息好像和大家的不大一样

很难找到用户评论源代码的url地址尝试许久之后放弃

然后开始尝试第二种方法

首先打开命令行 pip install selenium==2.48.0

注意一定要是2.48.0版本要是直接pip install selenium的话之后会和phantomjs版本不兼容的

然后去phantomjs官网下载下载后把路径加入环境变量的path里面在把bin中的phantomjs.exe放入python路径下

最后验证二者是否成功若是失败则后续编程都会报错

这两个坑花了我将近一个星期的时间终于告一段落了

补充：

坑3：

第三个坑是第二个坑的后续，我用另外一台电脑重复上述步骤的过程中

在命令行检测selenium和phantomjs安装的时会报502的错误

上网查也没找到原因于是就此搁置

过了两天之后无意中我打开了翻墙软件的全局代理模式，紧接着运行程序

结果！！报了502错！！然后我猛然惊醒在回过头打开命令行发现也是502错误

于是我关掉了全局代理模式在试，程序运行成功！

别问我为什么我也不知道全局代理模式为什么会报502错误

总之，在巧合之下，我解决了这个问题现在两台电脑都可以写爬虫了在也不用把电脑背来背去了开森

爬取Google Play中app的用户评论（1）相关推荐

爬取Google Play中app的用户评论（2）
我遇到的下一个困难是如何爬取完整的用户评论如图,很多评论都是折叠起来的要是想直接获取完整的用户评论,最后只能得到空值于是我尝试另外写一个方法来获取完整的评论结果不尽人意然后我看书上的实例 ...
爬取某东购买猪肉的用户评论，为生产经营提供了方向性参考
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于乡村四十二,作者至善背景最近在调研电商平台黑猪肉市场需求情况,电商平台有效的用户 ...
python3 爬虫爬取华为应用市场 APP应用评论（一）爬取全部评论——学霸君
python3 爬虫爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...
利用python的scrapy框架爬取google搜索结果页面内容
scrapy google search 实验目的爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...
python3 爬虫爬取华为应用市场 APP应用评论（一）爬取全部评论——作业帮
python3 爬虫爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...
爬取Google patent上公司所有专利
爬取Google patent上公司所有专利需求:给出了需要爬取的公司列表,形式如下: ['DURATA THERAPEUTICS INC','DYNAVAX TECHNOLOGIES CORP'] ...
python3 爬虫数据处理爬取华为应用市场 APP应用评论（二）根据评论生成词云——小猿搜题
python3 爬虫&数据处理爬取华为应用市场 APP应用评论(二)根据评论生成词云--小猿搜题 # 导入扩展库 import re # 正则表达式库 import collections ...
python3 爬虫爬取华为应用市场 APP应用评论（一）爬取全部评论——小猿搜题
python3 爬虫爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...
爬取Google Scholar论文列表，如何利用公开数据进行合著作者分析？
Preface 之前同学读研选导师,帮忙参考了一下.我发现有些老师很年轻,但是 Google Scholar 各项数据都高得离谱(主要是 citation 和 h-index ),甚至轻松碾压一些在人 ...
爬取google scholar数据
突破限制爬取网页数据 googlesholar为例[转] 分类: 常用工具使用 2010-11-04 09:23 931人阅读评论(1) 收藏举报浏览器google服务器stringwindow ...

爬取Google Play中app的用户评论（1）

爬取Google Play中app的用户评论（1）相关推荐

最新文章

热门文章