第一次写爬虫,真的踩了不少的坑

坑1:

看了爬虫视频后,首先尝试用request库和beautifulsoup来爬取Google Play

然后总是报错连接超时 ,应该是谷歌的反爬虫机制导致的

然后我的解决方法是用代理ip,于是成功解决了连接超时的问题

(我用了是翻墙的软件,补充:千万别用全局代理模式,详见坑3)

第一个坑就这么解决了,花了我几天的时间

坑2:

解决了连接的问题之后,我兴高采烈的把要爬取的内容写出来

结果一运行,发现什么都显示不出来

我第一反应是我写的代码有问题,然后检查了好久发现完全正确

于是我尝试爬取别的数据,结果正确爬取出来了 这就让我很懵

后来上网查了很多,发现很多人都说可能是因为js渲染的缘故

网页源代码和开发者工具中所看到的代码其实是不一样的  所以爬取不到内容

于是我尝试了一下禁用js  果然用户评论就加载不出来了

这时我才明白问题出在哪里

上网查了之后发现有两个方法解决:

1.查看开发者工具中network里面xhr内容,找到真正的源代码

2.利用selenium和phantomjs解析网页

我一开始是打算采用第一种方法的,但是看网上各种教程之后

发现谷歌的network里面的信息好像和大家的不大一样

很难找到用户评论源代码的url地址  尝试许久之后放弃

然后开始尝试第二种方法

首先打开命令行 pip install selenium==2.48.0

注意一定要是2.48.0版本  要是直接pip install selenium的话  之后会和phantomjs版本不兼容的

然后去phantomjs官网下载  下载后把路径加入环境变量的path里面  在把bin中的phantomjs.exe放入python路径下

最后验证二者是否成功  若是失败 则后续编程都会报错

这两个坑花了我将近一个星期的时间 终于告一段落了

补充:

坑3:

第三个坑是第二个坑的后续,我用另外一台电脑重复上述步骤的过程中

在命令行检测selenium和phantomjs安装的时会报502的错误

上网查也没找到原因  于是就此搁置

过了两天之后  无意中我打开了翻墙软件的全局代理模式,紧接着运行程序

结果!! 报了502错!!  然后我猛然惊醒  在回过头打开命令行 发现也是502错误

于是我关掉了全局代理模式在试,程序运行成功!

别问我为什么   我也不知道全局代理模式为什么会报502错误

总之,在巧合之下,我解决了这个问题  现在两台电脑都可以写爬虫了 在也不用把电脑背来背去了 开森

爬取Google Play中app的用户评论(1)相关推荐

  1. 爬取Google Play中app的用户评论(2)

    我遇到的下一个困难是如何爬取完整的用户评论 如图,很多评论都是折叠起来的  要是想直接获取完整的用户评论,最后只能得到空值 于是我尝试另外写一个方法来获取完整的评论  结果不尽人意 然后我看书上的实例 ...

  2. 爬取某东购买猪肉的用户评论,为生产经营提供了方向性参考

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于乡村四十二,作者至善 背景 最近在调研电商平台黑猪肉市场需求情况,电商平台有效的用户 ...

  3. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...

  4. 利用python的scrapy框架爬取google搜索结果页面内容

    scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

  5. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...

  6. 爬取Google patent上公司所有专利

    爬取Google patent上公司所有专利 需求:给出了需要爬取的公司列表,形式如下: ['DURATA THERAPEUTICS INC','DYNAVAX TECHNOLOGIES CORP'] ...

  7. python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——小猿搜题

    python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--小猿搜题 # 导入扩展库 import re # 正则表达式库 import collections ...

  8. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——小猿搜题

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...

  9. 爬取Google Scholar论文列表,如何利用公开数据进行合著作者分析?

    Preface 之前同学读研选导师,帮忙参考了一下.我发现有些老师很年轻,但是 Google Scholar 各项数据都高得离谱(主要是 citation 和 h-index ),甚至轻松碾压一些在人 ...

  10. 爬取google scholar数据

    突破限制爬取网页数据 googlesholar为例[转] 分类: 常用工具使用 2010-11-04 09:23 931人阅读 评论(1) 收藏 举报 浏览器google服务器stringwindow ...

最新文章

  1. Linux下各类TCP网络服务器的实现源代码
  2. linux各文件夹的作用域
  3. linux sed在容器中怎么用,概述LFCS 基础之sed用法
  4. Androidclient与服务端交互之登陆演示样例
  5. 分布式服务器客户端实验
  6. 编译错误: Too much data space used by DLL's in MODULES section
  7. python编程从入门到实战的16堂课_Python编程从入门到实战的16堂课(第2版)简介,目录书摘...
  8. [: -ge: unary operator expected 错误
  9. 盛夏七月,欢迎来京城看“火烧云”
  10. 用友NC6.5 6.33 6.3 5.7 5.5 5.02最新补丁下载
  11. cad画直角命令_在cad中怎么画角度?cad画角度三种方法介绍
  12. 谷歌翻译 onebox 升级
  13. 数据库 MySQL 中 DQL 数据库查询语言(特别重要)
  14. HTML+JS+websocket 实现联机“游戏王”对战(一)
  15. LOJ 534 花团(线段树+dfs栈)
  16. 牛顿法和高斯牛顿法对比
  17. 代谢组学通路富集分析
  18. Android数据存储(内部,外部,SharedPreferences,SQlite)
  19. GoogLeNet: Going deeper with convolutions
  20. 为什么采用实时操作系统?

热门文章

  1. Photoshop基础教程一:界面及新建
  2. phalcon mysql_phalcon mysql_phalcon数据库操作
  3. 论文阅读(Multimodal Dialog Systems via Capturing Context-aware Dependencies of Semantic Elements)
  4. Python中requirement 的使用
  5. 移动硬盘位置不可用无法访问函数不正确修复方法?
  6. echarts3 地图应用 给背景地图上色(2)附:世界各大城市经纬度
  7. hyperledger环境搭建(mac11.1、ubunt20)
  8. 今日发现:BlueJ和MenuetOS
  9. lazysnapping
  10. java clh_【Java】CLH 自旋锁