- 该APP必须登陆才能访问所有页面。

- 你的账号如果没有关注对方,对方的详细介绍页面的很多信息就被隐藏了。

- APP的用户详细页面一个账号大概只能访问100次/天(有点记不清具体数字了)就不能访问了。

俺注册了10个该APP账号,模拟登录后一天只能抓1000千多个,还有好些数据不全(因为没有关注对方), 实在离俺想要的数据量相差较远。

总结上面的问题就是没有足够多的账号,就算账号足够多,每个账号和每个ip也有抓取限制。

于是就把该产品的APP,微信,网页里里外外都翻了一遍,能点的地方都去点一下看看。

有了新的发现:

- 该APP的用户详细页分享到微信后,通过微信打开可以直接访问,不需要登录,也不需要微信授权,用户详细页信息都是全的(解决了需要关注才能查看全面信息问题)。

- 通过APP获取分享到微信的url的接口访问频率控制放得很宽松。

- 虽然在微信上不用登录访问,没有账号限制了,但是还是有单个IP的访问频率控制。

分析完后,我就舒缓了很多,得出新的抓取思路,就是:

使用10个账号按一定频次通过APP不停的获取每个用户详细页分享到微信的URL,让另外一个程序模仿微信的user-agent不停的访问这些分享到微信的URL(要使用adsl拨号来解决单个IP访问频率控制问题)。

这样通过app加微信的方式解决了对账号的限制问题,实现了曲线救国。

后来我就发现好些抓取问题都有这种解决思路,跟我们在网络爬虫小偏方之一里讲的,有的网站为了SEO流量,而把referer来自百度的访问控制放宽了一样。

有的产品为了微信的流量(分享到微信里的页面可以直接打开,点击其他页面时再提示要注册登录),而对来自微信点击访问控制放宽了。

友情提示:抓取这些社交信息,对关键信息最好脱敏,不要买卖这类数据。

绕开登录进行爬虫_爬虫小偏方:绕开登陆和访问频率控制相关推荐

  1. pc端客户端爬虫_爬虫微博模拟登陆-从移动端到PC端

    爬虫登陆微博,相信是诸多爬虫爱好者必须跨过得一道坎.这不,这几天我也在研究如何能够快速而简洁得实现登陆功能. 当然,前期工作一定要做好,我先google + 百度了一把市面上的微博登陆教程,发现基本上 ...

  2. nodejs爬虫与python爬虫_爬虫知多少-(NodeJS 爬虫)

    不久前在公司做了一个关于爬虫的分享,简单介绍了网络爬虫的基础知识.爬虫的运作方式.抓取策略.攻防方式以及如何使用 NodeJS 进行爬虫开发, 在这里分享给各位同学分享一下~ 一.爬虫简介 二.爬虫的 ...

  3. 爬虫_微信小程序社区教程(crawlspider)

    照着敲了一遍,,, 需要使用"LinkExtrator"和"Rule",这两个东西决定爬虫的走向. 1.allow设置规则的方法:要能够限制在我们想要的url上 ...

  4. Python爬虫_正则表达式小例子

    import re match = re.search(r'[1-9]\d{5}', 'BIT 100081') if match:print(match.group(0))

  5. python 百度百科 爬虫_爬虫爬取百度百科数据

    以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...

  6. python大作业爬虫_爬虫大作业

    1.选一个自己感兴趣的主题(所有人不能雷同). 2.用python 编写爬虫程序,从网络上爬取相关主题的数据. 3.对爬了的数据进行文本分析,生成词云. 4.对文本分析结果进行解释说明. 5.写一篇完 ...

  7. python 安居客 爬虫_爬虫学习6:爬取安居客的VR房源信息

    公司的VR产品在推广前夕,需要做一个较详细的市场分析报告,我们可以从下面几个步骤来深入探讨: 1.需要展望整个VR的市场规模有多大,从而论证我们需要面对的市场分量, 2.在这个大市场下面,我们面对的细 ...

  8. python空间相册爬虫_爬虫技术实现空间相册采集器V.0.0.1版本

    一.    功能需求分析: 在很多时候我们需要做这样一个事情:我们想把我们QQ空间上的相册高清图像下载下来,怎么做?到网上找软件?答案是否定的,理由之一:网上很多软件不知有没有病毒,第二它有可能捆了很 ...

  9. python webviewer爬虫_爬虫再也不怕检测浏览器环境了

    背景 之前爬虫 驱动个 selenium 基本上就可以了. 但是现在各种检测浏览器环境...特别是不熟悉 js 的同学就更烦了 本文是直接把 selenium pyppeteer 以及正常打开浏览器 ...

最新文章

  1. idea缩写快捷键_idea快捷键大全
  2. 试试回答Frankyang的问题-什么样的人适合攻读博士学位?
  3. 二叉树的二叉链表存储结构构建以及先序遍历
  4. [系统安全]使用OD编写连连看外挂
  5. 删不干净_“我劝你别删前任微信”
  6. 甲骨文中国疯狂裁员 招聘网站上线“甲骨文人才专场”
  7. 一个简单的实现了智能虚拟女友—图灵机器人
  8. 湖北省首条短途运输航线“荆门—武汉”航线运营
  9. 工业企业数据库处理——2.匹配样本
  10. linux date 4 2,JZ2440 linux-3.4.2内核启动报错:Verifying Checksum ... Bad Data CRC(示例代码)...
  11. Android 项目实战视频资料 学习充电必备
  12. tp5html的if判断,TP5 判断方法
  13. 箱线图(Boxplot)也称箱须图(Box-whisker Plot)
  14. C语言解一元二次方程
  15. word制作员工手册教学
  16. 下载并解密的ts文件,发现一部分ts文件能播放,一部分不能播放
  17. 浅析即时通讯开发P2P技术如何降低实时视频直播带宽
  18. 最新PHP软文发稿新闻文章发布自助推广平台源码
  19. 网站首页banner的高度计算
  20. Trie 字典树【Leo_Jose】

热门文章

  1. 如何破解Mac并为其提供真正应得的精美壁纸
  2. 回顾:我们从2次主要API中断中汲取的经验教训
  3. Lugre摩擦模型的Stribeck曲线仿真
  4. Python爬取抖音app视频
  5. LeetCode 题 - 9 回文数
  6. 大数据每周分享第 008 期
  7. springboot开始
  8. Python logging模块切分和轮转日志
  9. Python2.7.16安装(Ubuntu16.04)
  10. 两个fetion飞信API