个人项目,只支持python3.

需要说明的是,本文中介绍的都是小规模数据的爬虫(数据量<1G),大规模爬取需要会更复杂,本文不涉及这一块。另外,代码细节就不过多说了,只将一个大概思路以及趟过的坑。

本文中涉及的阿布云IP隧道及云打码平台需要自己注册,并在code中相应部分取消注释。

需要在每个模块中建立output文件夹,才能使用,文档结构如下图所示


搜狗微信文章抓取

  • 目标:在搜狗微信模块下搜索关键词的文章,抓取链接保存文章标题,来源,时间,内容的内容
  • 采取的策略:selenium模拟搜索,登陆扫码采用手动扫描的模式,登陆后通过不同的关键词进行搜索,翻页等操作。
  • 遇到的坑:
    1. SogouWechat这个库只能抓到10个items(自己加入cookies也只能抓10个好像,反正我没成功的抓多个)
    2. 登陆只想到手动扫描这一块,没有其他更好的方法
    3. 搜索出来的文章链接时临时性的,要及时request并保存
    4. 在模拟翻页操作的时候,建议模拟一下页面滚动
    5. 网速不好的情况,要有sleep,要不然chrome会报错

搜狗新闻抓取

  • 目标:在搜狗新闻搜索中搜索关键,将所有新闻的标题,时间,内容保存下来
  • 采取的策略:
    1. request.get关键词,因为搜狗新闻就不涉及到cookies的问题,直接请求
    2. ip隧道代理请求(阿布云代理)
    3. news的具体页面,如果request获取不到文本,用selenium抓
  • 遇到的坑:参照以上第三点。

知网摘要信息抓取

  • 目标:指定文献来源或者单位,抓所有的文献的摘要,作者,时间等等
  • 采取的策略:
    1. selenium模拟登陆,得到搜索页面
    2. ajax抓包,构造请求发送到服务器
    3. 自动打码(云打码,效果还可以)
    4. ip隧道代理
    5. 翻页用request构造
  • 遇到的坑:
    1. 必须要登陆才能看到所有文献
    2. 打码失败的话one more time
    3. 数据量有点多,及时保存数据,我没有用数据库,我直接写到文件了

配置文件、运行文件讲解

项目控制运行模块全部都是在setting文件中修改配置的。

  • 抓取范围配置

    注意,START和END是默认为””的,这是指不进行范围限定。如果需要限定范围,必须同时输入START和END,不能只输入一个,另一个为空。

    E.g. START = “20140101”
    END = “ 20180101”

    另外在抓知网的时候,由于知网只能浏览300页,所以限定了时间范围也只是在300页内找时间范围内的文献。

  • 抓取源选择

    DATA_FROM 是选择抓取哪个模块的参数,只能在以下5个选项内选择
    “sogou_news”, “sogou_wechat”, “cnki_journal”, “cnki_from”

    E.g. DATA_FROM = “sogou_wechat”

    另外抓取sogou_wechat的时候,刚开始会弹出二维码界面,这是一个微信扫码登陆搜狗的页面,必须扫码登陆,要不然只能访问部分文章

  • 抓取关键词

    KEYWORDS 指抓取 sogou_news、sogou_wechat需要抓的关键词(知网搜索的关键词与这个无关),以list形式传入

    E.g. KEYWORDS = [“高分一号”, “高分二号”, …]

    另外,搜狗需要精确匹配,程序已处理,只用在这个地方按照以上输入就可以完成。

  • 知网期刊

    JOURNAL 指 在 DATA_FROM = “cnki_journal”情况下,需要搜索的期刊,以list形式传入。(建议每次传入一到两个期刊名,因为每次跑的时间过长,有情况及时发现处理)

    E.g. JOURNAL = [“测绘科学”, …]

  • 知网来源

    FROMS 指 在DATA_FROM = “cnki_from”情况下,需要搜索的单位名称,以list形式传入。

    E.g. FROMS = [“武汉测绘院”, …]

    (建议一次性不超过50个)

  • IP、打码配置

    一般不要动,除非要修改隧道和打码配置

最后,代码在我的github上,有问题请邮件联系我。

另外,接受数据爬取业务或者咨询。

知网摘要作者信息爬取和搜狗微信、搜狗新闻的爬虫相关推荐

  1. 网易云音乐信息爬取(存储为 csv文件)喜马拉雅音乐爬取

    1. 网易云音乐爬取 分析 源代码 爬取结果, (可使用Excel 表格打开) 2. 喜马拉雅音乐爬取 分析 源代码 爬取结果 获取网易云音乐歌手信息 后续会做一个 网易云音乐爬取 + Tkinter ...

  2. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  3. python网易云热歌榜歌曲信息爬取(iframe框架内数据爬取,src为空)

    为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...

  4. Scrapy分布式爬虫打造搜索引擎 - (三)知乎网问题和答案爬取

    Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 推荐前往我的个人博客进行阅读:http://blog.mtiany ...

  5. 知乎网问题和答案爬取

    本文转载自https://www.jianshu.com/p/7e31c1cbfa6f 三.知乎网问题和答案爬取 1. 基础知识 session和cookie机制 cookie: 浏览器支持的存储方式 ...

  6. 网易云音乐歌手歌曲、用户评论、用户信息爬取

    这里以邓紫棋歌手为例,可以去网易云音乐看她的主页: 所有完整的代码在楼主的github:https://github.com/duchp/python-all/tree/master/web-craw ...

  7. Python+Selenium动态网页的信息爬取

    录 一.Selenium 1.1 简介 1.2 配置 二.对百度进行自动化测试 2.1 进入百度搜索界面 2.2 自动填充百度网页的查询关键字并完成自动搜索 三.爬取指定网页的名言 3.1 找到元素 ...

  8. python爬取网易云音乐_Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)...

    前言 某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的.如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,s ...

  9. Java爬虫——网易云热评爬取

    爬取目标网址 :   http://music.163.com/#/song?id=409649818 需要爬取信息 :   网易云top13热评 使用之前的 HttpURLConnection 获取 ...

  10. 生成osm文件_超酷城市肌理!地理数据信息爬取方法大全(B篇)DEM+POI+OSM

    WENWEN:这一弹是对第一弹的补充和深化讲解,上一弹请点击常用的地理数据信息爬取方法大全(前期场地信息获取第一弹),关于DEM获取地形地理空间数据云提交任务一直在排队的问题,这个应该是官网的问题,不 ...

最新文章

  1. 如何在SAP Business by design的UI上扩展新的按钮
  2. Android中的Intent和Intent-filter总结
  3. jboss 配置上下文路径_JBoss Portal上的“ Hello World” portlet
  4. Unity 通过Unity Admob Plugin插件集成admob教程
  5. 沈阳建筑大学c语言真题,沈阳建筑大学C语言复习资料.doc
  6. Shell(Bash)中如何判断是否存在某个命令
  7. mysql 设置外键约束SET FOREIGN_KEY_CHECKS=1
  8. hadoop的同类技术_Hadoop和Spark的区别是什么?现在都流行用哪种技术?
  9. (转)重写重载多态,接口与类
  10. 数据集的非均衡问题(imbalanced data)和应对方法
  11. 史秀峰计算机网络技术与应用第二版,史秀峰版《计算机网络技术与应用》期中测试.doc...
  12. 331. 验证二叉树的前序序列化
  13. 手机APP开发常用工具有哪些
  14. 练一练思维缜密程度。有程式xyz+yzz=532,其中x、y、z都是整数,用c++编写一个程序,求x、y、z分别代表什么数字
  15. 中继 并发量_潮流UCM6102 IP PBX 支持500门分机 双外线 30个并发数
  16. 国产ChatGPT:科大讯飞、网易有道的新“斗兽场”
  17. java 小数乘法_java复习题69151-_人人文库网
  18. 【BZOJ5077】【UOJ198】【CTSC2016】时空旅行
  19. 俞敏洪的一分钟励志演讲
  20. 个人博客后台管理系统

热门文章

  1. 详解Transformer中Self-Attention以及Multi-Head Attention
  2. teamviewer13试用期已到期,错装商业版怎么还原成个人版?
  3. CCS中CMD文件详解
  4. vs2019安装时,一直卡在正在提取文件
  5. 夕夕博士的视频观后笔记集合~
  6. 【实践与问题解决30】苹果手机如何取消使用切换控制时候弹出的重要通知
  7. linux gz是什么文件,gz是什么
  8. 软件安装包是html怎么办,怎么把软件变成安装包
  9. python中kwlist是什么意思_Python keyword.kwlist方法代碼示例
  10. 判断二极管导通例题_朝花夕拾——2018全国1卷导数压轴题原题重现