知网摘要作者信息爬取和搜狗微信、搜狗新闻的爬虫
个人项目,只支持python3.
需要说明的是,本文中介绍的都是小规模数据的爬虫(数据量<1G),大规模爬取需要会更复杂,本文不涉及这一块。另外,代码细节就不过多说了,只将一个大概思路以及趟过的坑。
本文中涉及的阿布云IP隧道及云打码平台需要自己注册,并在code中相应部分取消注释。
需要在每个模块中建立output文件夹,才能使用,文档结构如下图所示
搜狗微信文章抓取
- 目标:在搜狗微信模块下搜索关键词的文章,抓取链接保存文章标题,来源,时间,内容的内容
- 采取的策略:selenium模拟搜索,登陆扫码采用手动扫描的模式,登陆后通过不同的关键词进行搜索,翻页等操作。
- 遇到的坑:
- SogouWechat这个库只能抓到10个items(自己加入cookies也只能抓10个好像,反正我没成功的抓多个)
- 登陆只想到手动扫描这一块,没有其他更好的方法
- 搜索出来的文章链接时临时性的,要及时request并保存
- 在模拟翻页操作的时候,建议模拟一下页面滚动
- 网速不好的情况,要有sleep,要不然chrome会报错
搜狗新闻抓取
- 目标:在搜狗新闻搜索中搜索关键,将所有新闻的标题,时间,内容保存下来
- 采取的策略:
- request.get关键词,因为搜狗新闻就不涉及到cookies的问题,直接请求
- ip隧道代理请求(阿布云代理)
- news的具体页面,如果request获取不到文本,用selenium抓
- 遇到的坑:参照以上第三点。
知网摘要信息抓取
- 目标:指定文献来源或者单位,抓所有的文献的摘要,作者,时间等等
- 采取的策略:
- selenium模拟登陆,得到搜索页面
- ajax抓包,构造请求发送到服务器
- 自动打码(云打码,效果还可以)
- ip隧道代理
- 翻页用request构造
- 遇到的坑:
- 必须要登陆才能看到所有文献
- 打码失败的话one more time
- 数据量有点多,及时保存数据,我没有用数据库,我直接写到文件了
配置文件、运行文件讲解
项目控制运行模块全部都是在setting文件中修改配置的。
抓取范围配置
注意,START和END是默认为””的,这是指不进行范围限定。如果需要限定范围,必须同时输入START和END,不能只输入一个,另一个为空。
E.g. START = “20140101”
END = “ 20180101”另外在抓知网的时候,由于知网只能浏览300页,所以限定了时间范围也只是在300页内找时间范围内的文献。
抓取源选择
DATA_FROM 是选择抓取哪个模块的参数,只能在以下5个选项内选择
“sogou_news”, “sogou_wechat”, “cnki_journal”, “cnki_from”E.g. DATA_FROM = “sogou_wechat”
另外抓取sogou_wechat的时候,刚开始会弹出二维码界面,这是一个微信扫码登陆搜狗的页面,必须扫码登陆,要不然只能访问部分文章
抓取关键词
KEYWORDS 指抓取 sogou_news、sogou_wechat需要抓的关键词(知网搜索的关键词与这个无关),以list形式传入
E.g. KEYWORDS = [“高分一号”, “高分二号”, …]
另外,搜狗需要精确匹配,程序已处理,只用在这个地方按照以上输入就可以完成。
知网期刊
JOURNAL 指 在 DATA_FROM = “cnki_journal”情况下,需要搜索的期刊,以list形式传入。(建议每次传入一到两个期刊名,因为每次跑的时间过长,有情况及时发现处理)
E.g. JOURNAL = [“测绘科学”, …]
知网来源
FROMS 指 在DATA_FROM = “cnki_from”情况下,需要搜索的单位名称,以list形式传入。
E.g. FROMS = [“武汉测绘院”, …]
(建议一次性不超过50个)
IP、打码配置
一般不要动,除非要修改隧道和打码配置
最后,代码在我的github上,有问题请邮件联系我。
另外,接受数据爬取业务或者咨询。
知网摘要作者信息爬取和搜狗微信、搜狗新闻的爬虫相关推荐
- 网易云音乐信息爬取(存储为 csv文件)喜马拉雅音乐爬取
1. 网易云音乐爬取 分析 源代码 爬取结果, (可使用Excel 表格打开) 2. 喜马拉雅音乐爬取 分析 源代码 爬取结果 获取网易云音乐歌手信息 后续会做一个 网易云音乐爬取 + Tkinter ...
- python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
- python网易云热歌榜歌曲信息爬取(iframe框架内数据爬取,src为空)
为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...
- Scrapy分布式爬虫打造搜索引擎 - (三)知乎网问题和答案爬取
Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 推荐前往我的个人博客进行阅读:http://blog.mtiany ...
- 知乎网问题和答案爬取
本文转载自https://www.jianshu.com/p/7e31c1cbfa6f 三.知乎网问题和答案爬取 1. 基础知识 session和cookie机制 cookie: 浏览器支持的存储方式 ...
- 网易云音乐歌手歌曲、用户评论、用户信息爬取
这里以邓紫棋歌手为例,可以去网易云音乐看她的主页: 所有完整的代码在楼主的github:https://github.com/duchp/python-all/tree/master/web-craw ...
- Python+Selenium动态网页的信息爬取
录 一.Selenium 1.1 简介 1.2 配置 二.对百度进行自动化测试 2.1 进入百度搜索界面 2.2 自动填充百度网页的查询关键字并完成自动搜索 三.爬取指定网页的名言 3.1 找到元素 ...
- python爬取网易云音乐_Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)...
前言 某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的.如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,s ...
- Java爬虫——网易云热评爬取
爬取目标网址 : http://music.163.com/#/song?id=409649818 需要爬取信息 : 网易云top13热评 使用之前的 HttpURLConnection 获取 ...
- 生成osm文件_超酷城市肌理!地理数据信息爬取方法大全(B篇)DEM+POI+OSM
WENWEN:这一弹是对第一弹的补充和深化讲解,上一弹请点击常用的地理数据信息爬取方法大全(前期场地信息获取第一弹),关于DEM获取地形地理空间数据云提交任务一直在排队的问题,这个应该是官网的问题,不 ...
最新文章
- 如何在SAP Business by design的UI上扩展新的按钮
- Android中的Intent和Intent-filter总结
- jboss 配置上下文路径_JBoss Portal上的“ Hello World” portlet
- Unity 通过Unity Admob Plugin插件集成admob教程
- 沈阳建筑大学c语言真题,沈阳建筑大学C语言复习资料.doc
- Shell(Bash)中如何判断是否存在某个命令
- mysql 设置外键约束SET FOREIGN_KEY_CHECKS=1
- hadoop的同类技术_Hadoop和Spark的区别是什么?现在都流行用哪种技术?
- (转)重写重载多态,接口与类
- 数据集的非均衡问题(imbalanced data)和应对方法
- 史秀峰计算机网络技术与应用第二版,史秀峰版《计算机网络技术与应用》期中测试.doc...
- 331. 验证二叉树的前序序列化
- 手机APP开发常用工具有哪些
- 练一练思维缜密程度。有程式xyz+yzz=532,其中x、y、z都是整数,用c++编写一个程序,求x、y、z分别代表什么数字
- 中继 并发量_潮流UCM6102 IP PBX 支持500门分机 双外线 30个并发数
- 国产ChatGPT:科大讯飞、网易有道的新“斗兽场”
- java 小数乘法_java复习题69151-_人人文库网
- 【BZOJ5077】【UOJ198】【CTSC2016】时空旅行
- 俞敏洪的一分钟励志演讲
- 个人博客后台管理系统
热门文章
- 详解Transformer中Self-Attention以及Multi-Head Attention
- teamviewer13试用期已到期,错装商业版怎么还原成个人版?
- CCS中CMD文件详解
- vs2019安装时,一直卡在正在提取文件
- 夕夕博士的视频观后笔记集合~
- 【实践与问题解决30】苹果手机如何取消使用切换控制时候弹出的重要通知
- linux gz是什么文件,gz是什么
- 软件安装包是html怎么办,怎么把软件变成安装包
- python中kwlist是什么意思_Python keyword.kwlist方法代碼示例
- 判断二极管导通例题_朝花夕拾——2018全国1卷导数压轴题原题重现