今天为大家整理了32个Python爬虫项目。
整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩得愉快~

QQSpider
QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
https://github.com/LiuXingMing/QQSpider
WechatSogou

https://github.com/Chyroc/WechatSogou
DouBanSpider

https://github.com/lanbing510/DouBanSpider

https://github.com/LiuRoy/zhihu_spider

https://github.com/airingursb/bilibili-user
SinaSpider

https://github.com/LiuXingMing/SinaSpider
distribute_crawler

https://github.com/gnemoug/distribute_crawler
CnkiSpider
中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
https://github.com/yanzhou/CnkiSpider
LianJiaSpider
链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
https://github.com/lanbing510/LianJiaSpider
scrapy_jingdong
京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
https://github.com/taizilongxu/scrapy_jingdong
QQ-Groups-Spider
QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
https://github.com/caspartse/QQ-Groups-Spider
wooyun_public
乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。
https://github.com/hanc00l/wooyun_public
spider
hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右。
https://github.com/simapple/spider
findtrip
机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
https://github.com/fankcoder/findtrip
163spider
基于requests、MySQLdb、torndb的网易客户端内容爬虫。
https://github.com/leyle/163spider
doubanspiders
豆瓣电影、书籍、小组、相册、东西等爬虫集。
https://github.com/fanpei91/doubanspiders
baidu-music-spider
百度mp3全站爬虫,使用redis支持断点续传。
https://github.com/Shu-Ji/baidu-music-spider
tbcrawler
淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在MongoDB。
https://github.com/pakoo/tbcrawler
stockholm
一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。
https://github.com/benitoro/stockholm
BaiduyunSpider
百度云盘爬虫。
https://github.com/k1995/BaiduyunSpider
Spider
社交数据爬虫。支持微博,知乎,豆瓣。
https://github.com/Qutan/Spider
proxy pool
Python爬虫代理IP池(proxy pool)。
https://github.com/jhao104/proxy_pool
music-163
爬取网易云音乐所有歌曲的评论。
https://github.com/RitterHou/music-163
jandan_spider
爬取煎蛋妹纸图片。
https://github.com/kulovecc/jandan_spider
CnblogsSpider
Cnblogs列表页爬虫。
https://github.com/jackgitgz/CnblogsSpider
spider_smooc
爬取慕课网视频。
https://github.com/qiyeboy/spider_smooc
CnkiSpider
中国知网爬虫。
https://github.com/yanzhou/CnkiSpider
knowsecSpider2
知道创宇爬虫题目。
https://github.com/littlethunder/knowsecSpider2
aiss-spider
爱丝APP图片爬虫。
https://github.com/x-spiders/aiss-spider
SinaSpider
动态IP解决新浪的反爬虫机制,快速抓取内容。
https://github.com/szcf-weiya/SinaSpider
csdn-spider
爬取CSDN上的博客文章。
https://github.com/Kevinsss/csdn-spider
ProxySpider
爬取西刺上的代理IP,并验证代理可用性。
https://github.com/changetjut/ProxySpider

花了一周整理的,这是价值10W的32个Python项目!相关推荐

  1. 【资源分享】一周整理的,这是价值10W的32个Python项目!

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩得愉快~ QQ空间爬虫,包括日志.说说.个人信息等,一 ...

  2. 花一千多学python值吗_Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下...

    原标题:Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多, ...

  3. 花了一周,我总结了120个数据指标与术语。

    大家好,我是小五. 数据分析总是离不开各种指标和术语,最近我花了一周整理了共120个数据分析指标与术语:用户数据指标.行为数据指标.业务数据指标.数据分析术语.统计学常用语.数据报告常用术语. 文章较 ...

  4. 一周学好python_耗时一周整理的Python资料,包含各阶段所需网站、项目,收藏了?慢慢来...

    不知怎么的,最近不少关注我的读者都开始私信我怎么学好python?零基础转行是不是合适,还有希望吗?今年30了,还能不能转IT? 今天这篇文章,我花了一周的时间搜索.整理.调研.筛选,最后定稿.希望能 ...

  5. 博导花了十天整理出来所有的Python库,只希望我学好后高薪就业!

    总监的辛苦成果,不能辜负了!我们直接开始主题,小伙伴们需要资料的话可以私信我回复01,可以获得大量PDF书籍和视频! Python常用的库简单介绍一下 fuzzywuzzy ,字符串模糊匹配. esm ...

  6. 从GitHub中整理出来的15个最受欢迎的Python开源框架,你喜欢哪个

    从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框架 Djang ...

  7. 【整理】Libav、FFmpeg、mplayer、VLC开源项目、FFDshow

    [整理]Libav.FFmpeg.mplayer.VLC开源项目.FFDshow 转载 2012年02月13日 18:28:13 标签: standards / video / windows / 流 ...

  8. 今天为大家整理了32个Python爬虫项目。

    =========================== 若出现链接失效,请留言会及时修复 =========================== 今天为大家整理了32个Python爬虫项目. 整理的原 ...

  9. 花滑三周连跳_花滑未来能有人做五周跳吗 专家:四周半或是极限

    陈巍资料图 上周,当Mirai Nagasu在冬奥会的赛场上成功完成阿克塞尔三周的动作时,观众都为之疯狂,她成为美国历史上第一位实现空中翻转三周半的女子花滑选手. 与此同时,男子花滑选手也掌握了四周跳 ...

最新文章

  1. Docker 入门系列(3)- Docker 容器(创建、启动、终止、进入、删除、导入、导出容器、容器和镜像转化)
  2. 在okhttp3,WebView中忽略HTTPS证书校验
  3. 16年10月18号2th运算符与流程结构
  4. 谷歌的硬件梦:Pixel手机、ChromeOS平板和Home音箱
  5. 多地发钱鼓励生育,能刺激年轻人生娃吗
  6. 主窗体界面设计及功能实现
  7. ngx_conf_s
  8. 16行代码AC_【第十届蓝桥杯省赛c/c++B组真题解析】7.完全二叉树的权值
  9. linux服务器基本常识,服务器搭建-Linux基础知识
  10. 在我的心目中freeeim
  11. java声明代码是什么_java安全编码指南之:声明和初始化说明
  12. 在Android中利用iText生成PDF
  13. 扑克牌的完美洗牌算法
  14. 企业邮箱怎么换服务器,如何更换企业邮箱
  15. 这游戏到底怎么了? 一年后,再看《刺客信条奥德赛》
  16. 量化交易入门阶段——MACD的背离用法(一)——DIFF背离
  17. python爬虫--爬取-猫眼电影-代码
  18. 【pandas】统计指标
  19. 计算机网络到底讲了些什么
  20. CMU 11-785 L16 Connectionist Temporal Classification

热门文章

  1. jquery-待办事列表-待整理
  2. Django系列:(1)PyCharm下创建并运行我们的第一个Django工程
  3. Tomcat 8.5 配置 SSL 证书
  4. cocos2dx中加入unzip
  5. 移动混合应用HTML5数据查询优化
  6. jQuery formValidator 表单校验插件4.1.1高仿网易邮箱注册页面(已发演示链接)
  7. asp.net Cache缓存定时更新数据
  8. 刚copy试探发表了一篇文章文章,oschina感觉良好
  9. 容器编排技术 -- Kubernetes kubectl patch 命令详解
  10. Restic 跨平台加密备份工具