1 简单总结

1 淘宝模拟登录

2 天猫商品数据爬虫

3 爬取淘宝我已购买的宝贝数据

4 每天不同时间段通过微信发消息提醒女友

5 爬取5K分辨率超清唯美壁纸

6 爬取豆瓣排行榜电影数据(含GUI界面版)

7 多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架)

8 一键生成微信个人专属数据报告(了解你的微信社交历史))

9 一键生成QQ个人历史报告

10 一键生成个人微信朋友圈数据电子书

11 一键分析你的上网行为(web页面可视化)

12 一键导出微信读书的书籍和笔记

github地址:

https://github.com/shengqiangzhang/examples-of-web-crawlers

2 主要介绍

2.1 淘宝模拟登录

使用教程

1 点击这里下载

2 下载chrome浏览器

3 查看chrome浏览器的版本号,

4 点击这里下载

5 对应版本号的chromedriver驱动

6 pip安装下列包

pip install selenium

7 点击这里

8 登录微博,并通过微博绑定淘宝账号密码

9 在main中填写chromedriver的绝对路径

10 在main中填写微博账号密码

 #改成你的chromedriver的完整路径地址  chromedriver_path = "/Users/bird/Desktop/chromedriver.exe" #改成你的微博账号 weibo_username = "改成你的微博账号" #改成你的微博密码 weibo_password = "改成你的微博密码"

演示图片

2.2 天猫商品数据爬虫

使用教程

点击这里下载下载chrome浏览器查看chrome浏览器的版本号,
点击这里下载对应版本号的chromedriver驱动pip安装下列包
pip install selenium
pip install pyquery点击这里登录微博,
并通过微博绑定淘宝账号密码在main中填写chromedriver的绝对路径在main中填写微博账号密码

#改成你的chromedriver的完整路径地址 chromedriver_path = “/Users/bird/Desktop/chromedriver.exe” #改成你的微博账号 weibo_username = “改成你的微博账号” #改成你的微博密码

2.3 爬取淘宝我已购买的宝贝数据

使用教程

1 点击这里下载

2 下载chrome浏览器

3 查看chrome浏览器的版本号,

4 点击这里下载

5 对应版本号的chromedriver驱动

6 pip安装下列包

pip install selenium

pip install pyquery

7 点击这里

8 登录微博,并通过微博绑定淘宝账号密码

9 在main中填写chromedriver的绝对路径

10 在main中填写微博账号密码

\

#改成你的chromedriver的完整路径地址chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博账号weibo_username = "改成你的微博账号"
#改成你的微博密码

\

2.4 每天不同时间段通过微信发消息提醒女友

简介

有时候,你很想关心她,但是你太忙了,以至于她一直抱怨,觉得你不够关心她。你暗自下决心,下次一定要准时发消息给她,哪怕是几句话,可是你又忘记了。你觉得自己很委屈,但是她又觉得你不负责。最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

现在,再不用担心了,用python就可以给女友定时发提示消息了,而且不会漏过每一个关键时刻,每天早上起床、中午吃饭、晚上吃饭、晚上睡觉,都会准时发消息给她了,而且还可以让她学习英语单词哦!在生日来临之时,自动发祝福语。在节日来临之时,比如三八妇女节、女神节、情人节、春节、圣诞节,自动发问候语哦,再也不用担心他说你没有仪式感了

最重要的时候,实时可以知道女友的情感情绪指数哦,再也不用担心女友莫名其妙生气了。

使用教程

1 pip安装下列包

pip install wxpy

pip install requests

2 设置以下内容

设置config.ini相关信息

演示图片

2.5 爬取5K分辨率超清唯美壁纸

简介

壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物。然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁纸要么分辨率低,要么带有水印。

这里有一款Mac下的小清新壁纸神器Pap.er,可能是Mac下最好的壁纸软件,自带5K超清分辨率壁纸,富有多种类型壁纸,当我们想在Windows或者Linux下使用的时候,就可以考虑将5K超清分辨率壁纸爬取下来。

使用教程

# 如果没有安装,请使用pip install module
安装import requestsimport filetypeimport osimport jsonfrom contextlib import closing

演示图片

2.6 爬取豆瓣排行榜电影数据(含GUI界面版)

简介

这个项目源于大三某课程设计。平常经常需要搜索一些电影,但是不知道哪些评分高且评价人数多的电影。为了方便使用,就将原来的项目重新改写了。当做是对爬虫技术、可视化技术的实践了。主要是通过从排行榜和从影片关键词两种方式爬取电影数据。

使用教程

打开http://chromedriver.storage.googleapis.com/index.html,根据自己的操作系统下载对应的chromedriver打开当前面目录下的
**getMovieInRankingList.py**,定位到第59行,
将executable_path=/Users/bird/Desktop/chromedriver.exe
修改成你自己的chromedriver路径打开pycharm,依次安装以下包
pip install Pillowpip install selenium

演示图片

包含功能

根据关键字搜索电影

根据排行榜(TOP250)搜索电影

显示IMDB评分及其他基本信息

提供多个在线视频站点,无需vip

提供多个云盘站点搜索该视频,以便保存到云盘

提供多个站点下载该视频

等待更新

存在问题

目前没有加入反爬虫策略,如果运行出现403 forbidden提示,则说明暂时被禁止,解决方式如下:

  • 加入cookies
  • 采用随机延时方式
  • 采用IP代理池方式(较不稳定)

2.7 多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架)

简介

提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。

本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。

技术路线

IP代理池

多线程

爬虫与反爬

数据格式

000056,建信消费升级混合,2019-03-26,1.7740,1.7914,0.98,2019-03-27 15:00

000031,华夏复兴混合,2019-03-26,1.5650,1.5709,0.38,2019-03-27 15:00

000048,华夏双债增强债券C,2019-03-26,1.2230,1.2236,0.05,2019-03-27 15:00

000008,嘉实中证500ETF联接A,2019-03-26,1.4417,1.4552,0.93,2019-03-27 15:00

000024,大摩双利增强债券A,2019-03-26,1.1670,1.1674,0.04,2019-03-27 15:00

000054,鹏华双债增利债券,2019-03-26,1.1697,1.1693,-0.03,2019-03-27 15:00

000016,华夏纯债债券C,2019-03-26,1.1790,1.1793,0.03,2019-03-27 15:00

功能截图

配置说明

 # 确保安装以下库,如果没有,请在python3环境下执行pip install 模块名  import requests import random   import re   import queue    import threading    import csv  import json

2.8 一键生成微信个人专属数据报告(了解你的微信社交历史))

简介

你是否想过生成一份属于你的微信个人数据报告,了解你的微信社交历史。现在,我们基于python对微信好友进行全方位数据分析,包括:昵称、性别、年龄、地区、备注名、个性签名、头像、群聊、公众号等。

其中,在分析好友类型方面,主要统计出你的陌生人、星标好友、不让他看我的朋友圈的好友、不看他的朋友圈的好友数据。在分析地区方面,主要统计所有好友在全国的分布以及对好友数最多的省份进行进一步分析。在其他方面,统计出你的好友性别比例、猜出你最亲密的好友,分析你的特殊好友,找出与你所在共同群聊数最多的好友数据,对你的好友个性签名进行分析,对你的好友头像进行分析,并进一步检测出使用真人头像的好友数据。

目前网上关于这方面的数据分析文章比较多,但是运行起来比较麻烦,而本程序的运行十分简单,只需要扫码登录一步操作即可。

功能截图

如何运行

# 跳转到当前目录cd 目录名
# 先卸载依赖库pip uninstall -y -r requirement.txt
# 再重新安装依赖库pip install -r requirement.txt
# 开始运行python generate_wx_data.py

\

如何打包成二进制可执行文件

# 安装pyinstallerpip install pyinstaller
# 跳转到当前目录cd 目录名
# 先卸载依赖库pip uninstall -y -r requirement.txt
# 再重新安装依赖库pip install -r requirement.txt
# 更新 setuptoolspip install --upgrade setuptools
# 开始打包pyinstaller generate_wx_data.py

\

2.9 一键生成QQ个人历史报告

简介

近几年,由于微信的流行,大部分人不再频繁使用QQ,所以我们对于自己的QQ数据并不是特别了解。我相信,如果能够生成一份属于自己的QQ历史报告,那将是无比开心的一件事。

目前网上关于QQ的数据分析工具较少,原因是QQ相关接口比较复杂。而本程序的运行十分简单,具有良好的用户交互界面,只需要扫码登录一步操作即可。

目前本程序获取的数据包括:QQ详细数据、手机在线时间、非隐身状态下在线时间、QQ活跃时间、单向好友数量、QQ财产分析、群聊分析、过去一年我退出的群聊数据、退去一个月我删除的好友数据、所有代付信息、我最在意的人以及最在意我的人。由于相关的数据接口有访问限制,所以本程序并没有对QQ好友进行分析。

功能截图

\

如何运行

# 跳转到当前目录cd 目录名
# 先卸载依赖库pip uninstall -y -r requirement.txt
# 再重新安装依赖库pip install -r requirement.txt
# 开始运行python main.py

\

2.10 一键生成个人微信朋友圈数据电子书

简介

微信朋友圈保留着你的数据,它留住了美好的回忆,记录了我们成长的点点滴滴。发朋友圈从某种意义上来讲是在记录生活,感受生活,并从中看到了每个人每一步的成长。

这么一份珍贵的记忆,何不将它保存下来呢?只需一杯咖啡的时间,即可一键打印你的朋友圈。它可以是纸质书,也可以是电子书,可以长久保存,比洗照片好,又有时间足迹记忆。

这本书,可以用来:

送给孩子的生日礼物

送给伴侣的生日礼物

送给未来的自己

……

现在,你可以选择打印电子书或者纸质书。打印纸质书的话,可以找第三方机构花钱购买;打印电子书的话,我们完全可以自己动手生成,这可以省下一笔不小的开支

功能截图

在开始写代码思路之前,我们先看看最终生成的效果。

电子书效果(图片引用自出书啦)

如何运行

# 跳转到当前目录cd 目录名
# 先卸载依赖库pip uninstall -y -r requirement.txt
# 再重新安装依赖库pip install -r requirement.txt
# 开始运行python main.py

\

11.一键分析你的上网行为(web页面可视化)

简介

想看看你最近一年都在干嘛?看看你平时上网是在摸鱼还是认真工作?想写年度汇报总结,但是苦于没有数据?现在,它来了。

这是一个能让你了解自己的浏览历史的Chrome浏览历史记录分析程序,他适用于Chrome浏览器或者以Chromium为内核的浏览器。目前国内大部分浏览器均是以Chromium为内核的浏览器,所以基本上都可以使用。但是不支持以下浏览器:IE浏览器、Firefox浏览器、Safari浏览器。

在该页面中你将可以查看有关自己在过去的时间里所访问浏览的域名、URL以及忙碌天数的前十排名以及相关的数据图表。最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

功能截图

在开始写代码思路之前,我们先看看最终生成的效果。

如何运行

在线演示程序:http://39.106.118.77:8090(普通服务器,勿测压)

运行本程序十分简单,只需要按照以下命令即可运行:

# 跳转到当前目录cd 目录名
# 先卸载依赖库pip uninstall -y -r requirement.txt
# 再重新安装依赖库pip install -r requirement.txt
# 开始运行python app.py
# 运行成功后,通过浏览器打开http://localhost:8090

\

2.12 一键导出微信读书的书籍和笔记

本项目基于@arry-lee的项目wereader修改而来,感谢原作者提供的源代码。

简介

全民阅读的时代已经来临,目前使用读书软件的用户数2.1亿,日活跃用户超过500万,其中19-35岁年轻用户占比超过60%,本科及以上学历用户占比高达80%,北上广深及其他省会城市/直辖市用户占比超过80%。**本人习惯使用微信读书,为了方便整理书籍和导出笔记,便开发了这个小工具。**最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

功能截图

在开始写代码思路之前,我们先看看最终生成的效果。

如何运行

 # 跳转到当前目录cd 目录名# 先卸载依赖库pip uninstall -y -r requirement.txt# 再重新安装依赖库pip install -r requirement.txt -i https://pypi.tuna.tsinghua.edu.cn/simple# 开始运行python pyqt_gui.py

\

github精选系列 ,会持续更新,想了解的朋友可以****关注 ,文章有帮助的话可以**长按点赞有惊喜!!!文章比较长,强烈建议大家可以先 收藏转发后再看 有什么补充可以在下面评论** ,谢谢大家

《github精选系列》——非常有趣实用的python爬虫例子相关推荐

  1. 【Python 爬虫】从入门到放弃(11 个有趣的 Python 爬虫例子)

    今天推荐的这个项目就可以让你释放双手,它是:examples-of-web-crawlers,这个项目包含一些常见的网站爬虫例子,代码通用性较高,时效性较久. 项目代码对新手比较友好,尽量用简单的 P ...

  2. 25个有趣实用的Python单行代码

    在用Python的第一天,便对它的简单性.流行性及其著名的单行代码着迷. 下面分享25个有趣且实用的Python单行代码,欢迎大家点赞.收藏,支持! 1. 交换两个变量 a = 4 b = 5 a,b ...

  3. 一些非常有趣的python爬虫例子

    hello,小伙伴们,大家好今天给大家分享的开源项目是一个关于爬虫的开源项目.这个开源项目,对新手比较友好, 主要爬取淘宝.天猫.微信.豆瓣.QQ等网站.感兴趣的小伙伴可以看一下. 项目简介 一些常见 ...

  4. 简单实用的python爬虫完整示例

    windows用户,Linux用户几乎一样: 打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口 pip install -i https: ...

  5. 爬虫系列一:十天python爬虫基础学习实战第二天——python基础语法

    第一天已经学会了基本的开发环境的安装,今天,可以开始学习如何写代码了,朋友们! 回顾: 1.爬虫能干什么? 2.python环境安装 3.pycharm安装(IDE) 4.简单打印输出hello wo ...

  6. 菜鸟教程python3在线工具_3个非常实用的Python爬虫工具,你会几个?

    Xpath Helper 是一个面向 Xpath 初学者的 Google Chrome 插件.相对于人工找 Xpath 语法,Xpath Helper 可以实现自动分析.只要你打开一个网页,然后点击任 ...

  7. python创意实用案例-python实用案例

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! (python内部对异常已处理)1 class listiterator(obje ...

  8. python爬虫新手项目-给新手推荐几个实用又适合上手的Python爬虫项目

    Python的前景光明不需要过多赘述了,那么作为新人如何快速上手这门语言呢?废话不多说,今天给大家分享三个极实用的Python爬虫案例. 1.爬取网站美图 爬取图片是最常见的爬虫入门项目,不复杂却能很 ...

  9. Python爬虫实战系列(一)-request爬取网站资源

    Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...

最新文章

  1. 建立企业级产品测试报告体系(概述)
  2. 笑谈在工作中树立个人品牌的十大原则的个人观点
  3. spring mvc @ModelAttribute 基本类型 自定义对象解析流程
  4. JBoss 4.x 5.x 6.xJBossMQ JMS 反序列化漏洞
  5. php 数据类型转换与比较
  6. 微课系列(6):Python关键字else的三种用法
  7. IntelliJ IDEA 2018 破解 汉化教程地址
  8. Low Power概念介绍<Level Shifter>
  9. SQL Server 2012 完全安装
  10. linux /dev/null用法
  11. 分享工作中遇到的问题积累经验 事务日志太大导致insert不进数据
  12. 下列不是python元组的定义方式_python 笔试题
  13. 网站开发之HTML基础表格Table和表单Form(三)
  14. Bluetooth LE for iOS demo. LightBlue like demo.
  15. 【VMware】XP安装VMware Tools
  16. win10共享打印机709问题
  17. Python爬虫实战,pytesseract模块,Python实现拉勾网岗位数据可视化
  18. zip格式压缩文件并打包下载
  19. 谈谈小程序的赚钱方式
  20. 共享虚拟主机是不是服务器,共享虚拟主机、独享虚拟主机还是云服务器?

热门文章

  1. 迪文串口屏幕DMG10600T101_01WTR实现图片切换并和串口通讯
  2. 3000商家挤进云栖小镇,抢滩阿里速卖通平台
  3. 【单调栈】P4147 玉蟾宫
  4. php定时自动发送邮件(从数据库取数据)(超详细版本)
  5. 数据库字符集utf8和utf8mb4的详细区别
  6. python语言应用 智慧树满分章节测试答案_Python语言应用完整智慧树网课章节测试答案...
  7. 一招教你如何在简历上突出工作经验!(干货)
  8. 最近刷爆朋友圈的“召唤神龙”
  9. 计算机英语世界 中英文版,看世界=SEEING THE WORLD(英文版)
  10. java数据库连接Druidsql失败_Druid数据库连接池异常connection holder is null