*不带括弧注明的默认都是 Python爬虫

因为头条对外链不支持等其他原因,上图所有爬虫项目地址可在实验楼微信公众号(实验楼)后台回复关键字 “爬虫” 获取。以下为字母顺序的列表:

A

  • 暗网爬虫(Go)

B

  • Bilibili 用户 | Bilibili 小视频 | B站760万视频信息爬虫
  • Bing美图爬虫
  • 博客园(node.js)
  • 百度百科(node.js)
  • 百度云网盘
  • Boss 直聘
  • 博客园

D

  • 豆瓣读书 | 豆瓣爬虫集 | 豆瓣害羞组
  • DNS记录和子域名
  • DHT网络磁力种子爬虫
  • 抖音

G

  • Girl-atlas
  • girl13
  • GitHub trending
  • GitHub 仓库及用户分析爬虫

H

  • HDOJ爬虫

I

  • Instagram
  • INC500 世界5000强爬虫

J

  • 京东
  • 京东搜索+评论
  • 京东商品+评论
  • 机票
  • 煎蛋妹纸
  • 煎蛋妹纸selenium版本
  • 今日头条,网易,腾讯等新闻
  • 计算机书籍控图书

K

  • 看知乎
  • konachan

L

  • 链家
  • 链家成交在售在租房源
  • 拉勾
  • 炉石传说
  • leetcode
  • 领英销售导航器爬虫 LinkedInSalesNavigator

M

  • 马蜂窝 用户足迹
  • MyCar
  • 漫画喵 一键下载漫画~
  • MM131性感美女写真图全爬取
  • 美女写真套图爬虫 (一)(二)(三)
  • 妹子图
  • 猫眼网电影评分

N

  • 新闻监控
  • 你好污啊

P

  • Pixiv
  • PornHub
  • packtpub
  • 91porn

Q

  • QQ空间
  • QQ 群
  • 清华大学网络学堂爬虫
  • 去哪儿
  • 前程无忧Python招聘岗位信息爬取分析

R

  • 人人影视
  • RSS 爬虫
  • rosi 妹子图
  • reddit 壁纸
  • reddit

S

  • soundcloud
  • Stackoverflow 100万问答爬虫
  • Shadowsocks 账号爬虫
  • spider163 网易云音乐爬虫
  • 时光网电影数据和海报爬虫

T

  • tumblr
  • 下载tumblr喜欢内容
  • TuShare
  • 天猫双12爬虫
  • Taobao mm
  • Tmall 女性文胸尺码爬虫
  • 淘宝直播弹幕爬虫(node)
  • 天涯论坛文章

V

  • Youtube字幕下载
  • 视频信息爬虫
  • 电影网站

W

  • 乌云公开漏洞
  • 微信公众号
  • “代理”方式抓取微信公众号文章
  • 网易新闻
  • 网易精彩评论
  • 微博主题搜索分析
  • 网易云音乐
  • 新.网易热评
  • 唯品会商品

X

  • 雪球股票信息(java)
  • 新浪微博
  • 新浪微博分布式爬虫
  • 心灵毒鸡汤

Y

  • 英美剧 TV (node.js)

Z

  • ZOL 手机壁纸爬虫
  • 知乎(python)
  • 知乎(php)
  • 知网
  • 知乎妹子
  • 自如实时房源提醒

其他

  • 各大门户服务网站爬虫
  • DHT 爬虫
  • SimDHT
  • p2pspider
  • 80s 影视资源爬虫 - JianSo_Movie

什么是爬虫

爬虫是一种可以爬取指定网站页面的指定信息的应用程序,通过爬虫,我们可以获取网站中我们需要的数据。

爬虫的核心逻辑包括以下几个步骤:

  • 通过一个 URI 地址,模拟类似浏览器的行为获取这个 URI 地址对应的 HTML 页面,部分爬虫甚至还可以支持 JavaScript 的执行。
  • 获取之后通过页面解析,从页面中的指定的 HTML 标签下提取得到我们需要的数据。
  • 对数据进行处理之后存入指定的存储,比如文件系统,MySQL 等关系型数据库,Redis,MongoDB 等 NoSQL 数据库中。
  • 继续爬取其他的 URI 地址,这些 URI 地址可以从之前爬取得到的页面中提取,也可以通过一个 URI 库直接由启动爬虫的用户来输入。
  • 继续回到步骤1爬取并分析页面。

爬虫技术目前经常遇到的难点问题:

登录及验证码:有些页面在爬取的过程中,经常会遇到页面的交互操作,比如需要你输入用户名及密码进行登录才可以获取,有的网站还会提供验证码进行验证,这一类的数据获取都非常不容易。

JavaScript 等异步数据:部分网页的数据并不是在网页加载后就能够获得的,需要执行 JavaScript 来获取然后再更新到网页,这种情况下部分爬虫是无法爬取到的。通常会采用的解决方案是模拟浏览器去访问页面并执行 JavaScript 后获得完整的数据再进行页面解析。

反爬措施:有些网站会禁止无限制的爬取,会对 IP 地址及 User Agent 等爬虫标志进行限制,避免网站因为爬虫造成压力过大或者信息泄漏。在这种情况下,很多爬虫会选择进行 User Agent 伪装或者 IP 代理池的机制。

什么是通用爬虫?

这里所说的通用爬虫指的是能够爬取任何网站页面的爬虫,常见的爬虫都是特定的爬虫,特定爬虫需要根据爬取的目标网站进行设计实现。比如知乎爬虫或者豆瓣爬虫,这一类的文章在网上可以找到很多,都会针对于知乎及豆瓣的特定页面进行分析,并设计爬虫的实现逻辑。

104个实用网络爬虫项目资源整理(超全)相关推荐

  1. (史上最全)104个实用网络爬虫合集。

    一堆让你瞠目结舌的爬虫!一大波干货,别说话!看图: *不带括弧注明的默认都是 Python.Python爬虫教程推荐:Python 网站信息爬虫 #####本期技术清单内容皆为纯技术向请大家不要理解偏 ...

  2. Python网络爬虫全网资源汇总

    网络爬虫是什么? 百度百科 书籍 <Python网络爬虫权威指南 第2版> <Python网络爬虫框架Scrapy从入门到精通> <精通Python网络爬虫核心技术.框架 ...

  3. 【网络爬虫项目】实战知识点 - webcrawler

    [网络爬虫项目]webcrawler <tips> " grep" vi下透过文件的文本查找工具 $ grep -i template *.cpp //template ...

  4. 基于Python实现的网络爬虫项目——多线程下载小说并保存为txt文件(包含完整代码及注释)

    基于Python实现的网络爬虫项目--多线程下载小说并保存为txt文件(包含完整代码及注释) 一.确立预期目标 二.完成项目所需工具 三.项目需要解决的问题 问题一 问题二 问题三 问题四 问题五 问 ...

  5. Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

    1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...

  6. python爬虫程序的流程图_Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)...

    ###1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到 ...

  7. Python大型网络爬虫项目开发实战

    1    讲师简介 2    课程简介及特色 实战精通Scrapy爬虫项目编写 "Scrapy是Python的一个非常流行的爬虫框架,使用Scrapy框架可以很方面做出大型爬虫项目,但Scr ...

  8. 免费提供各种网络创业项目资源给你们(wcceo.com)

    网创CEO网站,点击进入(网创CEO-网络创业资源免费下载),就是为了免费提供各种网络创业项目资源给你们,不要再去高价购买,如果感觉这些教程没有后续服务,至少你们也可以先看一下大概的思路流程,适不适合 ...

  9. python网络爬虫的项目背景_第四章 Python即时网络爬虫项目: 内容提取器的定义

    1. 项目背景 在python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中 ...

最新文章

  1. 9032c语言程序设计,2016年中国计量学院机电工程学院9032C语言程序设计考研复试题库...
  2. Java心得--键值、枚举器
  3. 直播预告|中台基石腾讯云TStack的正确使用姿势
  4. elasticsearch最大节点数_Elasticsearch究竟要设置多少分片数?
  5. DELPHI中操作ACCESS数据库
  6. C,LINUX,数据结构部分
  7. conda安装tensorflow-GPU出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url错误
  8. 如何发现隐藏的Webshell后门
  9. Git项目下载部分文件或文件夹
  10. mac系统的UTF-8 BOM编码
  11. macOS | 提取BDrip(封装格式为mkv)中视频与音频并重新封装为mp4
  12. 计算机与食品科学与工程关系,计算机在食品科学与工程中的应用课程标准.doc...
  13. 找老域名有没有什么好方法?
  14. 软件测试自动感应灯,基于单片机的智能感应灯设计
  15. 英文论文查重率怎么算?
  16. Shiro高版本默认密钥的漏洞利用
  17. linux 查看nas磁盘阵列,NAS(linux)阵列管理
  18. 未来的计算机绘画图片,电脑绘画——为想象力插上科技的翅膀 二十中附校科技社团电脑绘画作品展...
  19. Python基础语法——基础语法、变量
  20. 人工神经网络有哪些应用,人工神经网络包括哪些

热门文章

  1. 原型设计展示【与莫多的初次合作】
  2. MySQL 优化原理 (2)
  3. B1039 / A1092 到底买不买
  4. 如何优雅又庶民地在Github Pages中上线Ghost博客系统
  5. 半导体激光器的发展趋势
  6. 163邮箱登录页面,如何快速登陆163邮箱?
  7. 网店信誉“刷客”产业链曝光:企业化运营机制
  8. 强烈推荐一个pomelo程序设计伴侣
  9. U盘中误删了某个文件该怎么恢复?
  10. u盘里删除的文件怎么恢复?恢复数据用这个