colly

colly 是一个优雅的 Golang 爬虫框架。

colly 提供了一个干净的接口来编写任何类型的爬虫/scraper/spider

使用 Colly,您可以轻松地从网站中提取结构化数据,这些数据可用于广泛的应用,如数据挖掘、数据处理或存档。

github上的地址在这里。

特点

  • 清洁 API
  • 快速(在单核上 > 1k 请求/秒)
  • 管理每个域的请求延迟和最大并发
  • 自动 cookie 和会话处理
  • 同步/异步/并行抓取
  • 缓存
  • 非 unicode 响应的自动编码
  • Robots.txt 支持
  • 分布式抓取
  • 通过环境变量配置
  • 扩展

安装

在控制台中输入:

go get -u github.com/gocolly/colly

实例

对于一个爬取网站的程序,需要注意几点东西,程序能够自动的获取该爬取的网站,不断的探测下去,把整个网站都全部爬取完成。

这是一一个简单的爬取qq.com的代码。

package mainimport ("fmt""github.com/gocolly/colly"
)func main() {c := colly.NewCollector()c.OnHTML("a[href]", func(e *colly.HTMLElement) {fmt.Println(e.Attr("href"))if e.Attr("href") == "/" {e.Request.Visit(e.Attr("href"))}})c.OnRequest(func(r *colly.Request) {fmt.Println("Visiting", r.URL)})c.Visit("https://www.qq.com/")fmt.Println()
}

Github每日精选(第75期):colly 爬取网站所有的数据相关推荐

  1. 如何爬一个网站的数据-免费爬取网站的任意数据软件

    如何爬一个网站的数据?爬取网络数据大家称之为网络爬行 收集页面以创建索引或集合.另一方面,网络抓取下载页面以提取一组特定的数据用于分析目的,例如,产品详细信息.定价信息.SEO 数据或任何其他数据集. ...

  2. 使用Selenium爬取网站表格类数据

    本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...

  3. 手机抓包app_Python爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢

    前言 在我们在爬取手机APP上面的数据的时候,都会借助Fidder来爬取.今天就教大家如何爬取手机APP上面的数据. 环境配置 1.Fidder的安装和配置 下载Fidder软件地址:https:// ...

  4. Python爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢

    前言 在我们在爬取手机APP上面的数据的时候,都会借助Fidder来爬取.今天就教大家如何爬取手机APP上面的数据. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过 ...

  5. 大数据 爬取网站并分析数据

    大数据+爬取前程无忧校园招聘+flume+hive+mysql+数据可视化 自己搭建的hadoop博客 1.爬取前程无忧网页和校园招聘 1.1用scrapy爬取前途无忧网站,我爬了10w多条数据,在存 ...

  6. python电影数据爬取的代码_Python3.5:爬取网站上电影数据

    首先我们导入几个pyhton3的库: from urllib import request import urllib from html.parser import HTMLParser 在Pyth ...

  7. 【爬虫】3.4 爬取网站复杂数据

    1. Web服务器网站 进一步把前面的Web网站的mysql.html, python.html, java.html丰富其中 的内容,并加上图形: mysql.html <!DOCTYPE h ...

  8. Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站

    Ubuntu利用crontab+shell脚本实现Scrapy每日定时爬取网站 原创文章.码字不易,转载请注明出处和链接,谢谢! 1.环境保障 自己利用scrapy编写的智联招聘网站"大数据 ...

  9. 每日爬虫练习:bs4库爬取诗词名句网的四大名著

    一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...

最新文章

  1. 交情来自一系列的交易
  2. 生成人脸修复模型:同时使用两个鉴别器,直接合成逼真人脸
  3. linux内核编译与内核模块
  4. 内核中的竞争状态和互斥(简述)
  5. 没有桌面体验功能就不能进行图片打印
  6. MyBatis学习总结(20)——MyBatis完全使用指南
  7. 结合nginx源码学习error_page和proxy 指令的关系
  8. php strtofloat,Delphi6函数大全(3)
  9. 用 theano 求解 Logistic Regression (SGD 优化算法)
  10. 专业科目笔试计算机,2021年度中国证监会招考职位专业科目笔试考试大纲(计算机类)...
  11. 关于分块思想的个人理解
  12. 学生表,选课表,课程表
  13. mysql 数据恢复 (.ibdata1, bin log)
  14. 手把手带你玩转Spark机器学习-深度学习在Spark上的应用
  15. 怎样把word文档里的html格式去掉,word文档去除格式
  16. 在桌面计算机找不到光盘驱动,如何弹出DVD驱动器,没有按钮,我在计算机中找不到DVD驱动器...
  17. RaiDrive添加坚果云
  18. iMAC——U盘全新重装Mac系统
  19. 【VRP】基于matlab遗传算法求解多中心车辆路径规划问题【含Matlab源码 1965期】
  20. 十进制转化为二进制的几种方法

热门文章

  1. BUUCTF 认真你就输了
  2. 淘宝买家心理-买家搜索过程,开店须知
  3. uniapp如何使用微信小程序的订阅信息推送消息给用户?
  4. 手机wap和html有什么区别,解析WEB和WAP之间有什么区别
  5. 4-Arm PEG-DSPE 四臂-聚乙二醇-磷脂 可用于修饰小分子材料
  6. 斑马ZM40条码打印机仅7K3
  7. 主板驱动是干什么的?
  8. leetcode 953.验证外星语词典(js)
  9. 设置 html 最大长度,在CSS中设置最大字符长度
  10. 布尔运算(boolean)