为什么80%的码农都做不了架构师?>>>   

技术干货

  1. SpringMVC 执行流程及源码解析

  2. 使用 Vue2 和 Yii2 进行前后端分离开发

  3. SSM (十一) 基于 dubbo 的分布式架构

  4. 五大理由从 Python 转到 Go 语言

  5. 软件的复杂性: 命名的艺术

标签:技术分享

1、SpringMVC 执行流程及源码解析

在SpringMVC中主要是围绕着DispatcherServlet来设计,可以把它当做指挥中心。这里先说明一下SpringMVC文档给出的执行流程,然后是我们稍微具体的执行流程,最后是流程大致的源码跟踪。

2、使用 Vue2 和 Yii2 进行前后端分离开发

本文介绍使用Vue2单页面程序作为前台,以Yii2搭建后台提供API,进行前后端分离开发的入门知识。本文适合Vue2,Yii2爱好者观看。预计花费时间30分钟,跟随教程操作。

3、 SSM (十一) 基于 dubbo 的分布式架构

现在越来越多的互联网公司还是将自己公司的项目进行服务化,这确实是今后项目开发的一个趋势,就这个点再凭借之前的SSM项目来让第一次接触的同学能快速上手。

标签:独家译文

4、五大理由从 Python 转到 Go 语言

Python 是非常强大的,特别是 Python3 有了异步功能,但是 GO 将完全取代它在大企业中的存在…

5、软件的复杂性: 命名的艺术

想把一个东西写好很难。为什么呢?因为只要写好了,才会有很好的阅读体验。我们往往关注了前者而忽略了后者。我们忘记了代码只写一次,但要读很多次。

码云推荐

  1. 强力 Java 爬虫  Spiderman

  2. 便于二次开发的爬虫框架  webmagic

  3. 分布式爬虫系统 YayCrawler

  4. Go语言实现的高性能爬虫  DenseSpider

  5. Node.js 的爬虫系统  neocrawler

  6. 人脸识别爬虫  FaceSpider

  7. 全球最大成人网站PornHub爬虫 PornHubBot

1、强力 Java 爬虫  Spiderman

项目简介:Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

主要特点

  • 微内核+插件式架构、灵活、可扩展性强
  • 无需编写程序代码即可完成数据抽取
  • 多线程保证性能

2、便于二次开发的爬虫框架  webmagic 

项目简介:webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

主要特点

  • 简单的核心,灵活性高。
  • 用于HTML提取的简单API。
  • 使用POJO进行注释来自定义抓取工具,无需配置。
  • 多线程和分发支持。
  • 易于集成

3、分布式爬虫系统 YayCrawler

项目简介:分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等。

4、Go语言实现的高性能爬虫  DenseSpider

项目简介:Go语言实现的高性能爬虫,基于go_spider开发。实现了单机并发采集,深度遍历,自定义深度层级等特性。

基本结构

  • Spider模块(主控)
  • Downloader模块(下载器)
  • PageProcesser模块(页面分析)
  • History(Url采集历史记录)
  • Scheduler模块(任务队列)
  • Pipeline模块(结果输出)

主要Feature

  • 基于Go语言的并发采集
  • 页面下载、分析、持久化模块化,可自定义扩展
  • 采集日志记录(Mongodb支持)
  • 页面数据自定义存储(Mysql、Mongodb)
  • 深度遍历,同时可自定义深度层次
  • Xpath解析

5、Node.js 的爬虫系统  neocrawler

项目简介:NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适合用于垂直领域的数据采集和爬虫二次开发。

特点

  • 支持web界面方式的摘取规则配置(css selector & regex);
  • 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取;
  • 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽;
  • nodejs none-block 异步环境下的抓取性能比较高;
  • 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量;
  • 支持多种抓取实例并存,定制摘取引擎和存储方式。

整体架构

6、人脸识别爬虫  FaceSpider

项目简介:使用openCV结合网络爬虫编写的人脸识别爬虫,基于opencv246编写能够根据设置的线程数及深度针对指定目标URL的图片进行爬取。

7、全球最大成人网站PornHub爬虫 PornHubBot

项目简介:全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的数据。该项目旨在研究Scrapy Spider框架和MongoDB数据库,不能用于商业或其他个人意图。:)

推荐阅读:

【码云周刊第 15 期】都没闲着!Python 进阶学习,码云提升安全性

【码云周刊第 14 期】码云企业版企业开源界面上线啦!

【码云周刊第 13 期】用真实案例深度理解分布式的设计与实现

【码云周刊第 12 期】走过微软20年,埋头并发编程15年,如何减少代码的认知负荷?

【码云周刊第 11 期】追踪代码大仓库? Git 的拿手好戏!

请关注码云官方微信公众号,了解更多开源项目资讯!

转载于:https://my.oschina.net/gitosc/blog/880554

【码云周刊第 16 期】扎心了老铁!那些优秀的网络爬虫工具介绍相关推荐

  1. 码云推荐 | 那些优秀的网络爬虫工具介绍

    前言: 随着网络的迅速发展,万维网成为大量信息的载体,在这个大数据时代,如何有效地提取并利用网络上的数据成为一个巨大的挑战.爬虫,即网络爬虫,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本,另 ...

  2. 【码云周刊第 65 期】5个前端 UI 优秀框架

    摘要: 每周为您推送最有价值的开源技术内参! 码云项目推荐 随着 Web 技术的不断发展,前端开发框架层出不穷,各有千秋,今天小编为大家奉上前端 UI 框架的开源项目,希望大家能够喜欢!如果大家有 U ...

  3. 【码云周刊第 68 期】数据可视化:商业智能的未来!

    为什么80%的码农都做不了架构师?>>>    码云项目推荐 随着我们进入大数据时代的步伐越来越快,海量数据深度分析的重要性与日俱增,许多应用程序积累了大量消费者的行为数据,急需将这 ...

  4. 【码云周刊第 30 期】打造场景化的图片特效处理工具

    为什么80%的码农都做不了架构师?>>>    ##码云项目推荐 1.项目名称:图片实时处理使用工具 iOS-GPUImage **项目简介:**本项目是基于 ios 的图片处理 A ...

  5. 6款实用开源报表工具 | 码云周刊第 83 期

    大数据时代,从海量数据中挖掘出有用的数据,并以较人性化.直观的方式展示这些数据,变得尤为重要.今天小编为大家介绍6款实用的开源报表工具,你可以使用这些工具做出高效,且符合企业需求的报表. 1.项目名称 ...

  6. 【码云周刊第 24 期】超实用 Andorid 开发实例

    为什么80%的码农都做不了架构师?>>>    ##码云项目推荐 1.项目名称:开源中国 Android 客户端 **项目简介:**这是 OSCHINA 官方开发的 Android ...

  7. 【码云周刊第 61 期】四款开源项目教你玩转微信游戏

    为什么80%的码农都做不了架构师?>>>    码云项目推荐 前段时间小编的朋友圈几乎被一款微信小游戏霸屏,很多玩过的朋友戏称"根本停不下来",没错就是" ...

  8. 【码云周刊第 3 期】来自国内开发者的实战项目,开源让通讯从未如此简单!...

    为什么80%的码农都做不了架构师?>>>    类型:即时通讯 "小时候,乡愁是一枚小小的邮票,我在这头,母亲在那头-- " 春节将至,思乡心切,小一情不自禁的想 ...

  9. 【码云周刊第 10 期】放码过来,四个男人的带头冲锋!!(内附 PPT 下载链接)...

    为什么80%的码农都做不了架构师?>>>    一周热门资讯回顾 码云全面改版:新界面新态度,更一致的体验 DuangDuangDuang!码云项目的 Readme.md 特殊技能 ...

最新文章

  1. 计算机控制里ddc什么缩略语,空调自动化术语和缩略语.doc
  2. 利用VMware Infrastructure SDK编程控制虚拟机集群(1)
  3. qtextbrowser 大量数据卡顿_800万行的数据,Excel 10秒钟就能完成统计?这个工具太良心了!...
  4. Juddi介绍及安装
  5. 传惠普下周公布webOS平台最终命运
  6. javascript四个方向无间隙滚动合集(多浏览器IE,firefox兼容)
  7. 1203正规式转换为有穷自动机
  8. Asp.Net生命周期的详解
  9. WPS 提示缺字体
  10. 享20个Android游戏源码
  11. 【零基础】计算机网络技术基础与就业前景
  12. python手绘图_用Python轻松实现手绘图效果
  13. 兼容android模拟器的微信apk,Android模拟器中安装apk的方法
  14. 德国人预测世界杯: 冠军是西班牙!
  15. 背包问题leetcode
  16. RANSAC与其改进
  17. 一个简单的Python一元一次方程计算器
  18. php 热区,jquery如何使热区锚点随图片大小尺寸改变而变化
  19. 曙光服务器管理系统,曙光Gridview服务器管理系统单机版v2.0用户手册.pdf
  20. 买房贷款等额本息月供计算方法及其go代码

热门文章

  1. Android AIDL通信Service死亡监听
  2. 新手购买新房注意事项
  3. 一文弄懂Python中的 if __name__ == __main__
  4. 《信息系统监理》之项目管理的国际动态
  5. CardDAV, CalDAV
  6. 电脑照片怎么导入苹果手机?三个妙招帮你解决!
  7. 自考操作系统-----页置换算法
  8. 编程0基础应当如何开始学习 Python?
  9. css3+实现菱形图形,CSS3 菱形图案
  10. PowerPoint 2007 与 PowerPoint Viewer 2007 的命令行开关