对于长期使用java做编程的程序猿应该知道,java支持的爬虫框架还是有很多的,如:ebMagic、Spider、Jsoup等。今天我们就用Jsoup来实现一个小小的爬虫程序,Jsoup作为kava的HTML解析器,可以直接对某个URL地址、HTML文本内容进行解析。

它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。我们可以使用Jsoup快速地掌握爬取页面数据的技巧。 Jsoup如此强大的关键在于Jsoup对常用的api做了很好的封装,并且通俗易懂,小白上手也很快,下面就主要介绍下常用的对象及API, 网络请求,jsoup封装了http请求所涉及的几乎所有api,在Jsoup.connect()方法返回的对象Connection对象中,封装了http请求的常见操作。 比如cookie

Connection cookie(String k, String v);Connection cookies(Map<String, String> cookieMap);

爬虫ip请求

Connection proxy(Proxy var1);Connection proxy(String var1, int var2);

本次分享将实现的功能为:利用Jsoup爬取某个搜索词语的百度百科的介绍部分,之前的很多爬虫文章都是分享的使用Python进行爬取,所以这次我们将用Java来做爬虫。经过简单的分析发现百度百科还是有些反爬机制的,所以这里我们也可以分享下如何在爬虫程序里面添加爬虫ip进行数据爬取的过程。

代码实现过程如下:

import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class Demo
{// 爬虫ip验证信息final static String ProxyUser = "16JSHK";final static String ProxyPass = "524536";// 爬虫ip服务器(http://jshk.com.cn/mb/reg.asp?kefu=xjy)final static String ProxyHost = "jshk.com.cn";final static Integer ProxyPort = 31111;// 设置IP切换头final static String ProxyHeadKey = "Proxy-Tunnel";public static String getUrlProxyContent(String url){Authenticator.setDefault(new Authenticator() {public PasswordAuthentication getPasswordAuthentication(){return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());}});// 设置Proxy-TunnelRandom random = new Random();int tunnel = random.nextInt(10000);String ProxyHeadVal = String.valueOf(tunnel);Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));try{// 处理异常、其他参数Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();if(doc != null) {System.out.println(doc.body().html());}}catch (IOException e){e.printStackTrace();}return null;}public static void main(String[] args) throws Exception{// 要访问的目标页面String targetUrl = "https://baike.baidu.com/";getUrlProxyContent(targetUrl);}
}

22个受欢迎的Python不同类型开源框架

以下面是我从网上整理的最受欢迎的Python开源框架。这些框架包括事件Web开发,I/O,OLAP,高性能网络通信,测试,爬虫等。

一、Python Web框架

Django: Python Web应用开发框架

Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单的对象定义,它就能自动生成数据库结构、以及全功能的管理后台。

Flask:一个用Python编写的轻量级Web应用框架

Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2 模板引擎。Flask也被称为“microframework”,因为它使用简单的核心,用extension增加其他功能。Flask没有默认使用的数据库、窗体验证工具。

Bottle: 微型Python Web框架

Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型,是因为它只有一个文件,除Python标准库外,它不依赖于任何第三方模块。

webpy: 轻量级的Python Web框架

webpy的设计理念力求精简(Keep it simple and powerful),源码很简短,只提供一个框架所必须的东西,不依赖大量的第三方模块,它没有URL路由、没有模板也没有数据库的访问

Web2py:全栈式Web框架

Web2py是一个为Python语言提供的全功能Web应用框架,旨在敏捷快速的开发Web应用,具有快速、安全以及可移植的数据库驱动的应用,兼容Google App Engine。

CubicWeb:面向对象设计的语义Web应用程序框架

一个有趣的系统,强调使用抽象和可重用的代码块称为“多维数据集”,但对于某些开发人员来说可能过于抽象或特殊。

Tornado:异步非阻塞IO的Python Web框架

Tornado的全称是Torado Web Server,从名字上看就可知道它可以用作Web服务器,但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用,FaceBook收购了之后便开源了出来。

二、Python 事件I/O框架

Diesel:基于Greenlet的事件I/O框架

Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。

三、Python OLAP框架

Cubes:轻量级Python OLAP框架

Cubes是一个轻量级Python框架,包含OLAP、多维数据分析和浏览聚合数据(aggregated data)等工具。

四、Python 网络框架

Zerorpc:基于ZeroMQ的高性能分布式RPC框架

Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议(RPC)实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程或命令行方式调用。

Falcon:构建云API和网络应用后端的高性能Python框架

Falcon是一个构建云API的高性能Python框架,它鼓励使用REST架构风格,尽可能以最少的力气做最多的事情。

Twisted:底层自定义协议网络框架

Twisted是一个高性能的编程框架。在不同的操作系统平台上,Twisted利用不同的底层技术实现了高效能通信

五、Python 测试框架

selenium:Web的自动化测试工具

一个用电脑模拟人操作浏览器网页,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。

unittest:标准库中自带的单元测试框架

unittest 单元测试框架是受到 JUnit 的启发,与其他语言中的主流单元测试框架有着相似的风格。其支持测试自动化,配置共享和关机代码测试。支持将测试样例聚合到测试集中,并将测试与报告框架独立。

Robot Framework:作为最重要的Python测试框架之一

Robot Framework主要被用在测试驱动(test-driven)类型的开发与验收中。虽然是由Python开发而来,但是它也可以在基于.Net的IronPython和基于Java的Jython上运行。同时,作为一个Python框架,Robot还能够兼容诸如Windows、MacOS、以及Linux等平台

Pytest:适用于多种软件测试的Pytest

凭借着其开源和易学的特点,该工具经常被QA(质量分析)团队、开发团队、个人团队、以及各种开源项目所使用。鉴于Pytest具有“断言重写(assert rewriting)”之类的实用功能,许多大型互联网应用,如Dropbox和Mozilla,都已经从下面将要提到的unittest(Pyunit)切换到了Pytest之上。

六、Python 爬虫框架

Scrapy:Python的爬虫框架

Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

PySpider:binux做的一个爬虫架构

强大的网络爬虫系统,并自带有强大的webUI,分布式架构,支持多种数据库后端。

Portia:一个开源可视化爬虫工具

可以让使用者在不需要任何编程知识的情况下爬取网站。简单地注释自己感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。

二、其他

Kartograph.py:创造矢量地图的轻量级Python框架

Kartograph是一个Python库,用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段,你可以在virtualenv环境下来测试。

Pulsar:Python的事件驱动并发框架

Pulsar是一个事件驱动的并发框架,有了pulsar,你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。

Dpark:Python版的Spark

DPark是Spark的Python克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark完成,正日趋完善。

java爬虫利器Jsoup的使用相关推荐

  1. Java爬虫之JSoup使用教程

    title: Java爬虫之JSoup使用教程 date: 2018-12-24 8:00:00 +0800 update: 2018-12-24 8:00:00 +0800 author: me c ...

  2. Java 爬虫工具Jsoup解析

    Jsoup是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和 ...

  3. java爬虫框架jsoup

    1.java爬虫框架的api jsoup:https://www.open-open.com/jsoup/ 转载于:https://www.cnblogs.com/wuzaipei/p/1057266 ...

  4. java爬虫之Jsoup入门

    网络爬虫 网络爬虫概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁. ...

  5. JAVA爬虫案例——JSOUP爬取图片并使用v-viewer实现图片预览

    前言 网络爬虫是大数据时代收集数据的一种有效手段,合理合法的运用技术手段获取网络数据,实现数据的再利用也是程序员的一项重要技能.本节我们使用java环境下的jsoup实现网络数据的爬取,主要是图片数据 ...

  6. 【java爬虫】jsoup爬取网页数据-搜索算法评测/竞品评测

    百度抽奖概率改4个小时频繁黑屏频繁弹出源码的前端FE T8李森:请云端高level的同学参加会议...对,我级别到了... 666666 业务背景:如何保证搜索算法的好坏?所以有了竞品评测,自己的AP ...

  7. 【Java爬虫】Jsoup

    官网 中文使用手册 jsoup.jar官网下载 jsoup.jar百度网盘下载 提取码:g6ek jsoup是一款Java的HTML解析器,主要用来对HTML解析,可直接解析某个URL地址.HTML文 ...

  8. Java爬虫之jsoup的使用

    背景 获取所有双色球数据,但是返回的都是html页面,需要进行处理,最开始想着用dom4j处理,发现不可行.之后想着自己处理,但是又太麻烦了,然后找到了jsoup,使用起来非常简单. jsoup的作用 ...

  9. Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析

    博客 学院 下载 GitChat TinyMind 论坛 APP 问答 商城 VIP会员 活动 招聘 ITeye 写博客 发Chat 传资源 登录注册 原 Java爬虫(二)-- httpClient ...

最新文章

  1. Window10 64位,通过Python读取.mif, shp文件
  2. vuepress 跑不起来?报错?空白页? res.getHeader is not a function?
  3. 正则表达式——常用元字符
  4. Hyperledger Fabric 1.4 搭建区块链浏览器
  5. 如何获取一个dll的cwinapp对象_一个女孩子是如何和暧昧对象确定恋爱关系的
  6. Ubuntu热键控制spotify播放和音量调节
  7. 电脑怎么改网络ip地址_电脑的桌面路径怎么改?
  8. xcode6 iOS SDK 8.1隐藏系统状态栏
  9. centos禁ping
  10. nxlog以syslog方式发送日志
  11. Altium Designer 9 学习笔记(一)基础操作
  12. 分期手续费转换为年化利率
  13. android 各类开源项目整理 包括 个性化控件 工具库 完整优秀项目
  14. R语言绘制双坐标图直方图与折线的结合
  15. springboot 使用 Spring Boot WebSocket 创建聊天室 2-11
  16. ORACLE 几种同步灾备手段(OGG,ADG,DSG,高级复制,流复制,logmnr)
  17. python重复抽奖_python—抽奖程序
  18. B站500万粉up主党妹被黑客勒索:交钱赎“人”!顶级安全专家:无解
  19. 幅度响应怎么计算_黄河三角洲地区植被变化及其对气温的响应特征
  20. 以前的的华为手机可不可以用鸿蒙系统_现在买华为手机以后可以换成鸿蒙系统吗?...

热门文章

  1. row xxxx doesn't contain data for all columns
  2. 摩尔定律,梅特卡夫定律和科斯定律
  3. 什么是函数?什么是无参函数?什么是返回值?函数的分类?
  4. 酷我音乐linux版本,酷我音乐盒的 Gtk/Linux 实现 – v2.5 版本发布
  5. 移动设备管理软件优劣,南京烽火星空来判别
  6. 【读书笔记】代码思考
  7. 一加7t人脸识别_一加7T新机设计图发布 这款手机的外观设计如何
  8. BootStrap的使用教程,适合新手小白!!
  9. Shell脚本实现自动检测/配置/开启/关闭redis后台服务
  10. Java IO 之BIO讲解