大数据爬虫基础(四)MAVEN的安装配置和使用(下)--JAVA简单爬虫
eclipse maven
环境:
windows 10pro x64 jdk1.8 eclipse mars
1、安装设置maven插件
window->preferences->Installations->Add
具体见下边的参考链接一
2、新建maven project
File->new project->maven project->maven-archetype-quickstart(默认选中)
groupId:com.mvntest
artifactId:crawler
finish
3、创建爬虫程序TTT.java
在src/main/java右键->new class,输入TTT回车,将爬虫代码粘到里边
4、添加依赖httpclient
4.1 搜httpclient 4.5.2依赖包
在如下网站搜到httpclient 3.1的maven pom.xml
http://mvnrepository.com/artifact/commons-httpclient/commons-httpclient/4.5.2
<!-- http://mvnrepository.com/artifact/commons-httpclient/commons-httpclient -->
<!-- http://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.2</version>
</dependency>
4.2 在eclipse添加pom.xml的依赖项
左边项目管理栏双击pom.xml,弹出表单,在下部找到dependancies,add,将上边的groupId,artifactId,版本填入,ok。
4.3 maven install
右键pom.xml,run as->maven install
如果报错,JRE不是JDK之类的,说明JRE reference不对,需要重新指定为JDK下边的JRE。
右键项目->property->java build path->libraries
选择JRE System Library->Edit
弹出框点Alternate JRE,点installed jres,点search,选择JDK下的JRE目录,apply,OK。
重新maven install
build ok
[也可以在window -> preferences-java里把JRE路径改了,一劳永逸]
4.4 运行项目
如果没有mave clean,可以:MAVEN项目->右键->run as-> maven build->Goals填clean package,ok。
下载dependency
项目->右键->run as -> maven install
运行
项目->右键->run as -> java application -> TTT
输出抓取结果。完成。
参考:
http://jingyan.baidu.com/article/295430f136e8e00c7e0050b9.html
http://www.iteye.com/topic/1123225
http://www.blogjava.net/fancydeepin/archive/2012/06/12/380605.html
http://mvnrepository.com/artifact/commons-httpclient/commons-httpclient/3.1
http://bbs.csdn.net/topics/390172911
TTT.java
package com.mvntest.crawler;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
public class TTT
{
/**
* @param args
* @throws IOException
* @throws ClientProtocolException
*/
public static void main(String[] args) throws ClientProtocolException, IOException
{
// 创建HttpClient实例
HttpClient httpclient = new DefaultHttpClient();
// 创建Get方法实例
HttpGet httpgets = new HttpGet("http://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient/4.5.2");
HttpResponse response = httpclient.execute(httpgets);
HttpEntity entity = response.getEntity();
if (entity != null) {
InputStream instreams = entity.getContent();
String str = convertStreamToString(instreams);
System.out.println("Do something");
System.out.println(str);
// Do not need the rest
httpgets.abort();
}
}
public static String convertStreamToString(InputStream is) {
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
StringBuilder sb = new StringBuilder();
String line = null;
try {
while ((line = reader.readLine()) != null) {
sb.append(line + "\n");
}
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return sb.toString();
}
}
大数据爬虫基础(四)MAVEN的安装配置和使用(下)--JAVA简单爬虫相关推荐
- 大数据学习第一课:虚拟机安装配置
本章主要内容 VirtualBox下安装CentOS7 Minimal版本 Minimal版本Centos7静态IP网络设置 ssh免密登录设置 我们现在身处数据时代,大数据和人工智能已经逐渐渗透到我 ...
- 【大数据计算】(四) Spark的安装和基础编程
文章目录 1. 使用Spark Sell编写代码 1.1启动Spark Shell 1.2 读取文件 1.3 编写词频统计程序 2. 编写Spark独立应用程序 2.1 用Scala语言编写Spark ...
- 【大数据前置基础】Linux安装、Xshell远程控制、WinSCP文件传输
Linux安装.Xshell远程控制.WinSCP文件传输 1 Linux安装 1.1 创建虚拟机 1.2 虚拟机启动及配置 2 Xshell远程连接虚拟机 3 WinSCP文件传输 手动反爬虫,禁止 ...
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...
- 03 大数据hadoop发展简史及环境安装
文章目录 大数据hadoop发展简史及环境安装 1.hadoop的介绍以及发展历史 2.hadoop的历史版本介绍 3.hadoop三大公司发型版本介绍 3.1免费开源版本apache: 3.2免费开 ...
- 打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>
打怪升级之小白的大数据之旅(四十) Hadoop概述 上次回顾 好了,经过了java,mysql,jdbc,maven以及Linux和Shell的洗礼,我们终于开始正式进入大数据阶段的知识了,首先我会 ...
- 2021年大数据ELK(四):Lucene的美文搜索案例
全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 美文搜索案例 一.需求 二.准备工作 1.创建IDEA项目 2. ...
- 大数据技术基础实验十三:Kafka实验——订阅推送示例
大数据技术基础实验十三:Kafka实验--订阅推送示例 文章目录 大数据技术基础实验十三:Kafka实验--订阅推送示例 一.前言 二.实验目的 三.实验要求 四.实验原理 1.Kafka简介 2.K ...
- 大数据入门培训之大数据开发基础知识学习
在目前相信大多数IT开发人员对于人工智能+大数据并不陌生,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解,带大家来学习了解一下 ...
- 数据可视化系列-01大数据可视化基础
文章目录 1.概述 2.大数据可视化基础 2.1 数据可视化基础知识 1.数据可视化简史: 2.数据可视化是什么: 3.数据可视化的分类: 4.数据可视化流程: 5.数据可视化的意义: 2.2 认识B ...
最新文章
- php从数据库读取中文显示问号??的解决办法
- word文档如何画线条流程图_如何将Word文档拆分成多个文件?
- Stereo Matching 立体匹配学习资料
- spring配置文件中非bean标签的原理解析
- 聚类 —— DBSCAN
- LeetCode 292. Nim Game
- if else可以看成一个完整的代码块
- 11、mysql数据表中数据的查询(3)
- android 卡片放大变详情页,ConstraintLayout动画实现布局卡片式滑动放大缩放
- LeetCode 831. 隐藏个人信息
- IntelliJ IDEA 配置Tomcat 运行Web项目
- 基于JAVA的在线图书销售系统
- C++新特性探究(九):functor仿函数
- 来看看深度学习如何在文娱行业“落地”
- mysql-plus多数据库_MyBatis-Plus实现多数据源的示例代码
- linux gt240驱动下载,NV显卡Linux驱动195.36.08版发布
- 七剑下天山?七步搞定DB2查询优化!
- 机器人设计之一简单机械设计
- Windows挂载Linux网络共享文件夹
- 网络协议--网络四层协议