大数据项目实战之数据采集
数据源分类
数据日志采集、网络数据采集、数据库采集
HTTP请求过程
常见的请求方法分为两种:GET请求和POST请求。
GET请求:常用于获取数据 明文发送数据【地址中可见的参数】不安全
请求地址的URL链接
HTTP请求头是指在超文本传输协议的请求消息中协议头部分的组件。可查看教材了解请求头详细介绍。
请求体通常出现在POST请求中,用于存放POST请求中的表单数据,而对于GET请求而言,请求体为空。
HTTP响应代码表示服务器返回给客户端的响应状态,例如常见的响应代码200代表服务器正常响应,404代表页面未找到等等。
响应头包含了服务器对客户端请求的应答信息,如Content-Type、Server、Set-Cookie等。可查看教材了解响应头详细介绍。
响应的正文数据都在响应体中,如HTML代码、二进制数据、JSON数据等资源。
爬虫部分项目说明:
Eclipse EE + Maven 3+ + Hadoop环境
搭建开发环境
为了更好的开发项目,可以如下图所展示的去搭建开发环境
配置Maven
conf/settings.xml
设置阿里云远程公共仓库
https://developer.aliyun.com/mvn/guide
<mirror>
<id>aliyunmaven</id>
<mirrorOf>*</mirrorOf>
<name>阿里云公共仓库</name>
<url>https://maven.aliyun.com/repository/public</url>
</mirror>
设置本地仓库路径
<localRepository> D:\项目开发环境\repository </localRepository>
设置jkd
<profile>
<id>JDK-1.8</id>
<activation>
<activeByDefault>true</activeByDefault>
<jdk>1.8</jdk>
</activation>
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<maven.compiler.compilerVersion>1.8</maven.compiler.compilerVersion>
</properties>
</profile>
配置eclipse
本项目中小编使用的是eclipse-jee-2021-06-R-win32-x86_64.zip
编写pom.xml
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.csnf.jobcase</groupId>
<artifactId>jobcase-reptile</artifactId>
<version>0.0.1-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.4</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.4</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.4</version>
</dependency>
</dependencies>
</project>
后续代码看下篇文章
大数据项目实战之数据采集相关推荐
- 大数据项目实战——基于某招聘网站进行数据采集及数据分析(四)
大数据项目实战 第四章 数据预处理 文章目录 大数据项目实战 学习目标 一.分析预处理数据 1)salary 2)city 3)skillLabels 4)companyLabelList.posit ...
- 大数据项目实战教程:使用SparkSQL+Hbase+Oozie构建企业级用户画像
大数据项目实战教程,本课程需要有大数据基础(掌握基本大数据组件应用)的人才可以学习哦!市面上全面的大数据教程较少,今天分享给大家的就是一套全面的大数据学习教程,企业级大数据项目:360度用户画像实战 ...
- 大数据项目实战-招聘网站职位分析
目录 第一章:项目概述 1.1项目需求和目标 1.2预备知识 1.3项目架构设计及技术选取 1.4开发环境和开发工具 1.5项目开发流程 第二章:搭建大数据集群环境 2.1安装准备 2.2Hadoop ...
- 大数据项目实战——电信业务大数据分析系统
基于大数据与hadoop的电信业务大数据分析系统 项目源代码:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop/tree/master ...
- 大数据项目实战之数据仓库:用户行为采集平台——第4章 用户行为数据采集模块
第4章 用户行为数据采集模块 4.1 数据通道 4.2 环境准备 4.2.1 集群所有进程查看脚本 1)在/home/atguigu/bin目录下创建脚本xcall [atguigu@hadoop10 ...
- python大数据项目_(价值1280)大数据项目实战之Python金融应用编程
朱彤老师,2009年博士毕业于北京大学光华管理学院金融系,对金融.数据分析与统计有着较为深刻的理解,多年来一直持续跟踪和研究金融量化分析与数据统计相关领域的进展与发展,对概率论.随机过程及其在金融中的 ...
- 大数据项目实战——电商推荐系统设计
摘要 1 项目体系架构设计 1.1系统架构设计 项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合实践项目的一体化的电商推荐系统,包含 ...
- docker-compose观察实时日志_大数据项目实战之在线教育(03实时需求) - 十一vs十一...
第1章Spark Streaming概念 Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理.数据可以从许多来源(如Kafka,Flume,Ki ...
- 大数据项目实战数仓4——总纲
文章目录 一.数据仓库的概述 二.项目需求及架构设计 1.项目需求分析 2.项目框架 2.1技术选型 2.2系统数据流程设计 2.3框架发行版本选型 2.4服务器选型 2.5集群资源规划设计 三.相关 ...
- 大数据项目实战之阿里云服务器
阿里云服务器购买全流程 最近想把之前的数仓项目从0-1走一遍,思考了一番后准备买三台阿里云的服务器去实现下对应的流程.具体落地流程如下! 一.注册阿里云账号 阿里云网址为:https://cn.ali ...
最新文章
- 泛化,关联,聚合,合成,依赖的关系
- boost::gil::packed_channel_value用法的测试程序
- Spring手动回滚事务
- java thread_Java(多线程Thread)
- FZU OJ:2230 翻翻棋
- intern cookie 纠结之二
- 【了解链表的适用场景;掌握单向链表、双向链表的使用】(学习笔记18--链表)
- button常用操作
- 阶段5 3.微服务项目【学成在线】_day02 CMS前端开发_06-vuejs研究-vuejs基础-v-on指令...
- 从零开始SpringCloud Alibaba实战(48)——阿里开发手册泰山版学习笔记二 日期时间 集合处理 并发处理
- 快速排序的两种写法:左右填坑法与前后交换法
- 我!程序媛!上家阿里巴巴,下家字节跳动!薪资翻番!选择裸辞躺平!无限期休息!...
- 你需要权限来执行此操作 你需要来自Administrators的权限才能对此文件夹进行更改
- 分析样布/面料的七个口诀
- html是什么1003无标题,爱特漫画1003无标题
- Web前端最流行图表显示组件
- android 多任务按钮,XDA大神推出Android多任务切换神器
- 【PTA】约会成功了吗?
- 从API中获取数据(七)
- 佳能g3000打印机故意_安全更新甚至破坏您的打印机(故意)