大数据项目实战之数据采集

2024-03-25 13:59:15

数据源分类

数据日志采集、网络数据采集、数据库采集

HTTP请求过程

常见的请求方法分为两种：GET请求和POST请求。

GET请求：常用于获取数据 明文发送数据【地址中可见的参数】不安全

请求地址的URL链接

HTTP请求头是指在超文本传输协议的请求消息中协议头部分的组件。可查看教材了解请求头详细介绍。

请求体通常出现在POST请求中，用于存放POST请求中的表单数据，而对于GET请求而言，请求体为空。

HTTP响应代码表示服务器返回给客户端的响应状态，例如常见的响应代码200代表服务器正常响应，404代表页面未找到等等。

响应头包含了服务器对客户端请求的应答信息，如Content-Type、Server、Set-Cookie等。可查看教材了解响应头详细介绍。

响应的正文数据都在响应体中，如HTML代码、二进制数据、JSON数据等资源。

爬虫部分项目说明：

Eclipse EE + Maven 3+ + Hadoop环境

搭建开发环境

为了更好的开发项目，可以如下图所展示的去搭建开发环境

配置Maven

conf/settings.xml

设置阿里云远程公共仓库

https://developer.aliyun.com/mvn/guide

<mirror>

<id>aliyunmaven</id>

<mirrorOf>*</mirrorOf>

<name>阿里云公共仓库</name>

<url>https://maven.aliyun.com/repository/public</url>

</mirror>

设置本地仓库路径

<localRepository> D:\项目开发环境\repository </localRepository>

设置jkd

<profile>

<id>JDK-1.8</id>

<activation>

<activeByDefault>true</activeByDefault>

<jdk>1.8</jdk>

</activation>

<properties>

<maven.compiler.source>1.8</maven.compiler.source>

<maven.compiler.target>1.8</maven.compiler.target>

<maven.compiler.compilerVersion>1.8</maven.compiler.compilerVersion>

</properties>

</profile>

配置eclipse

本项目中小编使用的是eclipse-jee-2021-06-R-win32-x86_64.zip

编写pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.csnf.jobcase</groupId>
<artifactId>jobcase-reptile</artifactId>
<version>0.0.1-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.4</version>
</dependency>
   <dependency>
       <groupId>org.apache.hadoop</groupId>
       <artifactId>hadoop-common</artifactId>
       <version>2.7.4</version>
   </dependency>
   <dependency>
       <groupId>org.apache.hadoop</groupId>
       <artifactId>hadoop-client</artifactId>
       <version>2.7.4</version>
   </dependency>
</dependencies>
</project>

后续代码看下篇文章

大数据项目实战之数据采集相关推荐

大数据项目实战——基于某招聘网站进行数据采集及数据分析（四）
大数据项目实战第四章数据预处理文章目录大数据项目实战学习目标一.分析预处理数据 1)salary 2)city 3)skillLabels 4)companyLabelList.posit ...
大数据项目实战教程：使用SparkSQL+Hbase+Oozie构建企业级用户画像
大数据项目实战教程,本课程需要有大数据基础(掌握基本大数据组件应用)的人才可以学习哦!市面上全面的大数据教程较少,今天分享给大家的就是一套全面的大数据学习教程,企业级大数据项目:360度用户画像实战 ...
大数据项目实战-招聘网站职位分析
目录第一章:项目概述 1.1项目需求和目标 1.2预备知识 1.3项目架构设计及技术选取 1.4开发环境和开发工具 1.5项目开发流程第二章:搭建大数据集群环境 2.1安装准备 2.2Hadoop ...
大数据项目实战——电信业务大数据分析系统
基于大数据与hadoop的电信业务大数据分析系统项目源代码:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop/tree/master ...
大数据项目实战之数据仓库：用户行为采集平台——第4章用户行为数据采集模块
第4章用户行为数据采集模块 4.1 数据通道 4.2 环境准备 4.2.1 集群所有进程查看脚本 1)在/home/atguigu/bin目录下创建脚本xcall [atguigu@hadoop10 ...
python大数据项目_(价值1280)大数据项目实战之Python金融应用编程
朱彤老师,2009年博士毕业于北京大学光华管理学院金融系,对金融.数据分析与统计有着较为深刻的理解,多年来一直持续跟踪和研究金融量化分析与数据统计相关领域的进展与发展,对概率论.随机过程及其在金融中的 ...
大数据项目实战——电商推荐系统设计
摘要 1 项目体系架构设计 1.1系统架构设计项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合实践项目的一体化的电商推荐系统,包含 ...
docker-compose观察实时日志_大数据项目实战之在线教育（03实时需求） - 十一vs十一...
第1章Spark Streaming概念 Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理.数据可以从许多来源(如Kafka,Flume,Ki ...
大数据项目实战数仓4——总纲
文章目录一.数据仓库的概述二.项目需求及架构设计 1.项目需求分析 2.项目框架 2.1技术选型 2.2系统数据流程设计 2.3框架发行版本选型 2.4服务器选型 2.5集群资源规划设计三.相关 ...
大数据项目实战之阿里云服务器
阿里云服务器购买全流程最近想把之前的数仓项目从0-1走一遍,思考了一番后准备买三台阿里云的服务器去实现下对应的流程.具体落地流程如下! 一.注册阿里云账号阿里云网址为:https://cn.ali ...

最新文章

热门文章