摘 要

随着社会经济的快速发展,城镇化的加速建设,房地产交易越来越火,尤其二手房交易市场居高不下,互联网涌现大批网上二手房交易网站,但是由于提供的房源质量参差不齐,对于个人用户的需求不够精确,无法做到房源精准投放,因此需要实现二手房房源推荐系统来解决用户需求,而房源推荐系统的实现首要就是需要获得足够多的房源信息,所以本毕设通过实现二手房数据爬取系统来爬取房源数据,为房源推荐系统提供数据支持。

本系统使用多线程多端爬虫的优势,设计一个基于Redis的分布式主题爬虫。本系统采用Scrapy爬虫框架来开发,使用Xpath网页提取技术对下载网页进行内容解析,使用Redis做分布式,使用MongoDB对提取的数据进行存储,使用Django开发可视化界面对爬取的结果进行友好展示,设计并实现了针对链家网二手房数据的分布式爬虫系统。

经过开发验证,本系统可以完成对链家二手房房源数据的分布式爬取,可以为房源推荐系统提供数据支持,也可以为数据分析师提供二手房数据分析的数据源。

关键词:二手房:分布式爬虫:Scrapy:可视化

Title:   Design and Implementation of Second-hand housing Data crawling system

Abstract

With the rapid development of social economy, the acceleration of urbanization construction, real estate transactions become more and more fire, especially second-hand housing market is high, the Internet emerged a large number of second-hand housing transactions online website, but due to provide housing quality is uneven, demand for individual users is not accurate, can't do properties accurately targeted, so you need to realize the secondary housing system to meet the needs of users, the implementation of the first housing recommended system is need to get enough housing information, so this project through the secondary data to crawl system housing data, recommend the system to provide data support for housing.

This system uses the advantages of multi-threaded multi-layer crawlers to design a distributed topic crawler based on Redis. This system is developed by Scrapy crawler framework. XPath webpage extraction technology is used to parse the downloaded webpage, use Redis to do distributed, use Mongo to store the extracted data, and use Django to develop visual interface to display the crawling result. And realized a distributed crawler system for the second-hand housing data of the chain home network.

After development and verification, this system can complete the distributed crawling of home linking second-hand housing source data, which can provide data support for the housing recommendation system and can also provide data sources for data analysts to analyze second-hand housing data.

Keywords: Second-hand housing:Distributed crawler:Scrapy:Visualization

目录

1 引言

1.1 设计背景及概括

1.2 国内外发展现状

1.3 设计目标及设计内容

1.4 说明书的章节布局

2 相关技术简介

2.1 Robot协议对本设计的影响

2.2 爬虫

2.3 Scrapy架构

3 系统分析

3.1 业务需求分析

3.2 功能性需求分析

3.3 可行性分析

4 系统概要设计

4.1 系统逻辑层次

4.2 系统分布式设计

4.3 系统功能设计

4.4 系统数据库设计

5 系统详细设计与实现

5.1 数据爬取模块

5.2 反反爬虫模块

5.3 数据存储模块

5.4 数据可视化模块

6 系统测试

6.1 测试环境及工具

6.2 系统功能测试

7 设计总结

致谢

参考文献

基于Redis的分布式链家二手房房源数据爬虫系统 毕业设计相关推荐

  1. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  2. 租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息

    目录 前言 一.查找数据所在位置: 二.确定数据存放位置: 三.获取html数据: 四.解析html,提取有用数据: 前言 贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么 ...

  3. 掌财社:python怎么爬取链家二手房的数据?爬虫实战!

    我们知道爬虫的比较常见的应用都是应用在数据分析上,爬虫作为数据分析的前驱,它负责数据的收集.今天我们以python爬取链家二手房数据为例来进行一个python爬虫实战.(内附python爬虫源代码) ...

  4. 南京链家网房源数据可视化

    针对抓取到的南京市链家网的房源数据进行一次简单的数据可视化 首先导入必要的库. import pandas as pd import numpy as np import matplotlib.pyp ...

  5. 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中

    我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...

  6. 爬虫实例:链家网房源数据爬取

    初接触python爬虫,跟着视频学习一些很基础的内容,小小尝试了一下,如有错误感谢指正. 库和方法介绍: (1)requests requests是python的工具包,用于发出请求,,是用来获取网站 ...

  7. 数据抓取 | 数据分享 - 北京链家二手房成交数据抓取,保存格式为excel

    该项目应客户需求,抓取 东城西城朝阳海淀二手房成交 数据 抓取字段为:房源id,房型,交易日期,位置,总价,朝向,装修情况,建筑年代,所在楼层,房屋年限,建筑面积,套内面积,电梯情况 -- 抓取流程: ...

  8. python 实现链家网房源数据信息的爬取

    又到了一年一度的盛大毕业季了,千千万万的莘莘学子就要离开校园走向全国各地的工作岗位了,离开家乡,离开校园,租房就变成了一个重要的问题,那么如何才能够更好地找到符合自己的房子呢,这里就是想构建一个房源信 ...

  9. 爬取链家二手房交易数据

    请求:浏览器的地址栏的url向服务器发送请求 关注的内容:请求的url 请求的方式method get/post 请求参数 响应: 作出响应 响应状态码:200 418 404 500 浏览器的工作原 ...

  10. python-scrapy-MongoDB 爬取链家二手房

    python-scrapy-MongoDB 爬取链家二手房 链家二手房房源数据抓取 目标网址为http://bj.lianjia.com/ershoufang/ 分析网址 创建项目 scrapy st ...

最新文章

  1. RPC 笔记(08)— socket 通信(多进程多线程服务器)
  2. 集成支付宝钱包支付iOS SDK的方法与经验
  3. 搜狗分身技术再进化,让AI合成主播“动”起来
  4. kivy 的on_touch_move和on_touch_down
  5. LevelDB (1)概述
  6. Hibernate初探(二)
  7. 硬件知识:SSD越用越慢的原因,看完你就懂了!
  8. php获得可靠的精准的当前时间 ( 通过授时服务器 )
  9. 防止误删的神器-ECS实例删除保护
  10. iPhone 13 Pro全新配色曝光:全新“磨砂黑”致敬经典
  11. 通讯录小程序android,通讯录小程序,找回青春的回忆
  12. VS2010 php 插件配置
  13. POJ 1611 The Suspects(简单并查集)
  14. SQL Server 2008无日志文件附加数据库
  15. 面试官再问分布式事务,求你看完这份至尊级分布式笔记,给年轻的面试官上一课
  16. Android布局深究(五)——GridLayout(网格布局)
  17. ubuntu下解决longene-qq 退出之后再登录出现登录失败的问题
  18. STA X(X为主存地址)指令发出的微操作命令
  19. 测试工程师的明天在哪里
  20. IE浏览器设置兼容性、清除缓存,重置浏览器、Edge浏览器设置兼容性

热门文章

  1. 安卓救砖或删除第三方ROM推广APP
  2. 为什么压缩卷明明显示有许多空间却无法分出空余空间?
  3. java pdf电子签名_java多种方式实现pdf文件电子签名
  4. python 内置函数 eval
  5. 关于opencv的rows和cols的理解
  6. 千锋培训学python怎么样
  7. 道路中心线提取、河道中心线的提取(ArcScan)
  8. TestNG-学习笔记
  9. 大数据学习线路_大数据初学者必备的详细版学习路线图
  10. 泰拉瑞亚服务器怎么修改密码,泰拉瑞亚账号系统功能使用说明 怎么绑定手机号...