SpiderLianjia

介绍

python爬虫小程序,爬取链家网南京地区普通住宅二手房数据。

代码下载: https://gitee.com/lihaogn/SpiderLianjia

1 程序设计

1.1 开发环境

  • 操作系统:macOS Mojave
  • 软件需求:Python 3.6、MongoDB 3.6.2

1.2 基本功能

  1. 爬取链家网中南京市二手房普通住宅分类前40页的详细信息
  2. 绘制出鼓楼区不同装修情况的二手房的建筑面积与总价的关系图

1.3 程序流程图

1.3.1 爬取数据

1.3.2 数据处理与图绘制

1.4 数据库设计

1.4.1 数据表设计
字段名 字段数据类型
标题名称 String
房屋总价 String
小区名称 String
行政区域 String
房屋地址 String
房屋户型 String
所在楼层 String
建筑面积 String
户型结构 String
套内面积 String
建筑类型 String
房屋朝向 String
建筑结构 String
装修情况 String
梯户比例 String
配备电梯 String
产权年限 String

2 使用说明

2.1 安装与配置

2.1.1 安装Python
  1. 访问官网,进入下载页面,选择对应操作系统的版本进行下载,之后安装即可。

  2. 配置环境变量:

    Windows系统在安装时直接选择添加环境变量即可。

  3. 打开终端或命令提示符,输入以下指令来安装第三方库文件:

pip install lxml
pip install beautifulsoup4
pip install matplotlib
pip install numpy
pip install pandas
pip install pymongo
pip install requests
2.1.2 安装MongoDB
  1. 访问官网,进入下载页面下载软件,之后安装即可。macOS下载的是压缩包,解压即可。

  2. 配置环境变量:
    macOS需要在主目录.bash_profile文件中添加MongoDB所在的安装路径。

    添加的语句为:

    MONGODB_HOME=”你安装MongoDB的绝对路径”
    PATH=”$ MONGODB_HOME/bin:$PATH”
    

2.2 操作说明

2.2.1 运行数据库服务
  1. Windows系统,需要打开安装目录,双击mongod.exe来运行数据库服务。
  2. macOS,打开终端,输入“mongod”指令来运行数据库服务。
2.2.2 爬取数据并入库
  1. 打开终端或命令提示符,输入指令进入项目文件夹

  2. 运行以下指令,进行爬取数据:

    python spider_work.py
    
2.2.3 绘制关系图
  1. 打开终端或命令提示符,输入指令进入项目文件夹

  2. 运行以下指令,进行绘图操作:

    python dataAnalyse.py
    

3 结果展示

3.1 数据库截图

3.2 绘图

Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息相关推荐

  1. 【爬虫】爬取链家网青城山二手房源信息

    一.项目背景 本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...

  2. Python爬取链家网24685个租房信息并进行数据分析

    2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...

  3. 爬虫,爬取链家网北京二手房信息

    # 链家网二手房信息爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup ...

  4. Python简单爬虫入门-爬取链家租房网上的租房信息

    .又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...

  5. 基于python多线程和Scrapy爬取链家网房价成交信息

    文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...

  6. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  7. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  8. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  9. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

最新文章

  1. 虚方法的调用是怎么实现的(单继承VS多继承)
  2. 假期三天,我肝了万字的Java垃圾回收,看完你还敢说不会?
  3. 【云计算】Docker删除名称为none的Image镜像
  4. 【Android工具】安卓手机淘宝双十二活动脚本,1212淘宝冲能量半自动程序
  5. NEERC 17 Problem I. Interactive Sort
  6. HTML time元素
  7. 如何为prel语言加载模块_WebAssembly 系列(第四部分)- 创建和使用WebAssembly模块...
  8. 编程语言“鄙视链” +1?亚马逊力捧 Rust,Go 技术负责人连发 14 条推特抵制“拉踩”
  9. linux 磁盘分区,格式化,挂载
  10. 基于jmeter测试web接口,看完都说学会了
  11. Window环境下使用C#调用VBScript、JavaScript等脚本
  12. ES6 里面的 Promise
  13. python dispatch函数_从Python调用CAPL函数
  14. echarts 柱状图圆柱_手把手教你用ECharts画柱状图
  15. 低通滤波器的一阶RC电路模型
  16. mysql 1273错误
  17. 医院门诊透视的生活万花筒
  18. matplotlib中箱线图、极线图、阶梯图的绘制
  19. LINUX下 ssdp 实现
  20. java面试亮点技术

热门文章

  1. 怎样设置苹果11手机控制中心快捷键
  2. 将多个PDF文件整合成一个文件
  3. Ubuntu 14.04 Intel 处理器 硬编解码配置(Intel® Media Server Studio)
  4. 最基础、最全面的iOS面试题目
  5. [python] 解压7z格式 压缩包 无密码
  6. 五行、八卦、风水与算命
  7. 【Python】如何用 python 计算矩阵相乘 - numpy.dot()
  8. 一个简单的winfrom整人代码
  9. 关于超级计算机的相关知识,“天河二号超级计算机”是我国独立自主研制的超级计算机系统,...
  10. 飞鸽传书软件测试工资,飞鸽传书软件设计与测试(终稿).doc