1.我们常常找到一个网站不知道从何处下手,下面 我们分析一下

1.先确定这个网站url,有时候你要的数据未必就在网页源代码里,需要抓包等等操作,也有可能js加密,不过先慢慢来

2.确定url,接下来就是发送请求,得到数据

3.就是解析数据(哪种解析方式方便就用哪种)

4.保存数据

2.接下来就是代码操作

导入要用的模块

#链家
from lxml import etree
import csv
import requests
from tqdm import tqdm  #(这个模块只是单纯想加,也可不加,显示进度条的)

开始发送请求

print('信息爬取中:\n')
class HouseParse(object):#初始化def __init__(self):#请求头self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.43'}#列表存放数据self.data_list = []def Sponsor(self):#翻页数据for i in tqdm(range(1,6)):url = f'https://cs.lianjia.com/ershoufang/rs{i}/'response = requests.get(url=url, headers=self.headers)#返回响应码# print(response.status_code)

3.开始解析数据

            #返回响应码# print(response.status_code)html = etree.HTML(response.content.decode('utf-8'))#找到内容所在的li标签下elements = html.xpath('//div/ul[@class="sellListContent"]/li')# print(elements)for element in elements:#创建字典dict_ = {}#标题dict_['title'] = element.xpath('./div[1]/div[1]/a/text()')[0]#地址dict_['flood'] = ''.join([i.strip() for i in element.xpath('./div[1]/div[@class="flood"]//text()')])#简介dict_['introduction'] = element.xpath('./div[1]/div[@class="address"]/div/text()')[0]#价格dict_['price'] = ''.join([i.strip() for i in element.xpath('./div/div[@class="priceInfo"]/div//text()')])# print(dict_)self.data_list.append(dict_)

4.保存我们的数据

                self.data_list.append(dict_)def save_data(self):#保存数据with open('lianjia.csv', 'w', encoding='utf-8', newline='')as f:writer = csv.DictWriter(f, fieldnames=['title', 'flood', 'introduction', 'price'])writer.writeheader()writer.writerows(self.data_list)def main(self):self.Sponsor()self.save_data()if __name__ == '__main__':house = HouseParse()house.main()print('\n爬取成功!')

爬取的内容

Python爬取链家二手房数据写入csv文件相关推荐

  1. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  2. 租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息

    目录 前言 一.查找数据所在位置: 二.确定数据存放位置: 三.获取html数据: 四.解析html,提取有用数据: 前言 贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么 ...

  3. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  4. Python 爬取链家二手房,我在北京买房的经历

    本节所讲内容: 链家网站前期分析 利用requests爬取数据 爬取数据存储MongoDB(代码请看最后) 链家网站前期分析 今天我们主要对链家二手房数据爬取,看下我们目前的资金能买那一套.链家二手房 ...

  5. Python爬取链家的数据并绘制热力图

    最近开始入坑Python爬虫,专业是地理信息系统,对地理位置相关的信息比较感兴趣,所以就试着爬南京链家的二手房数据,并利用百度API绘制出热力图.Python的版本是Python3.6,然后用到了re ...

  6. scrapy 爬取链家二手房数据

    学习使用 只爬取展示的展示的3000条数据 spider: # -*- coding: utf-8 -*- from urllib import parse import scrapy from sc ...

  7. python爬取链家二手房信息

    爬取过程分析: 1.链家网url:https://bj.lianjia.com/ershoufang/pg2/ 显示的二手房信息每个url递增一 2.访问时要加头信息,否则无法访问 3.用beauti ...

  8. python爬取链家新房数据

    没有搜索到关于python爬虫,所以自己写一个 from bs4 import BeautifulSoup import requests import time import pandas as p ...

  9. 掌财社:python怎么爬取链家二手房的数据?爬虫实战!

    我们知道爬虫的比较常见的应用都是应用在数据分析上,爬虫作为数据分析的前驱,它负责数据的收集.今天我们以python爬取链家二手房数据为例来进行一个python爬虫实战.(内附python爬虫源代码) ...

  10. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

最新文章

  1. untitled与前端——初学
  2. 使用Bioconda管理生信软件(以bwa为例)
  3. 中国芯片研究再获国际顶会最佳论文提名!清华魏少军、刘雷波团队出品
  4. C#显示相机实时画面
  5. 如何上传html验证文件大小,html5 实现客户端验证上传文件的大小(简单实例)
  6. mysql目录权限设置_MySQL文件及目录权限设置分析-爱可生
  7. 离散数学实验题目-关系
  8. Django-RQ介绍
  9. java正则表达式性能_译:Java 中的正则表达式性能概述
  10. 大数据相关从业_如何在组织中以数据从业者的身份闪耀
  11. [Pku 2774] 字符串(六) {后缀数组的构造}
  12. oracle没有注册mdsdora,oracle rac一个节点服务注册不上,必须重启监听才能注册上,各位大神帮忙看一下...
  13. ORM框架 之 Entity Framework
  14. 学python语言有前途吗-学习python的前景怎么样?
  15. key-list类型内存数据引擎介绍及使用场景
  16. H5页面(微信也可)中调用手机拨打电话功能
  17. 电子计算机4个发展阶段的划分,计算机以什么划分发展阶段
  18. 浏览器导出SSL证书
  19. 苏宁易购按关键字搜索suning商品 API 返回值说明
  20. Android Activity内嵌Fragment,当Activity recreate时Fragment被添加多次,造成界面重叠

热门文章

  1. Elasticsearch关闭自动日期检测
  2. 混沌时间序列的 rbf 预测
  3. Burp Suite 实战指南
  4. server2003安装python3.4.4
  5. Available platform plugins are: xcb, eglfs, linuxfb, minimal, minimalegl, of
  6. html id命名规范,CSS常用类/ID命名规范
  7. Latex学习笔记——总篇(入门、图片、表格、数学公式、伪代码、代码块、参考文献)
  8. Dapps解封大众市场的动力
  9. HTML页面返回503状态码设置,503错误网页状态码出现原因及监控方法介绍
  10. Jmeter分布式部署测试-----远程连接多台电脑做压力性能测试