Python爬取售房信息并保存至CSV文件

在上一篇文章: Python爬取租房信息并保存至Excel文件,介绍了如何使用Python爬取租房信息并保存至Excel文件,在本案例中则是使用Python爬取售房信息并保存至CSV文件。与之前相比,数据的提取方式有所不同,这里用到了Selector选择器,而数据保存的目标文件则是CSV文件。

  • 相关代码如下:
import requests
import parsel
import csv
import timef = open('静安区售房信息.csv', mode='a', encoding='utf_8_sig', newline='')
csv_write = csv.DictWriter(f, fieldnames=['标题', '地址', '户型', '面积', '朝向', '装修', '楼层', '年代', '关注及发布', '其它', '总价', '单价', '详情'])
csv_write.writeheader()for page in range(1, 29):time.sleep(3)print(f'======================正在爬取第{page}页数据内容======================')url = f'https://sh.lianjia.com/ershoufang/jingan/pg{page}/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36'}response = requests.get(url=url, headers=headers)# print(response.text)selector = parsel.Selector(response.text)divs = selector.css('div.info.clear')# print(divs)for div in divs:title = div.css('.title a::text').get()area_list = div.css('.positionInfo a::text').getall()area = '-'.join(area_list)house_info = div.css('.houseInfo::text').get().split('|')house_type = house_info[0]house_area = house_info[1]house_face = house_info[2]decoration = house_info[3]floor = house_info[4]years = house_info[5]follow_info = div.css('.followInfo::text').get().replace(' / ', ',')tag_list = div.css('.tag span::text').getall()tag = '|'.join(tag_list)totalprice = div.css('.totalPrice span::text').get() + '万'unitprice = div.css('.unitPrice span::text').get().replace('单价', '')href = div.css('.title a::attr(href)').get()dit = {'标题': title,'地址': area,'户型': house_type,'面积': house_area,'朝向': house_face,'装修': decoration,'楼层': floor,'年代': years,'关注及发布': follow_info,'其它': tag,'总价': totalprice,'单价': unitprice,'详情': href,}csv_write.writerow(dit)print(title, area, house_type, house_area, house_face, decoration, floor, years, follow_info, tag, totalprice,unitprice, href, sep='|')
print("爬取完毕!")
  • 爬取结果
  • 数据结果

    完整代码已上传至Github,各位下载时麻烦给个follow和star,感谢!
    链接:Python爬取售房信息并保存至CSV文件

Python爬取售房信息并保存至CSV文件相关推荐

  1. Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】

    Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

  2. Python爬取起点小说并保存到本地文件夹和MongoDB数据库中

    Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...

  3. python selenium登录企名片,筛选各种条件,爬虫爬取融资信息,保存到csv文件

    要点:1.利用datatime构建 日期,设定格式 2.利用selenium 登录账号,input等待需要输入的验证码 3.可以利用scrapy的Selector,替代beautifysoup 得到想 ...

  4. Python爬取新浪微博评论数据,写入csv文件中

    因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

  5. Python爬取网站图片并保存,超级简单

    Python爬取网站图片并保存,超级简单 先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...

  6. python爬取机票信息

    python爬取机票信息 飞机和高铁列车不同,在同样的航线中有着不同的票价,借此我们希望获取尽量多的机票信息来分析机票的变化规律. 首先我们选取京东机票为爬取对象http://jipiao.jd.co ...

  7. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  8. python爬取网页信息

    最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少.前几天看到了一 ...

  9. python爬取明星百度图片并存入本地文件夹

    python爬取明星百度图片并存入本地文件夹 想要一个明星图片的时候,发现图片量过大,一张张保存太累,不太现实 这时候就可以用到爬虫,批量爬取图片 现在又出现一个问题,当发现一个明星爬完后,再爬取下一 ...

最新文章

  1. 宽字符集(unicode)说明以及转换函数
  2. 将服务器置于最终用户附近可解决性能问题?—Vecloud微云
  3. 解析JSON字串的方法有eval,json_parse,JSON.parse
  4. 微云笔记控制脚本实例:远程控制脚本开关
  5. Linux内核网络参数的意义及应用
  6. 2020版本的pycharm支持官方汉化了
  7. 《运筹学》CSU作业答案
  8. PL7501C原厂双节锂电池充电管理芯片
  9. 向量的二范数平方求导
  10. python求梅森尼数_梅森尼数 - 寂寞暴走伤的个人空间 - OSCHINA - 中文开源技术交流社区...
  11. 鼠标悬停,图片向四周放大效果
  12. javax.el.PropertyNotFoundException: Property 'xxx' not found on type java.lang.String
  13. MySQL的文本导入之load data local
  14. 单元测试中Assert详解-xUnit
  15. oracle完整建表,Oracle数据库建表完整sql
  16. 第三天python作业题
  17. 阿里应届生复习面试攻略
  18. 制造商是指什么呢? 主要是什么呢?
  19. Exynos4412 移植针对Samsung的Linux-6.1(六)【已解决】SROMC寄存器的数值不正确、无法赋值的问题
  20. java三重循环水仙花,java循环练习:水仙花数

热门文章

  1. GPS RTK(银河1)基准站架设、移动站设置完整操作流程
  2. 想学习SharePoint,需要准备哪些方面的准备?--写给SharePoint新人
  3. java 中的转义问题
  4. 查看华为交换机端口状态的方法以及命令
  5. 谷歌浏览器格式化显示json数据
  6. 神经网络训练时loss不下降的问题
  7. 大屏手机有啥好?看看荣耀x30 Max就知道
  8. IBM P系列日常管理——服务器的故障分析和处理
  9. 回顾IBM笔记本发展史—T系列
  10. 火爆程度超过微信:最近全网刷屏的社交APP突然下架了