【爬虫】链接二手房信息爬取
import requests
import parsel
import time
import csvurl = 'https://hf.lianjia.com/ershoufang/pg{}/'.format(page)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}f = open('上海二手房信息1.0.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['title', 'positionInfo', 'houseInfo','layout', 'area', 'direction','decoration','floor', 'buildTime', 'totalPrice', 'unitPrice', 'specialTag'])
csv_writer.writeheader()for page in range(1, 20):print('===========================正在下载第{}页数据================================'.format(page))time.sleep(1)url = 'https://sh.lianjia.com/ershoufang/pg{}/'.format(page)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, headers=headers)selector = parsel.Selector(response.text)lis = selector.css('.sellListContent li')dit = {}for li in lis:title = li.css('.title a::text').get()dit['title'] = titlepositionInfo = li.css('.positionInfo a::text').getall()info = ' '.join(positionInfo)dit['positionInfo'] = infohouseInfo = li.css('.houseInfo::text').get()dit['houseInfo'] = houseInfohouseInfo = houseInfo.replace(' ', '')houseInfo = houseInfo.split('|')dit['layout'] = houseInfo[0]dit['area'] = houseInfo[1]dit['direction'] = houseInfo[2]dit['decoration'] = houseInfo[3]dit['floor'] = houseInfo[4]dit['buildTime'] = houseInfo[5]Price = li.css('.totalPrice span::text').get()dit['totalPrice'] = PricePrice = li.css('.unitPrice span::text').get()unitPrice = Price.lstrip('单价')dit['unitPrice'] = unitPricetag = li.css('.tag span::text').getall()tagInfo = ' '.join(tag)dit['specialTag'] = tagInfocsv_writer.writerow(dit)print(dit)
【爬虫】链接二手房信息爬取相关推荐
- Python 爬虫 中国行政区划信息爬取 (初学者)
Python 爬虫 中国行政区划信息爬取 (初学者) 背景 环境准备 代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...
- 链家网页爬虫_爬虫实战1-----链家二手房信息爬取
经过一段机器学习之后,发现实在是太枯燥了,为了增添一些趣味性以及熟练爬虫,在之后会不定时的爬取一些网站 旨在熟悉网页结构--尤其是HTML的元素,ajax存储,json:熟练使用pyspider,sc ...
- PyQt5+Python+Excel链家二手房信息爬取、可视化以及数据存取
成果图: 第一步运行代码searsh.py,效果如下 第二步选择你所需要爬取数据的城市,如湖北-武汉 然后搜索,结果如下 如果你想爬取更多信息,只需要点击下一页即可 第三步,保存数据.可以将所显示的所 ...
- 安居客二手房信息爬取
本文实现爬取安居客二手房房源信息,并保存到本地csv文本中 爬取网址:https://tianjin.anjuke.com/sale/hexi/(天津河西区二手房房源) 思路 1.构造请求地址:通过分 ...
- 京东爬虫——京东评论信息爬取及评论图片的下载
之前,我做了一个天猫评论信息的抓取,和评论图片的下载,不过那次是将信息全部存入数据库后再从数据库提取图片信息进行下载,这次我做了一个信息抓取和图片下载的二合一升级版. 本次以京东nike自营店为目标, ...
- 安居客二手房信息爬取(六安)
#!usr/bin/env python # -*- encoding:utf-8 -*- import requests from bs4 import BeautifulSoup# 网页的请求头 ...
- python爬虫和数据可视化论文_Python爬虫之小说信息爬取与数据可视化分析
一.小说数据的获取 获取的数据为起点中文网的小说推荐周榜的所有小说信息. 源代码对所有想要获取的数据都有注释. http://dxb.myzx.cn/grandmal/ # -*- coding: u ...
- 第一个爬虫——豆瓣新书信息爬取
本文记录了我学习的第一个爬虫程序的过程.根据<Python数据分析入门>一书中的提示和代码,对自己的知识进行查漏补缺. 在上爬虫程序之前补充一个知识点:User-Agent.它是Http协 ...
- 北京安居客二手房信息爬取
import requests from lxml import etree #import time from selenium import webdriver import pandas as ...
- python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
最新文章
- eeglab中文教程系列(5)-提取数据epoch
- linq调用mysql函数_mysql-在LINQ中执行FirstOrDefault的另一种方法
- 头文件的用法及注意事项
- Microsoft Edge 提供快速的 JavaScript 性能
- 从Adobe Photoshop CC 2018的“新建Web”看Web网页常见分辨率
- 吃冻梨对人会有什么好处?
- 找不到Share Project(Subversion)_android studio
- pyspark编写UDF函数
- Hive 使用SQL统计出每个用户的累积访问次数
- 打造利器Qt Creator:代码todo工具的使用
- 本机搭建PHP环境全教程(图文)
- pano2vr怎么制作漫游_全景图如何制作?Pano2VR制作FLASH全景图图文教程(附Pano2VR下载)...
- Hibernate JPA 效率低下的原因
- 视频:青春期(青春痘1)
- 班级聚会(reunion)
- 如何将pdf转换成jpg图片的格式
- 测试人员如何提高API功能测试效率?
- 读《学会提问》有感(一)
- 基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)
- 怎样用计算机打出Abc,快捷安装ABC输入法在win7电脑中的方法
热门文章
- Pandas 重置索引深度总结
- 南丁格尔玫瑰图 python_央视都在用的“南丁格尔玫瑰图”,原来Python也可以画...
- K8S-四层负载均衡-Service解读
- latex 编译缺少STXingkai字体
- html个性签名,经典的个性签名设计
- Elasticsearch之近义词/同义词的使用
- 求梯形面积python
- led点阵c语言程序,LED点阵显示数字 c语言程序 51
- c语言编程矩阵n元一次方程组,用C语言编写程序:N元一次方程组的解.doc
- c语言if大括号的作用,c语言if语句 用法是什么