【爬虫】链接二手房信息爬取

import requests
import parsel
import time
import csvurl = 'https://hf.lianjia.com/ershoufang/pg{}/'.format(page)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}f = open('上海二手房信息1.0.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['title', 'positionInfo', 'houseInfo','layout', 'area', 'direction','decoration','floor', 'buildTime', 'totalPrice', 'unitPrice', 'specialTag'])
csv_writer.writeheader()for page in range(1, 20):print('===========================正在下载第{}页数据================================'.format(page))time.sleep(1)url = 'https://sh.lianjia.com/ershoufang/pg{}/'.format(page)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, headers=headers)selector = parsel.Selector(response.text)lis = selector.css('.sellListContent li')dit = {}for li in lis:title = li.css('.title a::text').get()dit['title'] = titlepositionInfo = li.css('.positionInfo a::text').getall()info = ' '.join(positionInfo)dit['positionInfo'] = infohouseInfo = li.css('.houseInfo::text').get()dit['houseInfo'] = houseInfohouseInfo = houseInfo.replace(' ', '')houseInfo = houseInfo.split('|')dit['layout'] = houseInfo[0]dit['area'] = houseInfo[1]dit['direction'] = houseInfo[2]dit['decoration'] = houseInfo[3]dit['floor'] = houseInfo[4]dit['buildTime'] = houseInfo[5]Price = li.css('.totalPrice span::text').get()dit['totalPrice'] = PricePrice = li.css('.unitPrice span::text').get()unitPrice = Price.lstrip('单价')dit['unitPrice'] = unitPricetag = li.css('.tag span::text').getall()tagInfo = ' '.join(tag)dit['specialTag'] = tagInfocsv_writer.writerow(dit)print(dit)

【爬虫】链接二手房信息爬取相关推荐

Python 爬虫中国行政区划信息爬取（初学者）
Python 爬虫中国行政区划信息爬取 (初学者) 背景环境准备代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...
链家网页爬虫_爬虫实战1-----链家二手房信息爬取
经过一段机器学习之后,发现实在是太枯燥了,为了增添一些趣味性以及熟练爬虫,在之后会不定时的爬取一些网站旨在熟悉网页结构--尤其是HTML的元素,ajax存储,json:熟练使用pyspider,sc ...
PyQt5+Python+Excel链家二手房信息爬取、可视化以及数据存取
成果图: 第一步运行代码searsh.py,效果如下第二步选择你所需要爬取数据的城市,如湖北-武汉然后搜索,结果如下如果你想爬取更多信息,只需要点击下一页即可第三步,保存数据.可以将所显示的所 ...
安居客二手房信息爬取
本文实现爬取安居客二手房房源信息,并保存到本地csv文本中爬取网址:https://tianjin.anjuke.com/sale/hexi/(天津河西区二手房房源) 思路 1.构造请求地址:通过分 ...
京东爬虫——京东评论信息爬取及评论图片的下载
之前,我做了一个天猫评论信息的抓取,和评论图片的下载,不过那次是将信息全部存入数据库后再从数据库提取图片信息进行下载,这次我做了一个信息抓取和图片下载的二合一升级版. 本次以京东nike自营店为目标, ...
安居客二手房信息爬取（六安）
#!usr/bin/env python # -*- encoding:utf-8 -*- import requests from bs4 import BeautifulSoup# 网页的请求头 ...
python爬虫和数据可视化论文_Python爬虫之小说信息爬取与数据可视化分析
一.小说数据的获取获取的数据为起点中文网的小说推荐周榜的所有小说信息. 源代码对所有想要获取的数据都有注释. http://dxb.myzx.cn/grandmal/ # -*- coding: u ...
第一个爬虫——豆瓣新书信息爬取
本文记录了我学习的第一个爬虫程序的过程.根据<Python数据分析入门>一书中的提示和代码,对自己的知识进行查漏补缺. 在上爬虫程序之前补充一个知识点:User-Agent.它是Http协 ...
北京安居客二手房信息爬取
import requests from lxml import etree #import time from selenium import webdriver import pandas as ...
python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例
问题描述利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

【爬虫】链接二手房信息爬取

【爬虫】链接二手房信息爬取相关推荐

最新文章

热门文章