爬虫,爬取链家网北京二手房信息
# 链家网二手房信息爬取
import re
import time
import requests
import pandas as pd
from bs4 import BeautifulSoupurl = 'http://bj.lianjia.com/ershoufang/'
page = ('pg')
#设置请求头部信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding':'gzip',
'Connection':'close',
'Referer':'http://www.baidu.com/link?url=_andhfsjjjKRgEWkj7i9cFmYYGsisrnm2A-TN3XZDQXxvGsM9k9ZZSnikW2Yds4s&wd=&eqid=c3435a7d00146bd600000003582bfd1f'
}#循环抓取列表页信息
for i in range(1, 3):if i == 1:i = str(i)a = (url + page + i + '/')r = requests.get(url = a, headers = headers)html = r.contentelse:i = str(i)a = (url + page + i + '/')r = requests.get(url = a,headers = headers)html2 = r.contenthtml = html + html2#每次间隔1秒time.sleep(0.5)#解析抓取的页面内容
lj = BeautifulSoup(html,'html.parser')clears = lj.find_all('li', attrs = {'class':'clear'})
houseInfo = []
guanzhuInfo = []
daikanInfo = []
timeInfo = []
subwayInfo = []
positionInfo = []
totalpriceInfo = []for clear in clears:houseInfo.append(clear.find('div', 'houseInfo').get_text())guanzhuInfo.append(clear.find(text = re.compile('人关注'))) #很关键,哈哈哈daikanInfo.append(clear.find(text = re.compile('次带看')))timeInfo.append(clear.find('div', 'timeInfo').get_text())temp = clear.find('span', 'subway')if temp is None:subwayInfo.append('')else:subwayInfo.append(temp.get_text())positionInfo.append(clear.find('div', 'positionInfo').get_text())totalpriceInfo.append(clear.find('div', 'totalPrice').get_text())data = {'houseInfo': houseInfo, 'guanzhuInfo':guanzhuInfo, 'daikanInfo':daikanInfo,'timeInfo':timeInfo, 'subwayInfo':subwayInfo, 'positionInfo':positionInfo, 'totalpriceInfo':totalpriceInfo
}
frame = pd.DataFrame(data, columns = ['houseInfo', 'guanzhuInfo', 'daikanInfo', 'timeInfo', 'subwayInfo', 'positionInfo', 'totalpriceInfo'])
# print(frame.head())# split
houseInfo_split = pd.DataFrame((x.split('/') for x in frame.houseInfo), index = frame.index, columns = ['xiaoqu', 'huxing', 'mianji', 'chaoxiang', 'zhuangxiu', 'dianti'])
positionInfo_split = pd.DataFrame((x.split('/') for x in frame.positionInfo), index = frame.index,columns = ['ceng', 'nian', 'position'])# merge
del frame['houseInfo']
del frame['positionInfo']
split = pd.merge(houseInfo_split, positionInfo_split, right_index = True, left_index = True)
house = pd.merge(frame, split, right_index = True, left_index = True)
print(house.head())
house.to_csv('house.csv')
爬虫,爬取链家网北京二手房信息相关推荐
- 五十七、爬取链家网北京二手房信息,并进行线性回归建模
@Author : By Runsen @Date:2020/5/31 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘课严 ...
- python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- python 爬取链家数据_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- python 爬取链家网北京租房信息
刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...
- 爬取链家网北京房源及房价分析
爬取链家网北京房源及房价分析 文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍 1.数据获取 # 获取某市区域的所有 ...
- Python爬虫爬取链家网上的房源信息练习
一 原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家 打开链家网页:https://sh.lianjia.com/zufang/ ...
- 【爬虫】爬取链家网青城山二手房源信息
一.项目背景 本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...
- 基于python多线程和Scrapy爬取链家网房价成交信息
文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...
- Python爬取链家网获取二手房数据并调用高德api获得经纬度
链家网获得数据地址,高德api获得经纬度(同理链家网也可以换成其他58同城,赶集网的数据,因为反爬虫比较厉害,没时间整,就用链家网的数据先试试水) 首先爬链家网,Info包含一条信息 import j ...
最新文章
- 【转】SQL存储结构(页)
- eclipse 快捷键大全,eclipse查找类,文件,添加注释
- Spring Cloud Alibaba:@SentinelResource注解的使用
- android 查找所有dialog_android 布局文件layout分组的简单使用
- jedis操作set_使用 JedisAPI 操作 Redis
- 提升内外网文件交换安全性,这里有5点建议
- 【纸牌识别】基于matlab形态学扑克牌识别【含Matlab源码 1352期】
- 自动登录SAP系统(流星程序集之十八)
- c语言二次方程的实根,C程序求二次方程的根
- 【Java】蓝桥杯历届试题PREV(一)
- 调用微信接口实现微信授权登陆主体内容【code换取openid以及session_key】
- 阿里网盘攻,百度网盘守
- 集装箱装柜计算机器在线,集装箱装柜数智能计算表
- 督查督办工作基本程序
- 刷脸支付:5G时代下的新型支付模式
- 2022年上海市安全员C证考试内容及上海市安全员C证考试技巧
- 如何防御网站被ddos攻击 首先要了解什么是流量攻击
- Python 实现 周志华 《机器学习》 BP算法
- 住院管理系统数据库课程设计
- [轻笔记]蛙跳积分法
热门文章
- java使用selenium实现模拟浏览器操作API大全 模拟登录
- 刚刚重做系统的计算机开机时间很慢,U盘重装系统后电脑开机慢该怎么解决?解决电脑开机慢的方法...
- 小鸡爪读Effective Java记录1:用静态工厂方法代替构造器
- 非985 非211二本生的万字面试经历流水账
- Android无障碍设计简介
- 我的AI之路(5)--如何选择和正确安装跟Tensorflow版本对应的CUDA和cuDNN版本
- 怎样基于power supply class编写PSY driver
- oracle监听程序的配置
- Python实现带GUI和连接数据库的图书管理系统
- 如何使用JCO3.0同时访问多个SAP系统