python爬房源信息_Python爬链家网租房信息
爬去链家网的租房信息然后存储到数据库中。
#-*- coding:utf-8 -*-
import requests
import re
import random
import MySQLdb
from bs4 import BeautifulSoup
class house():
def get_house(self):
user_agent=['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36',
'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',
'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',
'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)',
]
headers={
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, sdch',
'Accept-Language': 'zh-CN,zh;q=0.8',
'User-Agent': user_agent[random.randint(0,5)]
}
db = MySQLdb.connect('localhost','root','liao1234','liao',charset='utf8')
cursor = db.cursor()
for i in range(2,72):
url = 'http://hz.lianjia.com/zufang/pg'+str(i)+'/'
r = requests.get(url,headers=headers)
r.encoding = 'utf8'
html = r.text
soup = BeautifulSoup(html)
for tag in soup.find('ul',id='house-lst').find_all('div',class_='info-panel'):
ss = []
for aa in tag.find_all('a'):
print aa.string
ss.append(aa.string)
for bb in tag.find_all('span'):
print bb.string
ss.append(bb.string)
print len(ss)
if len(ss) == 15:
sql = "insert into lianjia(title,village,are,type,size,ori,info,rent,people) values('%s','%s','%s','%s','%s','%s','%s','%s','%s')"%(ss[0],ss[1],ss[2],ss[4],ss[6],ss[7],ss[11],ss[13],ss[14])
elif len(ss) == 18:
sql = "insert into lianjia(title,village,are,type,size,ori,info,rent,people) values('%s','%s','%s','%s','%s','%s','%s','%s','%s')"%(ss[0],ss[1],ss[2],ss[4],ss[6],ss[7],ss[11],ss[16],ss[17])
else:
continue
cursor.execute(sql)
test = house()
test.get_house()
python爬房源信息_Python爬链家网租房信息相关推荐
- 成都链家网租房信息分析报告
前言 临近毕业,面临找工作找住所的问题.正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的 ...
- Python爬取链家北京租房信息!北京租房都租不起啊!
一.效果图 二.代码 import re from fake_useragent import UserAgent from lxml import etree import asyncio impo ...
- python爬取南京市房价_Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 爬虫结构: 其中封装了一个数据库处理模 ...
- python爬取链家房价消息_Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 爬虫结构: 其中封装了一个数据库处理模 ...
- Python爬取链家北京租房信息
刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...
- python爬虫爬取链家网房价信息
打开链家网页:https://sh.lianjia.com/zufang/ :用F12以页面中元素进行检查 <a target="_blank" href="/z ...
- Python爬虫攻略(2)Selenium+多线程爬取链家网二手房信息
申明:本文对爬取的数据仅做学习使用,请勿使用爬取的数据做任何商业活动,侵删 前戏 安装Selenium: pip install selenium 如果下载速度较慢, 推荐使用国内源: pip ins ...
- python3爬虫抓取链家上海租房信息
环境:win10,anaconda3(python3.5) 爬取对象网站:链家上海租房 方法一:利用requests获取网页信息,再利用正则提取数据,并将结果保存到csv文件. 代码地址:代码 抓取到 ...
- 成都双流区链家网租房python数据可视化
0X00 数据来源:python爬虫获取链家二手房源信息 上一次我使用python爬取了链家上成都市双流区的一些租房信息,今天我们就来对爬取到的数据进行一些简单的数据可视化处理,学习学习python一 ...
最新文章
- 一个带有误差棒的另一个箱图
- 扩增子图表解读7三元图:三组差异数量和关系
- 当当网首页——JS代码
- poj3216 Prime Path(BFS)
- oracle查询等于外的,Oracle 查询、更新基本操作
- SQL查询数据并插入新表
- .NetCore Cap 结合 RabbitMQ 实现消息订阅
- python tkinter的基础用法
- 软件测试为什么需要学习Linux的知识?Linux学到什么程度?-log5
- C++ STL算法系列5---equal() , mismatch()
- 剑指Offer_16_合并两个排序的链表
- PHP自动化代码审计工具
- 面试精选-solr篇
- Python编写工资计算器
- 可信计算理论与技术--远程证明技术
- OpenStack之keystone(身份认证服务)
- @SuppressWarnings注解用法详解
- 新手指南:到国外域名注册商注册域名
- @zxing/library实现平板手机扫码功能(二维码+条形码)
- 文字烟雾消散特效制作
热门文章
- 常见协议及对应的因特网协议栈
- Java 使用Docx4j实现word文档Docx格式转Doc格式
- liunx配置主机名
- Navy maneuvers(dfs)
- eclipse 创建maven project时候,到retrieving archetypes就卡住的问题(华为云maven仓库可解决)
- bs4主要知识点介绍及实例解析---利用bs4爬取伯乐在线(分别存储在数据库和xls表中)
- 为什么说 WASM 是 Web 的未来?
- C++练习题:某校教师的课酬计算方法是:教授100元/h,副教授80元/h,讲师60元/h,助教40元/h,编写计算教师课酬的程序
- 小白也能看懂的网络基础 | 01 什么是网络?
- 亚马逊站電氣水族器材UL1018测试报告