爬去链家网的租房信息然后存储到数据库中。

#-*- coding:utf-8 -*-

import requests

import re

import random

import MySQLdb

from bs4 import BeautifulSoup

class house():

def get_house(self):

user_agent=['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36',

'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',

'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',

'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)',

]

headers={

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding': 'gzip, deflate, sdch',

'Accept-Language': 'zh-CN,zh;q=0.8',

'User-Agent': user_agent[random.randint(0,5)]

}

db = MySQLdb.connect('localhost','root','liao1234','liao',charset='utf8')

cursor = db.cursor()

for i in range(2,72):

url = 'http://hz.lianjia.com/zufang/pg'+str(i)+'/'

r = requests.get(url,headers=headers)

r.encoding = 'utf8'

html = r.text

soup = BeautifulSoup(html)

for tag in soup.find('ul',id='house-lst').find_all('div',class_='info-panel'):

ss = []

for aa in tag.find_all('a'):

print aa.string

ss.append(aa.string)

for bb in tag.find_all('span'):

print bb.string

ss.append(bb.string)

print len(ss)

if len(ss) == 15:

sql = "insert into lianjia(title,village,are,type,size,ori,info,rent,people) values('%s','%s','%s','%s','%s','%s','%s','%s','%s')"%(ss[0],ss[1],ss[2],ss[4],ss[6],ss[7],ss[11],ss[13],ss[14])

elif len(ss) == 18:

sql = "insert into lianjia(title,village,are,type,size,ori,info,rent,people) values('%s','%s','%s','%s','%s','%s','%s','%s','%s')"%(ss[0],ss[1],ss[2],ss[4],ss[6],ss[7],ss[11],ss[16],ss[17])

else:

continue

cursor.execute(sql)

test = house()

test.get_house()

python爬房源信息_Python爬链家网租房信息相关推荐

  1. 成都链家网租房信息分析报告

    前言 临近毕业,面临找工作找住所的问题.正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的 ...

  2. Python爬取链家北京租房信息!北京租房都租不起啊!

    一.效果图 二.代码 import re from fake_useragent import UserAgent from lxml import etree import asyncio impo ...

  3. python爬取南京市房价_Python的scrapy之爬取链家网房价信息并保存到本地

    因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ​ 爬虫结构: ​ 其中封装了一个数据库处理模 ...

  4. python爬取链家房价消息_Python的scrapy之爬取链家网房价信息并保存到本地

    因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ​ 爬虫结构: ​ 其中封装了一个数据库处理模 ...

  5. Python爬取链家北京租房信息

    刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...

  6. python爬虫爬取链家网房价信息

    打开链家网页:https://sh.lianjia.com/zufang/  :用F12以页面中元素进行检查 <a target="_blank" href="/z ...

  7. Python爬虫攻略(2)Selenium+多线程爬取链家网二手房信息

    申明:本文对爬取的数据仅做学习使用,请勿使用爬取的数据做任何商业活动,侵删 前戏 安装Selenium: pip install selenium 如果下载速度较慢, 推荐使用国内源: pip ins ...

  8. python3爬虫抓取链家上海租房信息

    环境:win10,anaconda3(python3.5) 爬取对象网站:链家上海租房 方法一:利用requests获取网页信息,再利用正则提取数据,并将结果保存到csv文件. 代码地址:代码 抓取到 ...

  9. 成都双流区链家网租房python数据可视化

    0X00 数据来源:python爬虫获取链家二手房源信息 上一次我使用python爬取了链家上成都市双流区的一些租房信息,今天我们就来对爬取到的数据进行一些简单的数据可视化处理,学习学习python一 ...

最新文章

  1. 一个带有误差棒的另一个箱图
  2. 扩增子图表解读7三元图:三组差异数量和关系
  3. 当当网首页——JS代码
  4. poj3216 Prime Path(BFS)
  5. oracle查询等于外的,Oracle 查询、更新基本操作
  6. SQL查询数据并插入新表
  7. .NetCore Cap 结合 RabbitMQ 实现消息订阅
  8. python tkinter的基础用法
  9. 软件测试为什么需要学习Linux的知识?Linux学到什么程度?-log5
  10. C++ STL算法系列5---equal() , mismatch()
  11. 剑指Offer_16_合并两个排序的链表
  12. PHP自动化代码审计工具
  13. 面试精选-solr篇
  14. Python编写工资计算器
  15. 可信计算理论与技术--远程证明技术
  16. OpenStack之keystone(身份认证服务)
  17. @SuppressWarnings注解用法详解
  18. 新手指南:到国外域名注册商注册域名
  19. @zxing/library实现平板手机扫码功能(二维码+条形码)
  20. 文字烟雾消散特效制作

热门文章

  1. 常见协议及对应的因特网协议栈
  2. Java 使用Docx4j实现word文档Docx格式转Doc格式
  3. liunx配置主机名
  4. Navy maneuvers(dfs)
  5. eclipse 创建maven project时候,到retrieving archetypes就卡住的问题(华为云maven仓库可解决)
  6. bs4主要知识点介绍及实例解析---利用bs4爬取伯乐在线(分别存储在数据库和xls表中)
  7. 为什么说 WASM 是 Web 的未来?
  8. C++练习题:某校教师的课酬计算方法是:教授100元/h,副教授80元/h,讲师60元/h,助教40元/h,编写计算教师课酬的程序
  9. 小白也能看懂的网络基础 | 01 什么是网络?
  10. 亚马逊站電氣水族器材UL1018测试报告