自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:

链家的房租网站

两个导入的包

1.requests 用来过去网页内容

2.BeautifulSoup

import time

import pymssql

import requests

from bs4 import BeautifulSoup

# https://wh.lianjia.com/zufang/

#获取url中下面的内容

def get_page(url):

responce = requests.get(url)

soup = BeautifulSoup(responce.text,'lxml')

return soup

#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表

def get_links(url):

responce = requests.get(url)

soup = BeautifulSoup(responce.text,'lxml')

link_div = soup.find_all('div',class_ = 'pic-panel')

links = [div.a.get('href') for div in link_div]

return links

#收集一个房子的信息

def get_house_info(house_url):

soup = get_page(house_url)

price = soup.find('span',class_='total').text

unit = soup.find('span',class_= 'unit').text[1:-1]

area = soup.find('p', class_ = 'lf').text

house_info= soup.find_all('p',class_ = 'lf')

area = house_info[0].text[3:] #字符串切片工具

layout = house_info[1].text[5:]

info={

'价格':price,

'单位':unit,

'面积':area,

'户型':layout

}

return info

#链接数据库

server="192.168.xx.xx" #换成自己的服务器信息

user="liujiepeng"

password="xxxxx" #自己的数据库用户名和密码

conn=pymssql.connect(server,user,password,database="house")

def insert(conn,house):

#sql_values = values.format(house['价格'],house['单位'],house['面积'],

#house['户型'])

sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])

print(sql)

cursor = conn.cursor() #游标,开拓新的窗口

#cursor1 = conn.cursor()

cursor.execute(sql) #执行sql语句

conn.commit() #提交 ,更新sql 语句

links = get_links('https://wh.lianjia.com/zufang/')

count = 1

for link in links:

#time.sleep(2)

print('获取一个数据成功')

house = get_house_info(link)

insert(conn,house)

print("第%s个数据,存入数据库成功!"%(count))

count = count+1

#print(house["价格"],end='\r')

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家

学习从来不是一个人的事情,要有个相互监督的伙伴,工作需要学习python或者有兴趣学习python的伙伴可以我的Python官方群聊小白到大佬全套学习视频免费领取

python房子代码_用python爬取租房网站信息的代码相关推荐

  1. python爬取网上租房信息_用python爬取租房网站信息的代码

    自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码: 链家的房租网站 两个导入的包 1.requests 用来过去网页内容 2.BeautifulSoup i ...

  2. python最新官网图片_python爬取福利网站图片完整代码

    存起来 自己学习... import requests,bs4,re,os,threading class MeiNvTu: def __init__(self): self.url_main='ht ...

  3. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  4. python房子代码_基于python的链家小区房价爬取——仅需60行代码!

    简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...

  5. python爬取南京市房价_基于python的链家小区房价爬取——仅需60行代码

    简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...

  6. python爬取小说网站资源_利用python的requests和BeautifulSoup库爬取小说网站内容

    1. 什么是Requests?html Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库.python 它比urlli ...

  7. python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂

    网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看 复制代码 import requests,bs4,re,os,threadingclas ...

  8. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  9. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

最新文章

  1. 图解Oracle dump 命令初步
  2. 名为 cursor_jinserted 的游标不存在_性能优化技巧 - 程序游标
  3. Restful HMAC认证
  4. 自动查询成绩的小玩意
  5. python怎么实现黑客攻击英国_注意!你的隐私就是这样被黑客获取的
  6. mysql做wp网站_mysql做wp网站
  7. SAP ECC6安装系列二:安装前的准备工作
  8. Uncaught SyntaxError: Unexpected token ‘var‘
  9. 在服务中mysql启动不了了_mysql在服务项里无法启动
  10. 计算机cpu温度显示原理,可以相信软件显示的CPU温度吗
  11. 最新省市区json字符串
  12. h5背景图片尺寸怎么设置_html如何设置图片大小
  13. 3D建模除了日常工作,私下还可以赚外快哦,分分钟嗨赚
  14. Excel中实现跨表数据有效性
  15. 视频号如何给账号定位,如何做好视频号的定位
  16. 解决mysql保存数据SQLException: Incorrect string value: ‘\xF0\x9F\x91\x87\xE5\x91...‘ for column ‘错误
  17. 【线代NumPy】第五章 - 行列式课后练习 | 伴随矩阵求逆 | Cramer公式求联立方程 | 简述并提供代码
  18. Cesium:绘制抛物线/散射线
  19. 事务(Transaction)的简单理解
  20. uvc摄像头代码解析6

热门文章

  1. 【最大流,SPFA,卡常】狼抓兔子
  2. Python Skill - 数据处理-行列互换
  3. Putty使用秘钥认证时,报错:Disconnected: No supported authentication methods available
  4. 【HTTP 404 - 指定されたURLは見つかりません。】错误及解决
  5. android7无法运行优酷,win7系统优酷客户端打不开的解决方法
  6. 网络舆情监测公司服务及产品技术功能评判标准详解
  7. 北境之地服务器没有响应,北境之地基础问题解决方法
  8. ckeditor5 html 插件,ckeditor5文本对齐插件无法正常工作
  9. 【NOIP2014模拟11.2B组】超氧化钾
  10. 2022南京公积金贷款提前还款