python房子代码_用python爬取租房网站信息的代码
自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:
链家的房租网站
两个导入的包
1.requests 用来过去网页内容
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
# https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
link_div = soup.find_all('div',class_ = 'pic-panel')
links = [div.a.get('href') for div in link_div]
return links
#收集一个房子的信息
def get_house_info(house_url):
soup = get_page(house_url)
price = soup.find('span',class_='total').text
unit = soup.find('span',class_= 'unit').text[1:-1]
area = soup.find('p', class_ = 'lf').text
house_info= soup.find_all('p',class_ = 'lf')
area = house_info[0].text[3:] #字符串切片工具
layout = house_info[1].text[5:]
info={
'价格':price,
'单位':unit,
'面积':area,
'户型':layout
}
return info
#链接数据库
server="192.168.xx.xx" #换成自己的服务器信息
user="liujiepeng"
password="xxxxx" #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
#sql_values = values.format(house['价格'],house['单位'],house['面积'],
#house['户型'])
sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
print(sql)
cursor = conn.cursor() #游标,开拓新的窗口
#cursor1 = conn.cursor()
cursor.execute(sql) #执行sql语句
conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
#time.sleep(2)
print('获取一个数据成功')
house = get_house_info(link)
insert(conn,house)
print("第%s个数据,存入数据库成功!"%(count))
count = count+1
#print(house["价格"],end='\r')
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家
学习从来不是一个人的事情,要有个相互监督的伙伴,工作需要学习python或者有兴趣学习python的伙伴可以我的Python官方群聊小白到大佬全套学习视频免费领取
python房子代码_用python爬取租房网站信息的代码相关推荐
- python爬取网上租房信息_用python爬取租房网站信息的代码
自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码: 链家的房租网站 两个导入的包 1.requests 用来过去网页内容 2.BeautifulSoup i ...
- python最新官网图片_python爬取福利网站图片完整代码
存起来 自己学习... import requests,bs4,re,os,threading class MeiNvTu: def __init__(self): self.url_main='ht ...
- Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
- python房子代码_基于python的链家小区房价爬取——仅需60行代码!
简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...
- python爬取南京市房价_基于python的链家小区房价爬取——仅需60行代码
简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...
- python爬取小说网站资源_利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests?html Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库.python 它比urlli ...
- python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂
网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看 复制代码 import requests,bs4,re,os,threadingclas ...
- python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python网络爬虫_Python网络爬虫——爬取视频网站源视频!
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
最新文章
- 图解Oracle dump 命令初步
- 名为 cursor_jinserted 的游标不存在_性能优化技巧 - 程序游标
- Restful HMAC认证
- 自动查询成绩的小玩意
- python怎么实现黑客攻击英国_注意!你的隐私就是这样被黑客获取的
- mysql做wp网站_mysql做wp网站
- SAP ECC6安装系列二:安装前的准备工作
- Uncaught SyntaxError: Unexpected token ‘var‘
- 在服务中mysql启动不了了_mysql在服务项里无法启动
- 计算机cpu温度显示原理,可以相信软件显示的CPU温度吗
- 最新省市区json字符串
- h5背景图片尺寸怎么设置_html如何设置图片大小
- 3D建模除了日常工作,私下还可以赚外快哦,分分钟嗨赚
- Excel中实现跨表数据有效性
- 视频号如何给账号定位,如何做好视频号的定位
- 解决mysql保存数据SQLException: Incorrect string value: ‘\xF0\x9F\x91\x87\xE5\x91...‘ for column ‘错误
- 【线代NumPy】第五章 - 行列式课后练习 | 伴随矩阵求逆 | Cramer公式求联立方程 | 简述并提供代码
- Cesium:绘制抛物线/散射线
- 事务(Transaction)的简单理解
- uvc摄像头代码解析6
热门文章
- 【最大流,SPFA,卡常】狼抓兔子
- Python Skill - 数据处理-行列互换
- Putty使用秘钥认证时,报错:Disconnected: No supported authentication methods available
- 【HTTP 404 - 指定されたURLは見つかりません。】错误及解决
- android7无法运行优酷,win7系统优酷客户端打不开的解决方法
- 网络舆情监测公司服务及产品技术功能评判标准详解
- 北境之地服务器没有响应,北境之地基础问题解决方法
- ckeditor5 html 插件,ckeditor5文本对齐插件无法正常工作
- 【NOIP2014模拟11.2B组】超氧化钾
- 2022南京公积金贷款提前还款