python关于二手房的课程论文_python爬取链家二手房信息
'''使用面向对象的方式,搭建项目框架'''import requests
import openpyxlfrombs4 import BeautifulSoup
import pymysqlclassLianJiaSpider():
mydb= pymysql.connect("localhost", "root", "511924", "summerperiod", charset='utf8')
mycursor=mydb.cursor()
#初始化
def __init__(self):
self.url='https://bj.lianjia.com/chengjiao/pg{0}/'#初始化请求的url
#将其伪装成浏览器,对付反爬的
self.headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0'}
#发送请求的方法
def send_request(self,url):
resp=requests.get(url,headers=self.headers)if resp.status_code==200:returnresp
#解析html获取有用的数据
def parse_content(self,resp):
html=resp.text
bs=BeautifulSoup(html,'html.parser')#第一个参数是要解析的内容,第二个参数是解析器
#查找自己想要的内容
ul=bs.find('ul',class_='listContent')
#在劜中获取所有的li
li_list=ul.find_all('li')
#遍历
lst=[]for item inli_list:
title=item.find('div',class_='title').text#标题
house_info=item.find('div',class_='houseInfo').text#房屋描述
deal_date=item.find('div',class_='dealData')#成交的日期
total_price=item.find('div',class_='totalPrice').text#总价
position_info=item.find('div',class_='positionInfo').text#楼层信息
unit_price=item.find('div',class_='unitPrice').text#单价
span_list= item.find_all('span') # 获取挂牌价和成交周期
agent_name= item.find('a', class_='agent_name').text # 销售
lst.append(title,house_info,deal_date,total_price,position_info,unit_price,span_list[0].text,span_list[1].text,agent_name)
#数据解析完毕,需要存储到数据库
self.write_mysal(lst)
def write_mysql(self,lst):
sql_cixian= "INSERT INTO food values (%s,%s,%s,%s,%s,%s,%s)"self.mycursor.executemany(sql_cixian, lst)
self.mydb.commit()
self.mydb.close()
#写入数据库
def write_mysal(self):
pass
#启动爬虫程序
def start(self):for i in range(1,2):
full_url=self.url.format(i)
resp=self.send_request(full_url)#发送请求ifresp:
self.parse_content(resp)#传入数据if __name__=='__main__':
#创建类的对象
lianjia=LianJiaSpider()
lianjia.start()
python关于二手房的课程论文_python爬取链家二手房信息相关推荐
- python链家二手房_python 爬取链家二手房信息
'''Created on 2017-10-9 @author: wbhuangzhiqiang''' importsysimportreimportcsvimporturllib.requestfr ...
- python关于二手房的课程论文_基于python爬取链家二手房信息代码示例
基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...
- 租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息
目录 前言 一.查找数据所在位置: 二.确定数据存放位置: 三.获取html数据: 四.解析html,提取有用数据: 前言 贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么 ...
- 掌财社:python怎么爬取链家二手房的数据?爬虫实战!
我们知道爬虫的比较常见的应用都是应用在数据分析上,爬虫作为数据分析的前驱,它负责数据的收集.今天我们以python爬取链家二手房数据为例来进行一个python爬虫实战.(内附python爬虫源代码) ...
- python爬虫requests源码链家_python爬虫——爬取链家房价信息(未完待续)
爬取链家房价信息(未完待续) items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # ...
- python-scrapy-MongoDB 爬取链家二手房
python-scrapy-MongoDB 爬取链家二手房 链家二手房房源数据抓取 目标网址为http://bj.lianjia.com/ershoufang/ 分析网址 创建项目 scrapy st ...
- python找房源_python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...
- python爬虫requests源码链家_python爬虫爬取链家二手房信息
#coding=utf-8 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup imp ...
- python二手房使用教程_python爬虫爬取链家二手房信息
#coding=utf-8 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup imp ...
- Python 爬取链家二手房,我在北京买房的经历
本节所讲内容: 链家网站前期分析 利用requests爬取数据 爬取数据存储MongoDB(代码请看最后) 链家网站前期分析 今天我们主要对链家二手房数据爬取,看下我们目前的资金能买那一套.链家二手房 ...
最新文章
- DPDK架构与特点(转)
- 云的普及难易,云计算普及的难易
- 高级指令——hostname指令【作用:操作服务器的主机名(读取、设置)】、id指令【查看一个用户的一些基本信息(包含用户id,用户组id,附加组id…)】、whoami指令、ps -ef指令
- 数据分析面试必考的AB-Test知识点整理
- Swift--数组和字典(二)
- c语言编写电子秒表程序,电子秒表C程序.doc
- 中班音乐 机器人教案_中班音乐教案《小鸡出壳》含反思
- avd android 5.1,Kotlin开发进阶
- 对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络
- android bochs,通过 Bochs 让高性能的 Android 手机流畅运行 Windows 虚拟机
- Unity3D学习历程之Rect函数
- php生成盖章图片,印章图案生成器
- Jmeter测试脚本编写详解(配详图)
- 仿微信的语音点击播放时的语音图标动画效果
- 我的2016--远方不一定有诗,但有更好的自己
- F5 GTM DNS 知识点和实验 6 -智能DNS算法
- 【Practical】ZFC七公理
- 安装mysql驱动报错_java.sql.SQLException: org.gjt.mm.mysql.Driver 报错【解决办法】
- PostgreSQL 常用工具
- 【Vue知识点- No4.】vue组件、组件通信、Todo案例
热门文章
- 亮瞎眼的十六进制颜色代码表
- GPG入门 - 练习笔记
- webpack5从零搭建一个项目
- 实用计算机技术光盘,《计算机网络技术学习宝典》教学光盘使用说明.doc
- CSUOJ 1256 天朝的单行道(最短路)
- Creator仿超级玛丽小游戏源码分享
- 败走中国,是亚马逊们的宿命
- (什么是 RPC?) AND(什么是域名?)AND (DMA是什么?)AND(IRQ是什么?) 选择自 ycool1984 的 Blog
- Android常用十大框架
- win10计算器_你所不知道的 Windows 10 小诀窍:万能计算器、虚拟键盘、屏幕截图标注...