***## 标题*爬虫有静态页面和动态页面,这里先讲解静态的选取,先看网页的源代码里面是否有需要爬取的关键词,有就是静态页面直接调用cookile get得到数据 **关于python的爬虫的一些内容与爬安居客与58同城的租房信息,选取一些关键词,进行爬取,代码如下:

import requests,pymysql
from lxml import etree
import time
#爬取内容一下七个信息
#标题 户型 面积 区域 小区 交通 价格#龥 0 replace('龥,驋,餼,鸺,麣,龤,閏,鑶,龥,鸺',0,1,2,3,4,5,6,7,8,9)
#驋 龒  1
#餼 2
#鸺 3
#麣 4
#龤 5
#閏 6
#鑶 7
#龥 8
#鸺 9db=pymysql.connect("localhost",'root','caohailan666','ai_13',charset='utf8') # 连接mysql
def addPeopleSql(house_title,house_hxdx,house_road,house_name,house_bus_station,house_money):# db=pymysql.connect("localhost",'root','caohailan666','ai_13',charset='utf8') # 连接mysqlcursor=db.cursor() # 游标对象                                                                                                                         ,age,province,city,constellation,edu,job,headImage,salary,nick,lastLoginTime,maritalStatus,hight,weight,sexsql = "insert into room values(\'"+str(house_title)+"\',\'"+str(house_hxdx)+"\',\'"+str(house_road)+"\',\'"+str(house_name)+"\',\'"+str(house_bus_station)+"\',\'"+str(house_money)+"\')"# print(sql)cursor.execute(sql)db.commit()cursor.close()def get_house_info(page):url='https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p'+str(page)+'/'
#https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p1/龒
#https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p2/
#https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p3/# url='https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1/'headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}r=requests.get(url,headers=headers)open("amjuke.html",'w',encoding='utf-8').write(r.text)html=etree.HTML(r.text)all_house=html.xpath("//div[contains(@class,'zu-itemmod')]")print(len(all_house))house_info=[]for once in all_house:house_title=''.join(once.xpath(".//div[@class='zu-info']/h3/a/b/text()")).strip()# print(house_title)house_hxdx=''.join(once.xpath(".//div[@class='zu-info']/p[1]/b/text()")).strip().replace('龥','0').replace('閏','6').replace('驋','1').replace('鑶','7').replace('鸺','9').replace('餼','2').replace('鸺','3').replace('麣','4').replace('龤','5').replace('齤','8').replace('龒','1')# print(house_hxdx)house_road=''.join(once.xpath(".//div[@class='zu-info']/address/a/text()")).strip()house_name=''.join(once.xpath(".//div[@class='zu-info']/address/text()")).strip()house_bus_station=''.join(once.xpath(".//div[@class='zu-info']/p[2]/span/text()")).strip()house_money=''.join(once.xpath(".//div[@class='zu-side']/p/strong[1]/b/text()")).strip().replace('龥','0').replace('閏','6').replace('驋','1').replace('鑶','7').replace('鸺','9').replace('餼','2').replace('鸺','3').replace('麣','4').replace('龤','5').replace('齤','8').replace('龒','1')house_info.append([house_title, house_hxdx, house_road, house_name, house_bus_station, house_money])addPeopleSql(house_title, house_hxdx, house_road, house_name, house_bus_station, house_money)return house_infofor page in range(1,10):house_info = get_house_info(page)print('%d条爬取成功' % (page))print(house_info)time.sleep(2)

下面为代码运行的结果:即爬取的内容

D:\MyDownloads\anaconda\python.exe C:/Users/lan/PycharmProjects/untitled3/pachong/dazhongwnagtousu爬取/anjuke.py
60
1条爬取成功
[['蜀山区,选好房,精装龒室,可月付,交通便利,拎包入住', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['金大地时代天街 精装复式 随时看房拎包入住 可以月付 速来', '1119', '金大地时代天街(商住楼)', '蜀山-合作化路 繁华大道9780号', '整租南北有电梯', '1855'], ['精装龒室龒卫 押一付一 地铁餼号线科学大道 蜀山区,非中介', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['肿瘤医院 植物园附近 精装公寓 周租月租 租期灵活!', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['明珠广场  正大广场 精装公寓  拎包入住  交通便利', '1116', '金大地时代天街(商住楼)', '蜀山-合作化路 繁华大道9780号', '整租朝南有电梯', '1965'], ['万科金域华府精装一室之心城国购旁楼下就是五里墩地铁口随时看房', '1166', '万科金域华府(商住楼)', '蜀山-贵池路 长江西路', '整租南北有电梯2/3号线', '1965'], ['南艳湖旁精装网红复式 拎包入住 全新家具家电 拎包入住 月付', '1168', '加侨悦湖公馆(商住楼)', '蜀山-合作化路 繁华大道8039号', '整租朝南有电梯', '1855'], ['蜀山区 地铁旁 无中介 低租金 贴心服务 可月付 拎包入住', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['华邦繁华里婚房装修,拎包入住,真实图片,爱干净,楼层不错,急', '1115', '华邦繁华里', '蜀山-青阳北路 长江西路446号', '整租朝南有电梯2/3号线', '1855'], ['信旺华府骏苑旁整租一室出租 家电齐全 地铁三号线', '1116', '信旺华府骏苑', '蜀山-望江西路 望江西路198号', '整租朝南有电梯3号线', '1655'], ['肿瘤医院 植物园附近 公司直租 周租月租 租期灵活!', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['蜀麓苑整租一室一厅出租 家具家电齐全 地铁口 拎包入住', '1116', '加侨悦山国际(商住楼)', '蜀山-西客站 田埠西路190号', '整租朝南有电梯2号线', '1655'], ['家电齐全,精装一室,可随时看房', '1115.7', '公园道1号(北区)', '蜀山-凤凰城 创业大道', '整租朝南有电梯2/3号线', '1126'], ['整租酒店式公寓无中介拎包入住红枫路餼号途虎养车车然之家亚夏大', '1515', '亚夏汽车大厦', '蜀山-合作化路 望江西路501号', '整租朝南有电梯', '1155'], ['(公司直租)地铁旁 低租金 可月付 交通便利 拎包入住', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['地铁餼号线 科学大道旁 精装龒室龒卫 押一付一 非中介', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1655'], ['公寓直租  紧邻地铁 拎包入住 押一付一 可日租月租!', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['公园道龒号 福乐门国际广场 北京华联购物中心 餼号线 十里庙', '1115.7', '公园道1号(南区)', '蜀山-凤凰城 长江西路652号', '整租朝南有电梯2/3号线', '1155'], ['绩溪路安医大 农业大学旁精装酒店式公寓多套可选年付价格不等', '1126', '新城万象新天(商住楼)', '蜀山-三里庵 绩溪路321号', '整租朝南有电梯2号线', '965'], ['地铁口 精装一室公寓 可短租 独立厨房 卫生间阳台,蜀山区', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['华府骏苑精装龒室 押一付一 随时看房', '1161.2', '信旺华府骏苑', '蜀山-望江西路 望江西路198号', '整租朝南有电梯3号线', '1655'], ['大溪地商业街!天睿大厦旁!时代数码港!合肥国家大学科技园!', '1166.6', 人'博澳丽苑', '蜀山-黄潜望 环湖东路398号', '整租南北有电梯3号线', '1865'], ['龒鸺龒餼整租一室一厅,无中介费 民用水电通燃气好房急租', '1110.0', '大溪地御倾城', '蜀山-贵池路 贵池路', '整租朝南有电梯2/3号线', '1665'], ['餼号线十里庙!麣号线国防科技大学!实拍房源!月租月付!龤中介', '1115', '维也纳国际酒店', '蜀山-蜀山周边 黄山路565号', '整租南北有电梯3号线', '1855'], ['信达西山银杏 怀宁路与潜山路 政务区 精装修一室 月付', '1160.6', '信达西山银杏', '蜀山-黄潜望 怀宁路1833号', '整租朝南有电梯3号线', '1898'], ['非中介,一室一厅整租,租期灵活,可短租,拎包即住哦',

我还将其加入的数据库中,也在这展示一下,希望对一些想学爬虫的人有些许帮助,在代码里有连接数据库的代码,可以看看:


这爬取的内容做成表格 方便提取自己想要的数据,并可以分析数据。 下次还会更新更多爬虫的内容。

爬虫之 静态页面和动态页面相关推荐

  1. 基于python爬虫————静态页面和动态页面爬取

    基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...

  2. 静态页面和动态页面的区别

    静态页面和动态页面的区别 一.静态web页面: 1.在静态Web程序中,客户端使用Web浏览器(IE.FireFox等)经过网络(Network)连接到服务器上,使用HTTP协议发起一个请求(Requ ...

  3. asp是什么文件?html和asp的区别?(HTML是客户端语言,主要用于创建静态网页;asp是服务器端语言,用于设计用户交互式页面或动态页面)

    1.HTML是一种客户端语言,它允许Web浏览器解析并显示在标签之间写入的内容,允许把图像和对象嵌入到网页中.ASP是一种服务器端语言,这意味着写入的代码将被发送到服务器中,并根据要求执行的操作返回一 ...

  4. web 静态页面和动态页面的区别

    文章目录 一.静态web页面: 二.动态web页面: 为什么需要web服务器?(web server) 三.关于两者区别的简单直接的描述 四.实验测试 一.静态web页面: 1.在静态Web程序中,客 ...

  5. html静态化和动态页面,web动态页面静态化,伪静态

    动态页面静态化 首选,我们需要了解两个概念, 静态页面 和 动态页面 静态页面 最早的时候,网站内容是通过在主机空间中放置大量的静态网页实现的 静态网页最大的缺点就是每个人看到的一样的. 以静态网页为 ...

  6. 静态页面和动态页面中的静态和动态到底指的是什么

    今天讨论一个话题,这是在考研的专业课考试中的一个问题:静态页面和动态页面的联系和区别 ,这考的我就很猝不及防 ,这个方面虽然以前有了解 ,但是理解得并不深刻,网安方向涉及到的东西太多了,慢慢学习吧~首 ...

  7. (转载)页面静态化(JSP动态页面转静态化)

    本文来自:http://springkingster.javaeye.com/blog/175114 页面静态化(JSP动态页面转静态化) urlrewritefilter 下载: http://tu ...

  8. webmagic ajax,webmagic爬虫对静态页面,动态页面及js请求方式爬取的处理

    webmagic爬取网页数据,[分页爬取内容]见上一篇博文https://segmentfault.com/a/1190000020005655 webmagic的官方文档见: http://webm ...

  9. 页面静态化(JSP动态页面转静态化)相关

    urlrewritefilter 下载:http://tuckey.org/urlrewrite/#download 所用基于动态的url http://www.nihaoblog.com/conte ...

最新文章

  1. 数据挖掘中分类算法小结
  2. 二分查找(等于x,小于x,小于等于x,大于x,大于等于x )
  3. python init self_转载--------Python中:self和__init__的含义 + 为何要有self和__init__
  4. ibatis常用的集中判断语句
  5. 怎么判断一个字符串的最长回文子串是否在头尾_每日一道算法题,让你的头脑更活跃(寻找最长回文子串)...
  6. Flexslider图片轮播、文字图片相结合滑动切换效果
  7. STM32F103单片机modbus通信示例
  8. 关于LIMIT(超出界限时,SQL执行也没有问题,而且结果集中只会到有数据的最后一条记录,不会出现空,已经过测试)
  9. Sharepoint 2010 解决DFWP - Unable to display this Web Part 的问题
  10. markdown引入代码_将Swagger2文档导出为HTML或markdown等格式离线阅读
  11. 《战舰世界》携手汉堡王开启“战舰堡胃战”主题活动
  12. 第七次全国人口普查公报(第三号) ——地区人口情况
  13. AltiumDesigner VS 立创EDA —— PCB绘图软件选择
  14. 微机原理课程设计-接口芯片编程记录
  15. 松柏先生实地调研浙江名茶“平阳黄汤”传播茶文化
  16. 组装密度io/cm_组装领域:什么是正确的组装/图书馆数量?
  17. 程序人生 - 鼠标手是什么?如何应对鼠标手!
  18. 以下程序从读入的整数数据中,统计大于零的整数个数和小于零的整数个数。用输入零来结束输入,程序中用i统计大于零的个数,用变量j统计小于零的整数。
  19. 电脑无法显示WLAN图标,无法联网,只有飞行模式
  20. 测试删除hive表时出错

热门文章

  1. 前端笔记:Grid布局
  2. 如何使用HTML进行一个简单的图文混排
  3. 数据不在有用时进行安全销毁
  4. python3安装setuptools步骤_简单python2.7.3安装setuptools模块
  5. [乱谈]中文VS英文-各取所长,各尽其用-Kenshin乱谈版
  6. java 面向对象原则_Java基础:面向对象六大原则
  7. 第105篇 Compound 中的 Comptroller
  8. Tabby sftp 下载文件夹
  9. Elasticsearch原理学习--为什么Elasticsearch/Lucene检索可以比MySQL快?
  10. RAID磁盘阵列的几种模式