from bs4 import BeautifulSoup

import requests

import time

import re

url = 'http://search.qyer.com/hotel/89580_4.html'

urls = ['http://search.qyer.com/hotel/89580_{}.html'.format(str(i)) for i in range(1,10)] # 最多157页

infos = []

# print(urls)

# 批量爬取数据

def getAUrl(urls):

data_number = 0

for url in urls:

getAttractions(url)

print('--------------{}-----------------'.format(len(infos)),sep='\n')

# 爬取当页面数据

def getAttractions(url,data = None):

web_data = requests.get(url)

time.sleep(2)

soup = BeautifulSoup(web_data.text,'lxml')

# print(soup)

hotel_names = soup.select('ul.shHotelList.clearfix > li > h2 > a')

hotel_images = soup.select('span[class="pic"] > a > img')

hotel_points = soup.select('span[class="points"]')

hotel_introduces = soup.select('p[class="comment"]')

hotel_prices = soup.select('p[class="seemore"] > span > em')

if data == None:

for name,image,point,introduce,price in \

zip(hotel_names,hotel_images,hotel_points,hotel_introduces,hotel_prices):

data = {

'name':name.get_text().replace('\r\n','').strip(),

'image':image.get('src'),

'point':re.findall(r'-?\d+\.?\d*e?-?\d*?', point.get_text())[0],

'introduce':introduce.get_text().replace('\r\n','').strip(),

'price':int(price.get_text())

}

# print(data)

infos.append(data)

# 根据价格从高到低进行排序

def getInfosByPrice(infos = infos):

infos = sorted(infos, key=lambda info: info['price'], reverse=True)

for info in infos:

print(info['price'], info['name'])

# getAttractions(url)

爬取的网站链接

遇到的问题及解决办法

①Strip()方法用于删除开始或结尾的字符。lstrip()|rstirp()分别从左右执行删除操作。默认情况下会删除空白或者换行符,也可以指定其他字符。

②如果想处理中间的空格,需要求助其他技术 ,比如replace(),或者正则表达式

③strip()和其他迭代结合,从文件中读取多行数据,使用生成器表达式

④更高阶的strip

可能需要使用translate()方法

python爬取酒店信息_Python 爬虫练手项目—酒店信息爬取相关推荐

  1. python画画需要什么模块_python实战练手项目---使用turtle模块画奥运五环

    python实战练手项目---使用turtle模块画奥运五环 2020年将举办东京奥运会,本篇实践文章将带你使用turtle模块画一个五环图,先来看效果图 1. 定义一个类继承Turtle class ...

  2. Python 爬虫练手项目—酒店信息爬取

    from bs4 import BeautifulSoup import requests import time import reurl = 'http://search.qyer.com/hot ...

  3. python做什么生意好找_Python 的练手项目有哪些值得推荐?

    注:下面分享的练习项目面向刚入门的Python学习者,项目的代码地址见结尾. Python 是一门虽然简单却很强大的编程语言.可能有些刚入门 Python 的朋友,虽然已经掌握了 Python 的基础 ...

  4. python做些什么项目_Python 的练手项目有哪些值得推荐

    1 Web方向的练手项目 这个其实是肯定不用多少的了.Python的练手项目就是可以做一个网站了.我们可以做一个属于自己的博客.在做博客的时候,我们可以巩固的知识点是 Html+CSS+JS的基础知识 ...

  5. python上网行为分析_python实战练手项目---获取谷歌浏览器的历史记录,分析一个人的上网行为...

    python实战练手项目---获取谷歌浏览器的历史记录,分析一个人的上网行为 谷歌浏览器的历史浏览记录存储在名为History sqlite文件中,在mac环境下,该文件的地址是 /Users/zha ...

  6. 爬虫练手项目:获取豆瓣评分最高的电影并下载

    前期回顾 上篇博文我们学习了Python爬虫的四大库urllib ,requests ,BeautifulSoup以及selenium 爬虫常用库介绍 学习了urllib与request的常见用法 学 ...

  7. python爬取58同城租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息(示例代码)...

    #!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...

  8. python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息

    #!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...

  9. 2021-07-31 Python爬虫练手项目--爬取上千张明星美图

    爬虫每日练手--上千张美女明星优质图 1.确定目标 2.提取链接 爬取封面链接 爬取子页面 3.代码及结果 完整代码 输出结果 代码细节解释 设置简单反爬 打印输出结果 4.成品欣赏 1.确定目标 目 ...

最新文章

  1. 使用PHPExcel 对表格进行,读取和写入的操作。。。。
  2. 创建一个好的Sprint Backlog 的8个小贴士
  3. Mask R-CNN:实例分割与检测算法
  4. 微信现金红包接口实现红包发放
  5. c语言经典算法——查找一个整数数组中第二大数
  6. 关键系统的JVM参数推荐
  7. Python之路【第五篇】:Python基本数据类型
  8. oracle 不等函数,SQL(Oracle)日常使用与不常使用函数的汇总
  9. AcWing 851. spfa求最短路(解决负边权最短路)
  10. nohup与区别于使用
  11. PCM音频设备的操作(转)
  12. 阶段1 语言基础+高级_1-3-Java语言高级_08-JDK8新特性_第3节 两种获取Stream流的方式_3_Stream流中的常用方法_filter...
  13. Kurento Tree 简介
  14. IMG镜像写盘工具physdiskwrite,用于MikroTik RouterOS的安装(Windows)
  15. 如何修复损坏的PDF文件 - PDF修复工具教程
  16. 【小墨mysql】mysql系列之一---索引
  17. 搭建简易的asp服务器 用于手机安装测试程序
  18. ⌈Linux_感受系统美学⌋ 一步一步迈向系统底层 - 寻觅Linux奥秘,探寻Linux下权限管理周边属性
  19. Hark的数据结构与算法练习之堆排序
  20. 快速查看MySQL数据库的版本号

热门文章

  1. VAR 在 Stata 中的模拟、估计和推断
  2. CopperheadOS:安全功能,安装应用程序等
  3. 对java中匿名对象和匿名类的简单理解
  4. phpexcel 设置批注_Phpexcel 实例
  5. 内存计算技术应对大数据挑战
  6. C++实现websocket服务器握手协议(使用Qt)
  7. python每次读取2行,如何在python中分别读取两行
  8. 21日跟师兄谈话总结
  9. 千千音乐 for Mac(音乐播放器)
  10. 高等教师资格证考试复习笔记-高等教育学-(9)- 高等学校的教学