说明:

在爬取网页数据所需的内容后,通过select方法选取的内容会生成一个列表,但列表中包含HTML的标签等杂项,如[武侯祠/杜甫草堂/双楠鹭岛美食街精致两居],如果只想得到其中的文本,就要用到以下方法;

方法一:

import requests

from bs4 import BeautifulSoup

url = 'http://cd.xiaozhu.com/fangzi/636003301.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

web_data = requests.get(url, headers=headers)

web_data = web_data.text

soup = BeautifulSoup(web_data, 'lxml')

title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

# 用循环的形式得到

for ti in title:

print(ti.text)

方法二:

import requests

from bs4 import BeautifulSoup

url = 'http://cd.xiaozhu.com/fangzi/636003301.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

web_data = requests.get(url, headers=headers)

web_data = web_data.text

soup = BeautifulSoup(web_data, 'lxml')

title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

# 指定列表中的元素

title = title[0].text

print(title)

结果:

武侯祠/杜甫草堂/双楠鹭岛美食街精致两居

php数据清洗工具,爬取数据的清洗——提取列表中的文本相关推荐

  1. python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例

    Python爬取数据并写入MySQL数据库的实例 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...

  2. python爬取json数据_Python爬取数据保存为Json格式的代码示例

    python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...

  3. python爬取bilibili数据_BiliBili爬取数据简单分析

    爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将 ...

  4. 利用免费工具爬取关键词(数据)的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词:爬虫、读书、实用

    目录 原始需求 需求解读 所需软件配置 软件介绍 八爪鱼 Excel Navicat Mysql 数据采集及保存 步骤1  探索搜索页面规律 步骤二  八爪鱼批量生成链接,添加参数(前缀+尾巴) 步骤 ...

  5. cs客户端接收网页传来的数据_3.爬取数据-urllib库

    1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...

  6. 简单的使用QueryList爬取数据

    最近在整理做过的项目时,发现了曾经的一个好玩的东西,长时间不用都快忘记生疏了,在这里做下总结.在之前的时间里,流行用python写爬虫脚本,我学的是php于是经过学习也用php写了个简单的爬虫,用于抓 ...

  7. 使用xpath爬取数据

    使用xpath来提取数据,爬取数据的简单语法. 下载模块 快速下载模块 pip install lxml 导入模块 from lxml import etree 利用xpath获取text或者href ...

  8. 爬虫爬取数据时,网页响应码返回404问题的解决方法

    爬虫报404问题: 在进行爬虫爬取数据的过程中,使用语句: r = requests.get(url, timeout=60, headers=headers, stream=True) # prin ...

  9. python如何读取数据并输出为表格_Python 爬取数据并导出表格

    从网站请求数据 要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...

最新文章

  1. CCIE PASSED
  2. java访问控制度_菜鸡的Java笔记 - java 访问控制权限
  3. JavaScript实用小技巧
  4. JAVA中的Hashset类
  5. zabbix-agent客户端安装
  6. 鼓励自己最有效的20个方法
  7. Nginx+Tomcat搭建集群环境
  8. java 判断文件是否打开过_【后端开发】Java中如何判断文件是否被隐藏?(代码示例)...
  9. 游戏筑基开发之简单迷宫行走(内附碰撞检测底层逻辑)
  10. Linux的history命令
  11. php学校整站,PHP适应式大学院校学校类网站整站源码(自适应手机移动端) dedecms内核...
  12. default、mms、supl、dun、hipri接入点类型的区别
  13. 第七批中国历史文化名镇名村名单出炉 有你家吗?
  14. 虚拟机使用cheese调用摄像头黑屏问题解决
  15. 综合日语第一册第六课
  16. 磊科路由器dns服务器老要修复,路由器DNS劫持的解决方法
  17. Linux条件变量(pthread_cond)示例
  18. 30条爆笑的程序员梗PHP是最好的语言
  19. RTL8821CS移植过程记录
  20. 2013搜狗校招研发类C/C++试题

热门文章

  1. ROS机器人学习——麦克纳姆轮运动学解算
  2. common-lang
  3. laravel中的集合collect
  4. 普通Maven项目打包含依赖和不含依赖
  5. 脑洞大的日本人,做了一个AI智能观音讲佛经!
  6. apache poi的使用
  7. 德州仪器达芬奇五年之路七宗罪,嵌入式处理器架构之争决战2012
  8. Docker集成kata containers
  9. echarts 横轴位置 X轴位置 坐标轴线横线不在0刻度
  10. 华为nova5ipro的优缺点_如何评价华为Nova5i Pro?