php数据清洗工具,爬取数据的清洗——提取列表中的文本
说明:
在爬取网页数据所需的内容后,通过select方法选取的内容会生成一个列表,但列表中包含HTML的标签等杂项,如[武侯祠/杜甫草堂/双楠鹭岛美食街精致两居],如果只想得到其中的文本,就要用到以下方法;
方法一:
import requests
from bs4 import BeautifulSoup
url = 'http://cd.xiaozhu.com/fangzi/636003301.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
web_data = requests.get(url, headers=headers)
web_data = web_data.text
soup = BeautifulSoup(web_data, 'lxml')
title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')
# 用循环的形式得到
for ti in title:
print(ti.text)
方法二:
import requests
from bs4 import BeautifulSoup
url = 'http://cd.xiaozhu.com/fangzi/636003301.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
web_data = requests.get(url, headers=headers)
web_data = web_data.text
soup = BeautifulSoup(web_data, 'lxml')
title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')
# 指定列表中的元素
title = title[0].text
print(title)
结果:
武侯祠/杜甫草堂/双楠鹭岛美食街精致两居
php数据清洗工具,爬取数据的清洗——提取列表中的文本相关推荐
- python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例
Python爬取数据并写入MySQL数据库的实例 来源:中文源码网 浏览: 次 日期:2018年9月2日 [下载文档: Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...
- python爬取json数据_Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...
- python爬取bilibili数据_BiliBili爬取数据简单分析
爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将 ...
- 利用免费工具爬取关键词(数据)的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词:爬虫、读书、实用
目录 原始需求 需求解读 所需软件配置 软件介绍 八爪鱼 Excel Navicat Mysql 数据采集及保存 步骤1 探索搜索页面规律 步骤二 八爪鱼批量生成链接,添加参数(前缀+尾巴) 步骤 ...
- cs客户端接收网页传来的数据_3.爬取数据-urllib库
1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...
- 简单的使用QueryList爬取数据
最近在整理做过的项目时,发现了曾经的一个好玩的东西,长时间不用都快忘记生疏了,在这里做下总结.在之前的时间里,流行用python写爬虫脚本,我学的是php于是经过学习也用php写了个简单的爬虫,用于抓 ...
- 使用xpath爬取数据
使用xpath来提取数据,爬取数据的简单语法. 下载模块 快速下载模块 pip install lxml 导入模块 from lxml import etree 利用xpath获取text或者href ...
- 爬虫爬取数据时,网页响应码返回404问题的解决方法
爬虫报404问题: 在进行爬虫爬取数据的过程中,使用语句: r = requests.get(url, timeout=60, headers=headers, stream=True) # prin ...
- python如何读取数据并输出为表格_Python 爬取数据并导出表格
从网站请求数据 要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...
最新文章
- CCIE PASSED
- java访问控制度_菜鸡的Java笔记 - java 访问控制权限
- JavaScript实用小技巧
- JAVA中的Hashset类
- zabbix-agent客户端安装
- 鼓励自己最有效的20个方法
- Nginx+Tomcat搭建集群环境
- java 判断文件是否打开过_【后端开发】Java中如何判断文件是否被隐藏?(代码示例)...
- 游戏筑基开发之简单迷宫行走(内附碰撞检测底层逻辑)
- Linux的history命令
- php学校整站,PHP适应式大学院校学校类网站整站源码(自适应手机移动端) dedecms内核...
- default、mms、supl、dun、hipri接入点类型的区别
- 第七批中国历史文化名镇名村名单出炉 有你家吗?
- 虚拟机使用cheese调用摄像头黑屏问题解决
- 综合日语第一册第六课
- 磊科路由器dns服务器老要修复,路由器DNS劫持的解决方法
- Linux条件变量(pthread_cond)示例
- 30条爆笑的程序员梗PHP是最好的语言
- RTL8821CS移植过程记录
- 2013搜狗校招研发类C/C++试题