php数据清洗工具,爬取数据的清洗—

说明：

在爬取网页数据所需的内容后，通过select方法选取的内容会生成一个列表，但列表中包含HTML的标签等杂项，如[武侯祠/杜甫草堂/双楠鹭岛美食街精致两居]，如果只想得到其中的文本，就要用到以下方法；

方法一：

import requests

from bs4 import BeautifulSoup

url = 'http://cd.xiaozhu.com/fangzi/636003301.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

web_data = requests.get(url, headers=headers)

web_data = web_data.text

soup = BeautifulSoup(web_data, 'lxml')

title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

# 用循环的形式得到

for ti in title:

print(ti.text)

方法二：

import requests

from bs4 import BeautifulSoup

url = 'http://cd.xiaozhu.com/fangzi/636003301.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

web_data = requests.get(url, headers=headers)

web_data = web_data.text

soup = BeautifulSoup(web_data, 'lxml')

title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

# 指定列表中的元素

title = title[0].text

print(title)

结果：

武侯祠/杜甫草堂/双楠鹭岛美食街精致两居

php数据清洗工具,爬取数据的清洗——提取列表中的文本相关推荐

python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例
Python爬取数据并写入MySQL数据库的实例来源:中文源码网浏览: 次日期:2018年9月2日 [下载文档: Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...
python爬取json数据_Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...
python爬取bilibili数据_BiliBili爬取数据简单分析
爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将 ...
利用免费工具爬取关键词（数据）的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词：爬虫、读书、实用
目录原始需求需求解读所需软件配置软件介绍八爪鱼 Excel Navicat Mysql 数据采集及保存步骤1 探索搜索页面规律步骤二八爪鱼批量生成链接,添加参数(前缀+尾巴) 步骤 ...
cs客户端接收网页传来的数据_3.爬取数据-urllib库
1. 小试牛刀怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...
简单的使用QueryList爬取数据
最近在整理做过的项目时,发现了曾经的一个好玩的东西,长时间不用都快忘记生疏了,在这里做下总结.在之前的时间里,流行用python写爬虫脚本,我学的是php于是经过学习也用php写了个简单的爬虫,用于抓 ...
使用xpath爬取数据
使用xpath来提取数据,爬取数据的简单语法. 下载模块快速下载模块 pip install lxml 导入模块 from lxml import etree 利用xpath获取text或者href ...
爬虫爬取数据时，网页响应码返回404问题的解决方法
爬虫报404问题: 在进行爬虫爬取数据的过程中,使用语句: r = requests.get(url, timeout=60, headers=headers, stream=True) # prin ...
python如何读取数据并输出为表格_Python 爬取数据并导出表格
从网站请求数据要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...

php数据清洗工具,爬取数据的清洗——提取列表中的文本

php数据清洗工具,爬取数据的清洗——提取列表中的文本相关推荐

最新文章

热门文章