下面哪个python库不能用于提取网页信息_利用python的webscraping库采集抓取爱帮网电话号码...
利用python的webscraping模块抓取爱帮网电话号码,本文采集该页面的标题和2个电话号码,
具体的python代码:
# -*- coding: UTF-8 -*-
'''
Created on 2014-5-9
'''
#导入urllib2库,用于获取网页
import urllib2
#使用开源库Webscraping库的xpath模块
from Webscraping import xpath,common
#首先,发送请求到爱帮网的一个页面,该页面含有地址
req = urllib2.Request('http://www.aibang.com/detail/17881112-420243957')
#获得响应
reponse = urllib2.urlopen(req)
#将响应的内容存入html变量
html = reponse.read()
#以下抓取页面的标题
title = xpath.search(html, '//div[@class="ppc_title"]/h1[1]')
print '标题:'
#这里要输出中文,因此采用common的to_unicode输出
print common.to_unicode(title[0], 'utf-8')
#使用xpath得到电话号码的节点
tel = xpath.search(html, '//dl[@class="detail_list"]/dd[@class="fb"]')
#使用正则拆分数字
import re
m = re.search(r'([\d-]+)\s([\d-]+)', tel[0])
#如果匹配,输出两个单个电话号码
print '电话号:'
if m is not None:
for t in m.groups():
print t
其中主要用到了以下模块:
xpath:用于使用路径的方法找到节点
re:正则表达式模块,用于拆分电话号码(其实字符串函数也可以)
urllib2:用于请求指定URL的页面内容,存于字符串然后分析
webscraping 库的common模块:用于将获取到得中文文本转成unicode编码,这样才能够输出
webscraping 库相关文档:http://docs.webscraping.com/
下面哪个python库不能用于提取网页信息_利用python的webscraping库采集抓取爱帮网电话号码...相关推荐
- python网页信息_利用python处理网页信息
在前几周的grep/sed/awk实战中提到,"和CoreSite - Any2 California接入商建立网络BGP邻居关系.从peeringdb上找到了所有接入商的信息,但是转移信息 ...
- python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...
原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...
- python 提取网页正文_用Python写个爬虫小程序,给女朋友每日定时推送睡前小故事...
↑ 关注 + 星标 ,每天学Python新技能后台回复[大礼包]送你Python自学大礼 导读:这篇文章利用简单的Python爬虫.邮件发送以及定时任务实现了每天定时发送睡前小故事的功能,是一篇步骤详 ...
- java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...
- python从文件中提取特定文本_使用Python从HTML文件中提取文本
我发现最好的一段代码用于提取文本,而不需要javascript或不需要的东西:import urllibfrom bs4 import BeautifulSoupurl = "http:// ...
- python按某列拆分excel表格_利用Python+Pandas实现从一个excel表中提取列形成新表
简要 利用python实现把一个工作表中的某些列,和其中单独的一列,提取成为一个个新表. 如图(处理前)蓝色部分是需要保留的列,红色是需要一项一项分出来作为单独表格的列. 其中,第一行的名字是用的回车 ...
- python脚本下载钉钉的文件_利用python下载钉钉群直播视频
今年因为疫情的原因不能开学,所以很多学校都使用钉钉进行在线授课,但是在钉钉里面点击下载群直播回放的时候却发现: 真好,管理员设置了不允许下载回放. 这就完了吗?NoNoNo!既然正常途径下载不了,那么 ...
- python对数据进行合并的函数_利用Python pandas对Excel进行合并的方法示例
前言 在网上找了很多Python处理Excel的方法和代码,都不是很尽人意,所以自己综合网上各位大佬的方法,自己进行了优化,具体的代码如下. 博主也是新手一枚,代码肯定有很多需要优化的地方,欢迎各位大 ...
- python携程怎么做数据同步_利用python yielding创建协程将异步编程同步化
转自:http://www.jackyshen.com/2015/05/21/async-operations-in-form-of-sync-programming-with-python-yiel ...
最新文章
- php获取服务器文件路径,php获取服务器路径
- 我和大师Jeffrey Richter相约@北京
- 企业部署Windows 7指南
- python filter函数_Python列表的8个实用技巧
- c语言printf右移,C语言printf(“”)左右(转)
- @property and @synthesize区别
- 华为P50系列确定29日发布:但遗憾的是...
- 计算机设置定时关机win10,Win10电脑如何设置定时关机?Win10电脑设置定时关机命令...
- 活跃android手机,谁能升级2.3?Android手机活跃榜
- C语言闰年还是平年问题程序,c语言判断一年是不是闰年,编程错在哪呢?
- 伦敦银现的交易时间特点
- android 保存图片(视频)到相册
- SAP 生产订单/工单状态说明
- 图解Java核心架构体系
- @Inject与@Injectable
- Obama Praises Japanese Partnership
- tiny core linux网络连接,用Tiny Core Linux打造纯Firefox上网系统(概要)
- hexo博客插入图片与视频方法
- 测试开发的瓶颈在哪儿?
- lammps代码实例分享
热门文章
- 【历史上的今天】4 月 11 日:Apple I 设计完成;微软官宣“告别” Clippy;伯克利计算机先驱出生
- 【日语五十音图快速记忆法】(看了这个,真的很好记)
- CentOS 7.3上图数据库Neo4j的安装和测试
- R-ggplot2 标准中国地图制作
- 谷歌翻译下载-免费谷歌翻译软件下载
- RHCSA操作第四次作业
- Mac OSX常用软件
- 猿创征文|当我在追光 我与光同航--我与Java的技术成长之路
- 忠告360安全卫士督导委员:小心沦为周鸿一的工具(zz)
- java 事件链_供应链攻击事件——针对Github中Java项目的定向攻击