利用python的webscraping模块抓取爱帮网电话号码,本文采集该页面的标题和2个电话号码,

具体的python代码:

# -*- coding: UTF-8 -*-

'''

Created on 2014-5-9

'''

#导入urllib2库,用于获取网页

import urllib2

#使用开源库Webscraping库的xpath模块

from Webscraping import xpath,common

#首先,发送请求到爱帮网的一个页面,该页面含有地址

req = urllib2.Request('http://www.aibang.com/detail/17881112-420243957')

#获得响应

reponse = urllib2.urlopen(req)

#将响应的内容存入html变量

html = reponse.read()

#以下抓取页面的标题

title = xpath.search(html, '//div[@class="ppc_title"]/h1[1]')

print '标题:'

#这里要输出中文,因此采用common的to_unicode输出

print common.to_unicode(title[0], 'utf-8')

#使用xpath得到电话号码的节点

tel = xpath.search(html, '//dl[@class="detail_list"]/dd[@class="fb"]')

#使用正则拆分数字

import re

m = re.search(r'([\d-]+)\s([\d-]+)', tel[0])

#如果匹配,输出两个单个电话号码

print '电话号:'

if m is not None:

for t in m.groups():

print t

其中主要用到了以下模块:

xpath:用于使用路径的方法找到节点

re:正则表达式模块,用于拆分电话号码(其实字符串函数也可以)

urllib2:用于请求指定URL的页面内容,存于字符串然后分析

webscraping 库的common模块:用于将获取到得中文文本转成unicode编码,这样才能够输出

webscraping 库相关文档:http://docs.webscraping.com/

下面哪个python库不能用于提取网页信息_利用python的webscraping库采集抓取爱帮网电话号码...相关推荐

  1. python网页信息_利用python处理网页信息

    在前几周的grep/sed/awk实战中提到,"和CoreSite - Any2 California接入商建立网络BGP邻居关系.从peeringdb上找到了所有接入商的信息,但是转移信息 ...

  2. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

  3. python 提取网页正文_用Python写个爬虫小程序,给女朋友每日定时推送睡前小故事...

    ↑ 关注 + 星标 ,每天学Python新技能后台回复[大礼包]送你Python自学大礼 导读:这篇文章利用简单的Python爬虫.邮件发送以及定时任务实现了每天定时发送睡前小故事的功能,是一篇步骤详 ...

  4. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  5. python从文件中提取特定文本_使用Python从HTML文件中提取文本

    我发现最好的一段代码用于提取文本,而不需要javascript或不需要的东西:import urllibfrom bs4 import BeautifulSoupurl = "http:// ...

  6. python按某列拆分excel表格_利用Python+Pandas实现从一个excel表中提取列形成新表

    简要 利用python实现把一个工作表中的某些列,和其中单独的一列,提取成为一个个新表. 如图(处理前)蓝色部分是需要保留的列,红色是需要一项一项分出来作为单独表格的列. 其中,第一行的名字是用的回车 ...

  7. python脚本下载钉钉的文件_利用python下载钉钉群直播视频

    今年因为疫情的原因不能开学,所以很多学校都使用钉钉进行在线授课,但是在钉钉里面点击下载群直播回放的时候却发现: 真好,管理员设置了不允许下载回放. 这就完了吗?NoNoNo!既然正常途径下载不了,那么 ...

  8. python对数据进行合并的函数_利用Python pandas对Excel进行合并的方法示例

    前言 在网上找了很多Python处理Excel的方法和代码,都不是很尽人意,所以自己综合网上各位大佬的方法,自己进行了优化,具体的代码如下. 博主也是新手一枚,代码肯定有很多需要优化的地方,欢迎各位大 ...

  9. python携程怎么做数据同步_利用python yielding创建协程将异步编程同步化

    转自:http://www.jackyshen.com/2015/05/21/async-operations-in-form-of-sync-programming-with-python-yiel ...

最新文章

  1. php获取服务器文件路径,php获取服务器路径
  2. 我和大师Jeffrey Richter相约@北京
  3. 企业部署Windows 7指南
  4. python filter函数_Python列表的8个实用技巧
  5. c语言printf右移,C语言printf(“”)左右(转)
  6. @property and @synthesize区别
  7. 华为P50系列确定29日发布:但遗憾的是...
  8. 计算机设置定时关机win10,Win10电脑如何设置定时关机?Win10电脑设置定时关机命令...
  9. 活跃android手机,谁能升级2.3?Android手机活跃榜
  10. C语言闰年还是平年问题程序,c语言判断一年是不是闰年,编程错在哪呢?
  11. 伦敦银现的交易时间特点
  12. android 保存图片(视频)到相册
  13. SAP 生产订单/工单状态说明
  14. 图解Java核心架构体系
  15. @Inject与@Injectable
  16. Obama Praises Japanese Partnership
  17. tiny core linux网络连接,用Tiny Core Linux打造纯Firefox上网系统(概要)
  18. hexo博客插入图片与视频方法
  19. 测试开发的瓶颈在哪儿?
  20. lammps代码实例分享

热门文章

  1. 【历史上的今天】4 月 11 日:Apple I 设计完成;微软官宣“告别” Clippy;伯克利计算机先驱出生
  2. 【日语五十音图快速记忆法】(看了这个,真的很好记)
  3. CentOS 7.3上图数据库Neo4j的安装和测试
  4. R-ggplot2 标准中国地图制作
  5. 谷歌翻译下载-免费谷歌翻译软件下载
  6. RHCSA操作第四次作业
  7. Mac OSX常用软件
  8. 猿创征文|当我在追光 我与光同航--我与Java的技术成长之路
  9. 忠告360安全卫士督导委员:小心沦为周鸿一的工具(zz)
  10. java 事件链_供应链攻击事件——针对Github中Java项目的定向攻击