python中用Beautifulsoup提取集搜客网站的信息

1爬取集搜客网站上面的信息点击打开链接

2看下这个源代码

3使用正则表达式提取出来

# coding:utf8
import urllib2
import time
from bs4 import BeautifulSoup
class YZW():#先是定义一个模块然后就是用来包含用到的函数def __init__(self):self.user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64)'#设置它的用户代理，模仿浏览器来访问self.header={'User_Agent':self.user_agent}#利用header的字典来传入def getHtml(url,page):try:#运用try except 函数urls='http://www.gooseeker.com/cn/forum/7?page='+str(page)#如果要爬取多页，观察多页网站规律page=urllib2.urlopen(urls)html=page.read()return htmlexcept urllib2.URLError, g:#如果出现URLError的错误，会执行以下代码if hasattr (g,"reason"):print u'loding error', g.reasonreturn Nonedef getitem(self):for i in range(12):html=self.getHtml(i)time.sleep(1)soup=BeautifulSoup(html,"html.parser")Data=soup.find_all('tr',class_='odd')#观察自己要提取信息的标签，然后来提取信息for item in Data:lists = item.get_text("|")#得到其中的文本，然后就是用 | 来代替以前的分割lists = lists.split('|')try:print lists[0],lists[1],lists[3]except:print 'None'Data=soup.find_all('tr',class_='even')for item in Data:lists = item.get_text("|")lists = lists.split('|')

4然后看下这个运行结果

python中用Beautifulsoup提取集搜客网站的信息相关推荐

浅析通用爬虫软件—— 集搜客与八爪鱼采集器
最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:"集搜客"和"八爪鱼",两款软件都有可视化界面,对于编程思维比较薄弱的 ...
xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...
为了爬点小数据同时试用了八爪鱼和集搜客.两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分.不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件.本着能省则省的 ...
采集数据用云服务器与公司网站,网络爬虫软件,企业版,大企业,采集内网数据,私有云部署-集搜客GooSeeker...
爬虫路线规划能力集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度.免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是 ...
使用集搜客爬取酷狗排行歌曲信息
最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用. 1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的 ...
技术博客-集搜客爬虫
集搜客网络爬虫本周对集搜客爬虫软件进行了学习与运用.先是摸清软件的用法与功能,之后对Anmazon网站进行数据采集的实践. 采集列表数据采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一 ...
【01】基础：集搜客爬虫软件安装
前言漫漫网页数据大海洋,有一种数据搬运工的生物存在,他可能是数据分析师.也可能是爬虫工程师.也可能是业务员-等等. 作为一名程序员,接下来的一系列教程不谈编程,来教大家学开车. 是的,你没有听错,就 ...
集搜客网络爬虫 v8.8.0
介绍 1.可视化免编程全图形化操作界面,可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握,只需在网页上点点鼠标操作,即可生成抓取规则 ,抓取结果即时验证 2.模板资源套用资源库有大量的抓取模板, ...
GooSeeKer集搜客工具爬虫入门
一.操作步骤下面用大众点评网作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下: 二.案例规则+操作步骤采集规则:大众点评店铺信息(可点击下载) 样本网址:http://www. ...
python自动评论_python实现博客网站自动评论器
基本需求登录博客园调用评论接口返回请求结果确定流程之后,基本就是找突破口的环节了实际的去评论一下,然后不管你用什么抓包工具都可以,只要抓取到你想要的数据,即可评论API如下 Request ...

python中用Beautifulsoup提取集搜客网站的信息

python中用Beautifulsoup提取集搜客网站的信息相关推荐

最新文章

热门文章