python中用Beautifulsoup提取集搜客网站的信息
1爬取集搜客网站上面的信息点击打开链接
2看下这个源代码
3使用正则表达式提取出来
# coding:utf8
import urllib2
import time
from bs4 import BeautifulSoup
class YZW():#先是定义一个模块然后就是用来包含用到的函数def __init__(self):self.user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64)'#设置它的用户代理,模仿浏览器来访问self.header={'User_Agent':self.user_agent}#利用header的字典来传入def getHtml(url,page):try:#运用try except 函数urls='http://www.gooseeker.com/cn/forum/7?page='+str(page)#如果要爬取多页,观察多页网站规律page=urllib2.urlopen(urls)html=page.read()return htmlexcept urllib2.URLError, g:#如果出现URLError的错误,会执行以下代码if hasattr (g,"reason"):print u'loding error', g.reasonreturn Nonedef getitem(self):for i in range(12):html=self.getHtml(i)time.sleep(1)soup=BeautifulSoup(html,"html.parser")Data=soup.find_all('tr',class_='odd')#观察自己要提取信息的标签,然后来提取信息for item in Data:lists = item.get_text("|")#得到其中的文本,然后就是用 | 来代替以前的分割lists = lists.split('|')try:print lists[0],lists[1],lists[3]except:print 'None'Data=soup.find_all('tr',class_='even')for item in Data:lists = item.get_text("|")lists = lists.split('|')
4然后看下这个运行结果
python中用Beautifulsoup提取集搜客网站的信息相关推荐
- 浅析通用爬虫软件—— 集搜客与八爪鱼采集器
最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:"集搜客"和"八爪鱼",两款软件都有可视化界面,对于编程思维比较薄弱的 ...
- xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...
为了爬点小数据同时试用了八爪鱼和集搜客.两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分.不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件.本着能省则省的 ...
- 采集数据用云服务器与公司网站,网络爬虫软件,企业版,大企业,采集内网数据,私有云部署-集搜客GooSeeker...
爬虫路线规划能力 集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度.免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是 ...
- 使用集搜客爬取酷狗排行歌曲信息
最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用. 1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的 ...
- 技术博客-集搜客爬虫
集搜客网络爬虫 本周对集搜客爬虫软件进行了学习与运用.先是摸清软件的用法与功能,之后对Anmazon网站进行数据采集的实践. 采集列表数据 采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一 ...
- 【01】基础:集搜客爬虫软件安装
前言 漫漫网页数据大海洋,有一种数据搬运工的生物存在,他可能是数据分析师.也可能是爬虫工程师.也可能是业务员-等等. 作为一名程序员,接下来的一系列教程不谈编程,来教大家学开车. 是的,你没有听错,就 ...
- 集搜客网络爬虫 v8.8.0
介绍 1.可视化免编程 全图形化操作界面,可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握,只需在网页上点点鼠标操作,即可生成抓取规则 ,抓取结果即时验证 2.模板资源套用 资源库有大量的抓取模板, ...
- GooSeeKer集搜客工具爬虫入门
一.操作步骤 下面用大众点评网作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下: 二.案例规则+操作步骤 采集规则:大众点评店铺信息(可点击下载) 样本网址:http://www. ...
- python自动评论_python实现博客网站自动评论器
基本需求 登录博客园 调用评论接口 返回请求结果 确定流程之后,基本就是找突破口的环节了 实际的去评论一下,然后不管你用什么抓包工具都可以,只要抓取到你想要的数据,即可 评论API如下 Request ...
最新文章
- Subversion(SVN)安装文档
- hdu oj1094题解
- 共享单车数据集_共享单车数据可视化报告
- 什么是单页应用(转)
- oracle中的序列 cache,oracle row cache lock 之sequence
- Python框架篇之Django(路由系统URL、视图函数views)
- java实训自我总结_java实训个人总结
- 影响世界的77部文学名著
- 一文带你了解云原生安全 | 云安全解决方案(CASB、CSPM、CWPP、CNAPP)
- 如何检测android手机是否支持3g网络或者4g网络 源码,iOS中怎么判断当前网络环境是2G/3G/4G/5G/WiFi...
- R语言逻辑回归Logistic回归分析预测股票涨跌
- KDEUnivariate.fit 参数详解
- nodeJS+mysql+连接池——连接池的创建和使用
- Python实现二维离散卷积运算
- C语言实现的BP神经网络算法(1)-BPANN原理
- 一、机器学习实战之K-近邻算法
- 首届“攀升玩创嘉年华”端午江城噶事!
- 2021年度中国科学之十大进展
- HDFS的DN退役以及如何加快DN退役速度
- 2020-12-02 PMP 群内练习题 - 光环