spider-抓取网页内容(Beautiful soup)
http://jingyan.baidu.com/article/afd8f4de6197c834e386e96b.html
http://cuiqingcai.com/1319.html
Windows下安装Beautifulsoup:
1.下载压缩包:https://www.crummy.com/software/BeautifulSoup/#Download
2.将其解压到Python目录下
3.导航到如下目录,然后运行如下命令:
setup.py build
setup.py install
4.进入Python,导入BS模块,表示安装成功
from bs4 import BeautifulSoup
实例:bs抓取天气预报:
# -*- coding: UTF-8 -*-import urllib2,sys,json from json import * from bs4 import BeautifulSoup as bsreload(sys) sys.setdefaultencoding('utf-8')url='http://www.weather.com.cn/weather/101010100.shtml' req = urllib2.Request(url) res = urllib2.urlopen(req).read()soup = bs(res) #print soup.prettify() divsw = soup.find_all('div',class_='c7d',id='7d')[0] #7天的预报内容都在该div下,查询结果为queryset,所以需要使用索引0 divs_date = divsw.find_all('h1') #find date for h in divs_date:print h.stringdivs_wea = divsw.find_all('p',class_='wea') #find weather for p in divs_wea:print p.get('title')divs_tem = divsw.find_all('p',class_='tem') #find weather for tem in divs_tem:tem_max = tem.find('span').stringtem_min = tem.find('i').stringprint tem_min,'-',tem_max
结果:
spider-抓取网页内容(Beautiful soup)相关推荐
- python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容
利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑 收藏 Python 3中提供了url打 ...
- 华为抓取错误日志在哪里_分析Spider抓取情况和SEO优化
搜索引擎蜘蛛网站的爬行应该更值得搜索引擎优化人员的研究.然而,许多搜索引擎优化人员面对搜索引擎抓取从日志中提取的记录,并且不知道要分析什么.下面简要讨论Spider在网站上的爬行值得分析以及分析结果如 ...
- 重庆SEO优化:网站通过SEO优化会有哪些好处以及【SEO优化】 深度了解蜘蛛spider抓取原理-专业SEO技术教程
网站通过SEO优化会有哪些好处 SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...
- java socket抓取资源_Java 通过 Socket 的形式抓取网页内容
package com.hmw.net; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.IO ...
- Asp.Net 之 抓取网页内容
一.获取网页内容--html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
- php 抓取页面图片,php 抓取网页内容与图片的方法
这篇文章主要介绍了关于php 抓取网页内容与图片的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 例子1:<?php include_once("curl.php& ...
- ASP.NET 抓取网页内容
(转)ASP.NET 抓取网页内容 ASP.NET 抓取网页内容-文字 ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest. ...
- ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容 一.ASP.NET 使用HttpWebRequest抓取网页内容 这种方式抓取某些页面会失败 不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
- php 抓取网页内容与图片
例子1: <?phpinclude_once("curl.php");/*这个文件要自己配置好*/header("content-type:text/html;ch ...
最新文章
- JavaScript 输出
- 计算机网络之网络概述:4、分层结构(协议、接口、服务)
- 【BZOJ 1801】【AHOI 2009】中国象棋(递推DP)
- 漫谈边缘计算(四):赢家是软还是硬
- IDEA开发WebService遇到的问题和SOAPUI工具的使用
- [转载] python histogram函数_Python numpy.histogram_bin_edges函数方法的使用
- Spring MVC 中使用AOP 进行统一日志管理--XML配置实现
- linux vi 内存,Vi Linux内存 之 Slub分配器(四)
- textbox++问题 汇总 如:assert len 0 builtin_function_or_method() int()
- windows7计算机不显示u盘,Win7系统U盘文件不显示的三种解决方法
- 路演 - roadshow
- HTTP请求/响应报文结构
- 安利这几个网站和软件给你
- 基础项目-家庭记录收支程序
- python京东抢购软件神器_用Python在京东抢购商品
- jqury ajax 直接获取数据库信息,使用jQuery Ajax从数据库加载信息
- Imagination宣布推出基于RISC-V的CPU产品系列
- BZOJ1616[Usaco2008 Mar]Cow Travelling游荡的奶牛 dp
- 简单 洛谷 P1563 【模拟】玩具谜题普及场
- SUMIF函数的7种使用方法
热门文章
- eclipse和maven
- promiseKit 解析 iOS
- cacti yum快速部署
- 前端重构实践(一) —— 性能优化
- android 4.0 屏蔽home键实现
- Spring MVC中基于自定义Editor的表单数据处理技巧
- android:layout_gravity和android:gravity
- Android调用系统发送短信界面
- 5、urllib.request.urlopen()
- 【码云周刊第 3 期】来自国内开发者的实战项目,开源让通讯从未如此简单!...