利用python抓取网页各种类型内容（静态、动态）

声明：

本实验的操作系统是ubuntu,python 2.X

Code-1:抓取静态的title数据（无需登录用户）

获取淘宝主页的页面静态数据

url:http://www.taobao.com

#!/usr/bin/env   python
#-*- coding: utf-8 -*-
#@author   Amiber
#@date 2012-12-01
#@brief grap the static-web data with chinese languagfrom BeautifulSoup import BeautifulSoup
import urllib2url = r"http://www.taobao.com"resContent = urllib2.urlopen(url).read()
resContent = resContent.decode('gbk').encode('utf8')soup = BeautifulSoup(resContent)print soup.title.stringurl = r"http://www.news.baidu.com"
resContent = urllib2.urlopen(url).read().decode('gb18030').encode('utf8')soup = BeautifulSoup(resContent)print soup.title.string

Code-2:抓取静态网页中的table数据（无需登录用户）

获取的是国家统计局一个网上上的静态表格数据

#!/usr/bin/env   python
#!-*- coding:utf-8 -*-
#@author   Amiber
#@date 2012-12-01
#@brief grap the table-data in static-webfrom BeautifulSoup import BeautifulSoup
import urllib2
import re
import stringdef earse(strline,ch) :left = 0right = strline.find(ch)while right !=-1 :strline = strline.replace(ch,'')right = strline.find(ch)return strlineurl = r"http://www.bjstats.gov.cn/sjfb/bssj/jdsj/2012/201211/t20121130_239295.htm"resContent = urllib2.urlopen(url).read()resContent = resContent.decode('gb18030').encode('utf8')soup = BeautifulSoup(resContent)print soup('title')[0].stringtab= soup.findAll('table')trs = tab[len(tab)-1].findAll('tr')for trIter in trs :tds = trIter.findAll('td')for tdIter in tds :span = tdIter('span')for i in range(len(span)) :if span[i].string :print earse(span[i].string,' ').strip(),else :passprint

Code-3:抓取静态网页中的文档数据（无需登录用户）

获取的是一个bbs网站的一个zip文档数据

#!/usr/bin/env   python
#!-*- coding:utf-8 -*-
#@author   Amiber
#@date 2012-12-01
#@brief download  the file from  web-sitefrom BeautifulSoup import BeautifulSoup
import urllib2
import string
import reurl = r"http://bbs.for68.com/getresource.php?rid=59906"re = urllib2.Request(url)rs = urllib2.urlopen(re).read()open('down.tar','wb').write(rs)

Code-4:抓取静态网页中的图片数据（无需登录用户）

获取一个网站上的图片数据

#!/usr/bin/env   python
#!-*- coding: utf-8 -*-
#@author   Amiber
#@date 2012-12-01
#@brieffrom BeautifulSoup import BeautifulSoup
import urllib2
import re
import stringurl = r"http://tu.365imgs.cn/img/h005/h84/img20121127094009JEn0.jpg"re = urllib2.Request(url)resouce = urllib2.urlopen(re).read()open("wall.jpg","wb").write(resouce)

Code-5:抓取静态网页中的数据（登录用户）

这个例子是参考了一个博客，登录人人网站并且抓取登录后的网页

#!/usr/bin/env   python
#!-*- coding: utf-8 -*-
#@author Amiber
#@date 2012-12-02
#@brief grap the data when log is neededimport urllib
import urllib2
import cookielib
from BeautifulSoup import BeautifulSoup
import string
import remyCookie = urllib2.HTTPCookieProcessor(cookielib.CookieJar())
openner = urllib2.build_opener(myCookie)post_data = {'email':'XXXXXXXX','password':'YYYYYYYYY','origURL':'http://www.renren.com/Home.do','domain':'renren.com'
}req = urllib2.Request('http://www.renren.com/PLogin.do',urllib.urlencode(post_data))resContent = openner.open(req).read()soup =  BeautifulSoup(resContent)print soup.prettify()

Code-6:抓取动态网页中的查询-1数据（无需登录用户）

此类别的查询数据是，当你改变查询条件，整个url都变。下面以抓取天气预报网站上的查询数据为例子

#!/usr/bin/env   python
#!-*- coding: utf-8 -*-
#@author   Amiber
#@date 2012-12-02
#@brief grap the query-data in static -web
#@brief the difference is that when you change your query,the url is differentfrom BeautifulSoup import BeautifulSoup
import urllib2
import re
import string
import sys
import codecsurl = r"http://www.weather.com.cn/weather/101070105.shtml"lookutf_8 = codecs.lookup('utf8')resContent = urllib2.urlopen(url).read()resContent = lookutf_8.decode(resContent)[0]
resContent = lookutf_8.encode(resContent)[0]soup = BeautifulSoup(resContent)weatherYuBao = soup.findAll('div',id='7d')
print weatherYuBaourl = r"http://www.weather.com.cn/weather/101010100.shtml?"resContent = urllib2.urlopen(url).read()resContent = lookutf_8.decode(resContent)[0]
resContent = lookutf_8.encode(resContent)[0]soup =BeautifulSoup(resContent)weatherYuBao = soup.findAll('div',id='7d')
print weatherYuBao

code-7:抓取动态网页中的查询-2数据（无需登录用户）

抓取的数据是互动百科的分类数，网址为：http://www.hudong.com/category/treeManage.jsp

通过对原网页代码研究：view-source:http://www.hudong.com/category/treeManage.jsp

可以找到js文件：http://www.huimg.cn/fenlei/js/Ajax_cate20111205.js

找到url的生成js函数为：searchcate

从而可以推断出ajax数据生成的url为：http://www.hudong.com/category/Ajax_cate.jsp?catename=%query%

#!/usr/bin/env   python
#!-*- coding: utf-8 -*-
#@author   Amiber
#@date 2012-12-02
#@brief    grep the hudong-tree-structor#keyUrl[0] = "http://www.hudong.con/category/treeManager.jsp"
#keyUrl[1] = "http://www.huimg.cn/fenlei/js/Ajax_cate20111205.js"
#KeyUrl[2] = "http://www.hudong/category/Ajax_cate.jsp?catename=%query%"from BeautifulSoup import BeautifulSoup
import re
import string
import urllib2
import codecs
import Queuebaseurl = "http://www.hudong.com/category/Ajax_cate.jsp?catename="def getAllCategory(contentList,query) :'''recusive get the tree-structure'''url = baseurl+urllib2.quote(query)resContent = urllib2.urlopen(url).read()if len(resContent) > 3 and resContent.find('}') !=-1 :resContent = resContent[2:len(resContent)-3]else :contentList.append([])return soup = BeautifulSoup(resContent)content = soup.__str__().split('},')conList = []print query,":",for cIter in content :tmpList = map(lambda str: str.strip('"').rstrip('"}]'),cIter.split(':'))elist =[]elist.append(tmpList[len(tmpList)-1])print tmpList[len(tmpList)-1],conList.append(elist)printcontentList.append(conList)for cLIter in conList :getAllCategory(cLIter,cLIter[0])def main() :query="页面总分类"url = baseurl+urllib2.quote(query)resContent = urllib2.urlopen(url).read()lookutf_8 = codecs.lookup('utf8')if len(resContent) >3 :resContent = resContent[2:len(resContent)-3]soup = BeautifulSoup(resContent)print query,": ",content = soup.__str__().split('},')contentList = []for cIter in content :tmpList = map(lambda str: str.strip('"').rstrip('"}]'),cIter.split(':'))elist = []elist.append(tmpList[len(tmpList)-1])print tmpList[len(tmpList)-1],contentList.append(elist)print for cIter in contentList :getAllCategory(cIter,cIter[0])print if __name__ == '__main__' :main()

Notice:考虑到速度问题，可以在迭代求子分类的时候采用多线程，因为分类中间彼此独立

生成数据部分显示：

页面总分类 : 自然文化人物历史生活社会艺术经济科学体育技术地理 HOT
自然 : 植物动物自然现象自然资源环境保护微生物宇宙天文生物自然理论自然遗产地质灾害生物分类
植物 : 种子植物藻类植物农作物植物理论各类型植物珍稀濒危植物蕨类植物各国植物苔藓类植物菌类植物地衣植物苔藓植物植物栽培园林植物热带植物植物分类表绿色植物水生植物
种子植物 : 裸子植物
裸子植物 : 裸子植物名称
农作物 : 玉米
植物理论 : 植物科名生命植物科属植物分类植物学名词
生命 : 元素
各类型植物 : 草本植物可以食用的植物观赏植物被子植物分支竹孑遗植物有毒植物食肉植物木本植物著名植物药用植物一年生植物捕虫植物形形色色植物趣味植物受保护植物罕见植物园林绿化植物经济植物各类植物名称低等植物高等植物花木中国进境植物检疫危险性病虫草植物名称双子叶植物藤本植物浮游植物沙漠植物
草本植物 : 草本
可以食用的植物 : 水果蔬菜茶调味品草本茶谷类香草可食用果仁玉米
水果 : 水果种类减肥水果果汁水果梨
水果种类 : 浆果核果坚果仁果柑橘瓜
仁果 : ć˘¨
瓜 : 西瓜
果汁水果 : 防腐剂纤维素维生素C
蔬菜 : 食用菌蔬菜种植蔬菜配送蔬菜农药脱水蔬菜蔬菜种子野菜
蔬菜配送 : 食堂管理农副产品
蔬菜农药 : 定量分析工商局
茶 : 茶学茶文化中国各种茶名中国名茶茶的种类
茶学 : 茶文化茶学文献
茶文化 : 茶具茶道茶艺制茶方法茶健康
茶具 : 茶杯茶壶
茶壶 : 紫砂壶
茶道 : 日本茶道
茶文化 : 茶具茶道茶艺制茶方法茶健康
茶具 : 茶杯茶壶
茶壶 : 紫砂壶
茶道 : 日本茶道
中国名茶 : 铁观音普洱茶
茶的种类 : 白茶绿茶黑茶红茶黄茶花茶草本茶凉茶乌龙茶紧压茶普洱茶别类茶
调味品 : 甜味剂酱香草广东调味料亚洲调味料醋食盐烹调调料调料
甜味剂 : 二糖
酱 : 酱油咖哩
咖哩 : 咖哩食品
广东调味料 : 香港调味料
烹调调料 : 香料
调料 : 烹调调料
烹调调料 : 香料
谷类 : 谷类食品水稻
谷类食品 : 面粉制品稻米食品
面粉制品 : 面包面条蛋糕饼干烤饼油炸面食
面包 : 三明治饼店
面条 : 即食面意式面食中式面条日式面条
日式面条 : 日本面条食品
蛋糕 : 饼店
饼干 : 饼店馅饼
稻米食品 : 饭粥糯米食品
饭 : 炒饭寿司
水稻 : 杂交水稻
观赏植物 : 观叶植物
被子植物分支 : 单子叶植物分支木兰分支睡莲科金鱼藻目木兰藤目金粟兰科无油樟科
单子叶植物分支 : 鸭跖草分支天门冬目薯蓣目无叶莲科
鸭跖草分支 : 禾本目
禾本目 : 禾本科莎草科梭子草科香蒲科凤梨科灯心草科帚灯草科黑三棱科黄眼草科苔草科刺鳞草科须叶藤科谷精草科
禾本科 : 结缕草属画眉草属芨芨草属酸竹属尖稃草属凤头黍属山羊草属獐毛属冰草属剪股颖属银须草属毛颖草属看麦娘属悬竹属须芒草属异颖草属黄花茅属水蔗草属楔颖草属三芒草属燕麦草属荩草属野古草属芦竹属沟稃草属燕麦属地毯草属簕竹属巴山木竹属菵草属孔颖草属格兰马草属臂形草属短颖草属短柄草属短穗竹属凌风草属雀麦属扁穗草属野牛草属拂子茅属细柄草属沿沟草属小沿沟草属蒺藜草属酸模芒属空竹属山涧草属寒竹属香竹属虎尾草属金须茅属单蕊草属隐子草属小丽草属空轴茅属薏苡属莎禾属蒲苇属隐花草属香茅属狗牙根属洋狗尾草属弓果黍属鸭茅属龙爪茅属扁芒草属绿竹属牡竹属发草属羽穗草属野青茅属双药芒属龙常草属二型花属双花草属马唐属觿茅属弯穗草属双稃草属镰序竹属毛蕊草属油芒属稗属穇属披碱草属偃麦草属总苞草属九顶草属肠须草属细画眉草属蜈蚣草属旱禾属旱茅属旱麦草属鹧鸪草属蔗茅属野黍属类蜀黍属黄金茅属拟金茅属真穗草属箭竹属铁竹属羊茅属耳稃草属井冈寒竹属吉曼草属巨竹属甜茅属球穗草属镰稃草属异燕麦属牛鞭草属假蛇尾草属黄茅属茅香属绒毛草属大麦属水禾属膜稃草属苞茅属猬草属距花黍属白茅属箬竹属大节竹属柳叶箬属鸭嘴草属旱莠竹属假稻属囊稃竹属千金子属薄稃草属细穗草属银穗草属赖草属单竹属扇穗茅属黑麦草属淡竹叶属臭草属糖蜜草属梨藤竹属梨竹属月月竹属异枝竹属小草属莠竹属粟草属芒属毛俭草属麦氏草属单枝竹属乱子草属河八王属山鸡谷草属新小竹属慈竹属类芦属少穗竹属蛇尾草属求米草属固沙草属直芒草属稻属落芒草属露籽草属黍属假拟沿沟草属假牛鞭草属类雀稗属雀稗属狼尾草属茅根属束尾草属显子草属虉草属梯牧草属芦苇属刚竹属大明竹属早熟禾属金发草属棒头草属多裔草属单序草属沙鞭属新麦草属假铁秆草属钩毛草属假金发草属伪针茅属矢竹属泡竹属细柄茅属碱茅属筇竹属红毛草属鹅观草属筒轴茅属甘蔗属囊颖草属赤竹属齿稃草属裂稃茅属硬草属水茅属黑麦属沟颖草属业平竹属狗尾草属刺毛头黍属倭竹属唐竹属三蕊草属高粱属米草属稗荩属鬣刺属大油芒属鼠尾栗属钝叶草属冠毛草属针茅属坚轴草属筱竹属菅属蒭雷草属锥茅属泰竹属粽叶芦属钝基草属锋芒草属荻属三角草属草沙蚕属磨擦草属三毛草属小麦属尾稃草属香根草属鼠茅属玉山竹属玉蜀黍属菰属裂稃草属

利用python抓取网页各种类型内容（静态、动态）相关推荐

利用python抓取网页上的数独，并用回溯法破解
这里抓取的是https://www.oubk.com/上不用登陆就能查看的数独以下是抓取数独的代码: class Crawl_shudu(object):def __init__(self,url) ...
利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数 ...
python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程
如何利用Python抓取PDF中的某些内容学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...
python抓取网页文章_使用Python从公共API抓取新闻和文章
python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...
利用Python抓取搜索引擎结果
前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路. 1. 搜索引擎的选取选择一个好的搜索引擎 ...
python 搜索引擎_利用Python抓取搜索引擎结果
前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路. 1. 搜索引擎的选取选择一个好的搜索引擎 ...
Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
php抓取标签内的内容,php抓取网页中的内容
以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_contents PHP代码代码如下:>>>>>>>>>>> ...
pythonallowpos_利用Python抓取并分析京东商品评论数据
2.1 内容简介本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...

利用python抓取网页各种类型内容（静态、动态）

利用python抓取网页各种类型内容（静态、动态）相关推荐

最新文章

热门文章