python提取网页数据

#coding:utf-8
import urllib2
import os
import re
def dow(url):return urllib2.urlopen(url).read()
str=dow('http://theater.mtime.com/China_Beijing/')
lst=re.findall('\d+家影院上映\d+场',str)
url = 'http://theater.mtime.com/China_Beijing'
req = urllib2.Request(url,headers={'User-Agent' : "Magic Browser"})
webpage = urllib2.urlopen(req)
strw = webpage.read()
#print strw
tg_start = strw.find('hotplaySvList = [')
#print tg_start#开始
if tg_start == -1:print 'not find start tag'os._exit(0)
tmp = strw[tg_start:-1]
tg_end = tmp.find(';')if tg_end == -1 :print 'not find end tag'os._exit(0)
tmp = tmp[len('hotplaySvList = ['):tg_end]tar_ls = tmp.split("},{")dict_film = {}
i=0
for t0 in tar_ls:ls_t = t0.split(',')id = ls_t[0].split(':')[-1].strip()film = ls_t[-1].split('"')[-2].strip()print id,film,lst[i]i=i+1dict_film[id] = film
print len(dict_film)

转载于:https://www.cnblogs.com/doublekai/p/6933119.html

python提取网页数据相关推荐

21天Python学习——lxml库与Xpath提取网页数据
活动地址:CSDN21天学习挑战赛一.爬虫提取网页数据的流程图图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无羡ღ的博客-CSDN博客_pyt ...
21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据
目录 1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...
Python 提取网页正文，将网页转为图片!
Python 提取网页正文,将网页转为图片!!! 用到python的newspaper库 from newspaper import Article news = Article(link.strip ...
python3 提取网页数据
最近一直着魔于怎么提取网页数据,找了好多工具比如BeautifulSoup,html5lib等,功能很强大,觉得太麻烦,自己想试着用正则来提取,因为以前PHP用正则提取过没成功,而且simple_ht ...
【Python爬虫】用CSS 选择器提取网页数据
使用 pip 安装 requests_html 库 pip install requests_html 根据你的网络情况,通常需要几分钟时间. 在你的电脑任意位置,新建一个 crawler.py 文件 ...
python提取网页中表格数据_Python2 BeautifulSoup 提取网页中的表格数据及连接
网址:http://quote.eastmoney.com/ce- 要做的是提取网页中的表格数据(如:板块名称,及相应链接下的所有个股,依然是个表格) 暂时只写了这些代码: import urllib ...
python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据？
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
[知识图谱实战篇] 三.Python提取JSON数据、HTML+D3构建基本可视化布局
前面作者讲解了很多知识图谱原理知识,包括知识图谱相关技术.Neo4j绘制关系图谱等,但仍缺少一个系统全面的实例.为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者深入学习了张宏 ...
python提取网页中p标签中的内容_使用Python进行爬虫的初学者指南
前言爬虫是一种从网站上抓取大量数据的自动化方法.即使是复制和粘贴你喜欢的网站上的引用或行,也是一种web抓取的形式.大多数网站不允许你保存他们网站上的数据供你使用.因此,唯一的选择是手动复制数据,这 ...

python提取网页数据

python提取网页数据相关推荐

最新文章

热门文章