python提取网页数据
#coding:utf-8 import urllib2 import os import re def dow(url):return urllib2.urlopen(url).read() str=dow('http://theater.mtime.com/China_Beijing/') lst=re.findall('\d+家影院上映\d+场',str) url = 'http://theater.mtime.com/China_Beijing' req = urllib2.Request(url,headers={'User-Agent' : "Magic Browser"}) webpage = urllib2.urlopen(req) strw = webpage.read() #print strw tg_start = strw.find('hotplaySvList = [') #print tg_start#开始 if tg_start == -1:print 'not find start tag'os._exit(0) tmp = strw[tg_start:-1] tg_end = tmp.find(';')if tg_end == -1 :print 'not find end tag'os._exit(0) tmp = tmp[len('hotplaySvList = ['):tg_end]tar_ls = tmp.split("},{")dict_film = {} i=0 for t0 in tar_ls:ls_t = t0.split(',')id = ls_t[0].split(':')[-1].strip()film = ls_t[-1].split('"')[-2].strip()print id,film,lst[i]i=i+1dict_film[id] = film print len(dict_film)
转载于:https://www.cnblogs.com/doublekai/p/6933119.html
python提取网页数据相关推荐
- 21天Python学习——lxml库与Xpath提取网页数据
活动地址:CSDN21天学习挑战赛 一.爬虫提取网页数据的流程图 图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无 羡ღ的博客-CSDN博客_pyt ...
- 21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据
目录 1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...
- Python 提取网页正文,将网页转为图片!
Python 提取网页正文,将网页转为图片!!! 用到python的newspaper库 from newspaper import Article news = Article(link.strip ...
- python3 提取网页数据
最近一直着魔于怎么提取网页数据,找了好多工具比如BeautifulSoup,html5lib等,功能很强大,觉得太麻烦,自己想试着用正则来提取,因为以前PHP用正则提取过没成功,而且simple_ht ...
- 【Python爬虫】用CSS 选择器提取网页数据
使用 pip 安装 requests_html 库 pip install requests_html 根据你的网络情况,通常需要几分钟时间. 在你的电脑任意位置,新建一个 crawler.py 文件 ...
- python提取网页中表格数据_Python2 BeautifulSoup 提取网页中的表格数据及连接
网址:http://quote.eastmoney.com/ce- 要做的是提取网页中的表格数据(如:板块名称,及相应链接下的所有个股,依然是个表格) 暂时只写了这些代码: import urllib ...
- python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
- [知识图谱实战篇] 三.Python提取JSON数据、HTML+D3构建基本可视化布局
前面作者讲解了很多知识图谱原理知识,包括知识图谱相关技术.Neo4j绘制关系图谱等,但仍缺少一个系统全面的实例.为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者深入学习了张宏 ...
- python提取网页中p标签中的内容_使用Python进行爬虫的初学者指南
前言 爬虫是一种从网站上抓取大量数据的自动化方法.即使是复制和粘贴你喜欢的网站上的引用或行,也是一种web抓取的形式.大多数网站不允许你保存他们网站上的数据供你使用.因此,唯一的选择是手动复制数据,这 ...
最新文章
- java 模式匹配算法_用Java匹配模式
- Windows系统调用学习笔记(三)—— 保存现场
- php怎么实现md5加密,php如何进行md5加密
- JMS ActiveMQ案例
- mmd python error_python_mmdt:一种基于敏感哈希生成特征向量的python库(一)
- Android+微信 弹出层无法滚动?
- VS工程中混有.c文件时出现fatal error C1853错误
- 中兴V889D刷机变砖不用怕 V889D救砖教程发布【转载】
- Android、netassist进行UDP通信
- 数学建模——典型相关分析(CCA)及spss操作过程
- css实现数字钟表字体实现 fonts
- Set接口以及子集合(HashSet/LinkedHashSet/TreeSet)的用法和数据结构
- 视频数据丢失怎么办 怎样找回丢失的视频数据
- catti二级笔译综合能力真题_2017年5月英语二级笔译综合能力试题回忆
- file upload 攻防世界_菜鸡 CTF 之旅 Writeup (攻防世界)
- 微信jssdk录音功能开发记录
- 五,JavaScript数组·上
- CSS学习笔记-—学会用PS切图和取色—day03(基本用法)
- 与计算机硬件关系最密切的软件是A,计算机应用基础试卷A1112_2.doc
- SpringMVC——快速入门
热门文章
- windows下安装以及配置nginx
- IntelliJ IDEA 中的 project 和 module 与Eclipse中workspace和project的关系
- Windows phone 8 学习笔记(8) 定位地图导航
- 在XCode中使用SVN
- leetcode算法题--包含min函数的栈
- OpenStack Neutron浅析(一)
- libpcap-mmap分析(五)
- 电大计算机要学多久,电大计算机应用基础是我们必须要学习的科目吗
- java 定义类变量初始化吗_Java的变量有哪些类型?变量如何定义?如何初始化?请说明理由并举例_学小易找答案...
- WCF单元测试遇到的问题