python足球联赛赛程_python爬取足球比赛赛程笔记
目标:爬取某网站比赛赛程,动态网页,则需找到对应ajax请求(具体可参考:https://blog.csdn.net/you_are_my_dream/article/details/53399949)
# -*- coding:utf-8 -*-
import sys
import re
import urllib.request
link = "https://***"
r = urllib.request.Request(link)
r.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘)
html = urllib.request.urlopen(r,timeout=500).read()
html = bytes.decode(html,encoding="gbk")
#返回大量json,需提取
#找出返回json中对应正则匹配的字符串
js = re.findall(‘"n":"(.*?)"‘,html)
i=0
#循环打印比赛信息
try:
while(1):#将字符串Unicode转化为中文,并输出
print (js[i].encode(‘utf-8‘).decode(‘unicode_escape‘),js[i+1].encode(‘utf-8‘).decode(‘unicode_escape‘),"VS",js[i+2].encode(‘utf-8‘).decode(‘unicode_escape‘))
i=i+3
#当所有赛程爬取结束时,会报错“IndexError:list index out of range”,所以进行异常处理
except IndexError:
print ("finished")
总结注意点:
1、python 3 采用这个import urllib.request
因为urllib和urllib2合体了。
2、字符串Unicode转为中文需注意python3与python2的表示方法不同:
python3:print 字符串.encode(‘utf-8‘).decode(‘unicode_escape‘)
python2:print 字符串.decode(‘unicode_escape‘)
3、re.findall()
关于这个函数,他的输出内容规律可以参考我之前写的:http://www.cnblogs.com/4wheel/p/8497121.html
"n":"(.*?)" 这个表达式只输出(.*?)这部分(为什么,还是参考我之前写的那篇文章),加上问号就是非贪婪模式,不加就是贪婪模式
顺便实践解释下贪婪模式
example:
总结:非贪婪模式就是在满足正则表达式的情况下,尽可能少的匹配。
相反,贪婪模式就是在满足正则表达式的情况下,尽可能多的匹配。
python足球联赛赛程_python爬取足球比赛赛程笔记相关推荐
- python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........
原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...
- python获取天气分析_Python爬取南京市往年天气预报,使用pyecharts进行分析
上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...
- python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
- python外汇兑换代码_python爬取人民币汇率中间价
python爬取人民币汇率中间价,从最权威的网站中国外汇交易中心. 首先找到相关网页,解析链接,这中间需要经验和耐心,在此不多说. 以人民币兑美元的汇率为例(CNY/USD),脚本详情如下: wind ...
- python制作手机壁纸_Python爬取手机壁纸图片
使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...
- python爬虫好友图片_Python爬取所有微信好友头像,制作微信好友图片墙
今天咱就试试怎么爬取微信列表中所有好友的头像,并做成一张图片墙,代码不长,60 行就可以搞定. 核心是利用三个库:wxpy 库,用于获取好友头像然后下载 Pillow 库,用于拼接头像 Pyinsta ...
- python 制作网站教程_Python爬取网站博客教程并制作成PDF
要把教程变成PDF有三步: 1.先生成空html,爬取每一篇教程放进一个新生成的div,这样就生成了包含所有教程的html文件(BeautifulSoup) 2.将html转换成pdf(wkhtmlt ...
- python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...
1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...
- 爬虫python代码网易云_python爬取网易云音乐热歌榜实例代码
首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...
最新文章
- ImageNet Classification with Deep Convolutional Nerual Networks(AlexNet)
- 电脑常见故障排除方法
- IAR需要注意的地方
- 通过Flume简单实现Kafka与Hive对接(Json格式)
- PDS+VL Motion对发动机曲轴系统不平衡载荷进行仿真分析
- 小森林顺序_这篇微推价值过亿!仁恒公园世纪二期选房顺序“摇号”,1:7!
- 俺也用一下mandriva,恩,KDE的效果的确不错
- PHP错误处理注册机制
- js-实现数组翻转(倒序)
- AsyncTask下载图片
- 计算机网络拓扑结构 教案,计算机网络拓扑结构获奖教案.docx
- 台式计算机把光驱改成硬盘,笔记本电脑光驱怎么改换硬盘?笔记本光驱改装固态硬盘图文教程...
- 软件测试2年,想去培训性能测试自动化测试,28岁了,要不要培训?
- php rsa 模数 指数,密码:使用模数和指数生成RSA私钥
- 关于extern用法说明
- Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for Recommendation
- Linux x8664汇编,xorl%eax,g86生成的x86_64汇编代码中的%eax
- WebPack安装记录
- 【Python核心】字典和集合
- Java笔记018-抽象类、抽象类最佳实践-模板设计模式、接口、内部类
热门文章
- Making Your Own iPhone Frameworks. In Xcode
- IE浏览器下ajax缓存导致数据不更新的解决方法
- nginx产生【413 request entity too large】错误的原因与解决方法
- C# 出现System.TypeInitializationException类型初始值设定项引发异常
- intellij idea的TFS拉取项目文件不完全、文件误删恢复、TFS忽略文件解决方法
- 如何在TypeScript中删除数组项?
- Python字典理解
- 集成Netty|tensorflow实现 聊天AI--PigPig养成记(2)
- MySQL简单快速入门 (三)高级查询——JEPLUS软件快速开发平台
- vue无缝滚动的插件开发填坑分享