python足球联赛赛程_python爬取足球比赛赛程笔记

目标：爬取某网站比赛赛程，动态网页，则需找到对应ajax请求(具体可参考：https://blog.csdn.net/you_are_my_dream/article/details/53399949)

# -*- coding:utf-8 -*-

import sys

import re

import urllib.request

link = "https://***"

r = urllib.request.Request(link)

r.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘)

html = urllib.request.urlopen(r,timeout=500).read()

html = bytes.decode(html,encoding="gbk")

#返回大量json，需提取

#找出返回json中对应正则匹配的字符串

js = re.findall(‘"n":"(.*?)"‘,html)

i=0

#循环打印比赛信息

try:

while(1):#将字符串Unicode转化为中文，并输出

print (js[i].encode(‘utf-8‘).decode(‘unicode_escape‘),js[i+1].encode(‘utf-8‘).decode(‘unicode_escape‘),"VS",js[i+2].encode(‘utf-8‘).decode(‘unicode_escape‘))

i=i+3

#当所有赛程爬取结束时，会报错“IndexError:list index out of range”，所以进行异常处理

except IndexError:

print ("finished")

总结注意点：

1、python 3 采用这个import urllib.request

因为urllib和urllib2合体了。

2、字符串Unicode转为中文需注意python3与python2的表示方法不同：

python3：print 字符串.encode(‘utf-8‘).decode(‘unicode_escape‘)

python2：print 字符串.decode(‘unicode_escape‘)

3、re.findall()

关于这个函数，他的输出内容规律可以参考我之前写的：http://www.cnblogs.com/4wheel/p/8497121.html

"n":"(.*?)" 这个表达式只输出(.*?)这部分(为什么，还是参考我之前写的那篇文章)，加上问号就是非贪婪模式，不加就是贪婪模式

顺便实践解释下贪婪模式

example：

总结：非贪婪模式就是在满足正则表达式的情况下，尽可能少的匹配。

相反，贪婪模式就是在满足正则表达式的情况下，尽可能多的匹配。

python足球联赛赛程_python爬取足球比赛赛程笔记相关推荐

python获取游戏数据_Python 爬取 3 万条游戏评分数据，原来程序员最爱玩的游戏竟然是.........
原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...
python获取天气分析_Python爬取南京市往年天气预报，使用pyecharts进行分析
上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...
python分析b站_Python爬取并分析B站最热排行榜，我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
python外汇兑换代码_python爬取人民币汇率中间价
python爬取人民币汇率中间价,从最权威的网站中国外汇交易中心. 首先找到相关网页,解析链接,这中间需要经验和耐心,在此不多说. 以人民币兑美元的汇率为例(CNY/USD),脚本详情如下: wind ...
python制作手机壁纸_Python爬取手机壁纸图片
使用Python爬取图片. 1 说明本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...
python爬虫好友图片_Python爬取所有微信好友头像，制作微信好友图片墙
今天咱就试试怎么爬取微信列表中所有好友的头像,并做成一张图片墙,代码不长,60 行就可以搞定. 核心是利用三个库:wxpy 库,用于获取好友头像然后下载 Pillow 库,用于拼接头像 Pyinsta ...
python 制作网站教程_Python爬取网站博客教程并制作成PDF
要把教程变成PDF有三步: 1.先生成空html,爬取每一篇教程放进一个新生成的div,这样就生成了包含所有教程的html文件(BeautifulSoup) 2.将html转换成pdf(wkhtmlt ...
python微博爬虫分析_python爬取和分析新浪微博（一）：scrapy构建新浪微博榜单、博主及微博信息爬虫...
1. 爬虫项目介绍爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...
爬虫python代码网易云_python爬取网易云音乐热歌榜实例代码
首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

python足球联赛赛程_python爬取足球比赛赛程笔记

python足球联赛赛程_python爬取足球比赛赛程笔记相关推荐

最新文章

热门文章