记一次简单爬虫(豆瓣/dytt)

磕磕绊绊学python一个月，这次到正则表达式终于能写点有趣的东西，在此作个记录：

—————————————————————————————————————————————————

1.爬取豆瓣电影榜前250名单

运行环境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)]

成品效果：

相关代码：

 1 from urllib.request import urlopen
 2 import re
 3 # import ssl  # 若有数字签名问题可用
 4 # ssl._create_default_https_context = ssl._create_unverified_context
 5
 6
 7 # 写正则规则
 8 obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?导演:(?P<daoyan>.*?)&nbsp;.*?'
 9                  r'主演:(?P<zhuyan>.*?)<br>\n                            (?P<shijian>.*?)&nbsp;/&nbsp;(?P<diqu>.*?)&nbsp;'
10                  r'/&nbsp;(?P<leixing>.*?)\n.*?<span class="rating_num" property="v:average">(?P<fen>.*?)</span>.*?<span>'
11                  r'(?P<renshu>.*?)评价</span>.*?<span class="inq">(?P<jianping>.*?)</span>',re.S)  # re.S 干掉换行
12
13 # 转码 获取内容
14 def getContent(url):
15     content = urlopen(url).read().decode("utf-8")
16     return content
17
18 # 匹配页面内容 返回一个迭代器
19 def parseContent(content):
20     iiter = obj.finditer(content)
21     for el in iiter:
22         yield {
23             "name":el.group("name"),
24             "daoyan":el.group("daoyan"),
25             "zhuyan":el.group("zhuyan"),
26             "shijian":el.group("shijian"),
27             "diqu":el.group("diqu"),
28             "leixing":el.group("leixing"),
29             "fen":el.group("fen"),
30             "renshu":el.group("renshu"),
31             "jianping":el.group("jianping")
32         }
33
34
35 for i in range(10):
36     url = "https://movie.douban.com/top250?start=%s&filter=" % (i*25)  # 循环页面10
37     print(url)
38     g = parseContent(getContent(url))  # 匹配获取的内容返回给g
39     f = open("douban_movie.txt",mode="a",encoding="utf-8")
40     for el in g:
41         f.write(str(el)+"\n")  # 写入到txt 注意加上换行
42
43     # f.write("==============================================")  # 测试分页
44     f.close()

2.爬取某站最新电影和下载地址

运行环境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)]

成品效果：

记一次简单爬虫(豆瓣/dytt)相关推荐

Python基础的学习和简单爬虫的编写
一.Python基础的学习观看B站up GenJi是真的想教会你的视频结合RUNOOB.COM进行学习二.简单爬虫的编写爬虫实现的功能: 爬取豆瓣电影top250的电影名称.电影信息.评分.评 ...
python 百度百科爬虫_python简单爬虫
爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...
python编写爬虫代码_python编写简单爬虫资料汇总
爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...
python3爬虫豆瓣_Python爬虫（3）豆瓣登录
前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站. 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取.经过测试发现,微博,知乎都不是很好登录,知乎有时 ...
爬虫-豆瓣书籍排行榜及用户信息-2021.7.23-使用Scrapy框架-用MongoDB存储数据
1.环境 python3.8或python3.7 pycharm2021.2 MongoDB Scrapy 2.信息提取 2.1 创建Scrapy项目在cmd模式下创建Scrapy项目 # 进入要存 ...
Python爬虫豆瓣电影top250
我的另一篇博客,Python爬虫豆瓣读书评分9分以上榜单有了上次的基础,这次简单爬了下豆瓣上电影TOP250,链接豆瓣电影TOP250. 打开链接,查看网页源代码,查找我们需要的信息的字 ...
爬虫——豆瓣电影top250
爬虫--豆瓣电影top250 无论是动态网页爬虫和静态网页爬虫,实现的思路基本上都是获取页面 html.页面解析.数据保存或输出.虽然获取页面 html 以及数据保存都已经封装为通用函数,但依然编 ...
python秒懂百科视频,Python开发简单爬虫
Python开发简单爬虫源码网址: http://download.csdn.NET/detail/hanchaobiao/9860671 一.爬虫的简介及爬虫技术价值 1.什么是爬虫: 一段自动 ...
记一次企业级爬虫系统升级改造（四）：爬取微信公众号文章（通过搜狗与新榜等第三方平台）
首先表示抱歉,年底大家都懂的,又涉及SupportYun系统V1.0上线.故而第四篇文章来的有点晚了些~~~对关注的朋友说声sorry! SupportYun系统当前一览: 首先说一下,文章的进度一直 ...
记一次企业级爬虫系统升级改造（四）：爬取微信公众号文章（通过搜狗与新榜等第三方平台）...
首先表示抱歉,年底大家都懂的,又涉及SupportYun系统V1.0上线.故而第四篇文章来的有点晚了些~~~对关注的朋友说声sorry! SupportYun系统当前一览: 首先说一下,文章的进度一直 ...

记一次简单爬虫(豆瓣/dytt)

记一次简单爬虫(豆瓣/dytt)相关推荐

最新文章

热门文章