爬取猫眼top100并存入csv文件中

使用python爬虫爬取猫眼电影top100

import requests
import re
import csvif __name__=="__main__":headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4533.400','cookie': '_lxsdk_cuid=17d0f62debfc8-09e4fac62d84aa-3354417a-1fa400-17d0f62dec0c8; uuid_n_v=v1; uuid=582D8EA067CD11EC87FF41B58677579835E32572E21D4849B2F79FE6371BAFB4; _csrf=3be8f03db07ebdc616f0ab10704dca9c93c34a68200c6c288766bfb601fa768c; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1640689219; _lxsdk=582D8EA067CD11EC87FF41B58677579835E32572E21D4849B2F79FE6371BAFB4; uid=747632158; uid.sig=GeqQIL9qRi6J9Wrytom7Z5gTRMQ; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1640695325; __mta=256733492.1636640677618.1640695323364.1640695325938.25; _lxsdk_s=17e00f5674b-4f9-d75-f66%7C%7C30'}url0 = 'https://www.maoyan.com'datapacket = []pattern = re.compile('<dd>.*?board-index.*?>(\d+)<.*?href="(.*?)".*?title="(.*?)"'+ '.*?star">[\\s]*(.*?)[\\n][\\s]*</p>.*?'+ 'releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?'+ 'fraction">(.*?)</i>.*?</dd>', re.S)# 第1页网址https://maoyan.com/board/4?offset=0，第2页网址https://maoyan.com/board/4?offset=10，依次类推for i in range(0, 10):url = 'https://www.maoyan.com/board/4?offset=' + str(i * 10)# use threadresp = requests.get(url=url, headers=headers)html_data = resp.textif resp.url != url:print('\n')print(resp.url)print('\n' + 'Sorry, you have encountered the anti-crawl verification mechanism of maoyan eye website! Please hold down the Ctrl key to click on the above url for verification, re-run the program!')breakelse:items = re.findall(pattern, html_data)for item in items:url1 = url0 + item[1]resp = requests.get(url=url1, headers=headers)# Check if anti-crawl mechanism is encounteredif resp.url != url1:print(resp.url)print('Sorry, you have encountered the anti-crawl verification mechanism of maoyan eye website! Please hold down the Ctrl key to click on the above url for verification, re-run the program!')breakelse:html_data = resp.text# 获取电影类型(type)html = re.compile('<a.*?class="text-link.*?target="_blank">(.*?)</a>', re.S)types = re.findall(html, html_data)type = ''for i in types:type = i + type# 获取电影时长(duration)html = re.compile('<ul>.*?class="ellipsis">.*?class="ellipsis">(.*?)</li>', re.S)duration = re.findall(html, html_data)duration = duration[0].strip()[-5:]# 获取导演信息(director)html = re.compile('导演.*?<a.*?target="_blank".*?class="name">(.*?)</a>', re.S)director = re.findall(html, html_data)# 获取第一个导演信息（字符串格式）director = (director[0].strip())# 获取累计票房收入(income)html = re.compile('film-mbox.*?film-mbox-item.*?"mbox-name ".*?"mbox-name ">(.*?)</div>', re.S)income = re.findall(html, html_data)income = tuple(income)filmdata = (item[0],) + (item[2],) + (type,) + (director,) + (item[3][3:],) + (item[4][5:],) + (duration,) + (item[5] + item[6],) + incomedatapacket.append(list(filmdata))# 写入csv文件with open('./猫眼top100.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:writer = csv.writer(csvfile)header = ['排序number', '片名title', '类型type', '导演director', '主演actors', '上映时间date', '片长duration', '评分rating','累计收入income（万元）']writer.writerow(header)writer.writerows(datapacket)print('\n\n' + '程序运行完毕,猫眼top100.csv文件存放在Python默认文件夹内。')

如果爬不下来，可以尝试更换一下cookie，然后再进行爬取

爬取猫眼top100并存入csv文件中相关推荐

Scrapy爬取豆瓣图书详情存入CSV并导入MySQL
目录前言一.新建爬虫工程二.修改settings.py文件三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果八.后言前言 ...
python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
小爬虫爬取小猫咪图片并存入本地文件夹
小爬虫爬取小猫咪图片并存入本地文件夹本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没 ...
Python3爬取豆瓣图书Top250并存入csv文件中
本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...
用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载
用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...
python爬新闻并保存csv_用python爬取内容怎么存入 csv 文件中
小白一个,爬取豆瓣电影250作为练习,想把爬取的内容用csv存储,想存但是不知道怎么自己原来代码拼接在一起. ps:非伸手党,查阅了官方文档,也做了csv读写的练习,就是拼不到一起,不知道该怎么改.求 ...
爬取猫眼top100的电影图片，名称，时间，评分等信息
一.准备工作 1.安装python 首先,下载Python3,这里使用Python3.7.1版本,64位. 地址链接:https://www.python.org/downloads/ 双击打开,进行 ...
爬取猫眼 TOP100 电影并以 excel 格式存储
爬取目标本文将提取猫眼电影 TOP100 排行榜的电影名称.时间.评分.图片等信息,URL 为http://maoyan.com/board/4,提取的结果我们以 excel 格式保存下来. 准备工 ...
Scrapy爬取贝壳网并存入csv
一.分析目标站点本文以爬取宁波地区的房产信息为例 1.宁波整个市页面宁波地区的网址都是以上面的格式,再加上各个区的拼音,即可进入各个区的网页. 各个区的名称: areas = {'海曙区': 'h ...

爬取猫眼top100并存入csv文件中

爬取猫眼top100并存入csv文件中相关推荐

最新文章

热门文章