爬取电影天堂电影信息
思路:使用requests库获取网页源代码,使用BeautifulSoup解析网页源代码,然后使用css选择器获取数据
源代码:
import requests
from bs4 import BeautifulSoupdef get_pages(url):"""获取网页源代码"""response = requests.get(url)content = response.text.encode('iso-8859-1').decode('gbk')#获取网页源代码并编码转换return contentdef get_data(html,class_name):"""得到数据"""soup = BeautifulSoup(html,'lxml')container = soup.select(class_name+' ul tr')[1:]#得到class_name类名下的tr,注意返回列表# print(container)for tr in container:a = tr.select('td a')#获取td下的a,返回列表date = tr.select('td font')[0].text#得到日期category = a[0].text#得到类别url = 'http://www.dytt8.net'+ a[1]['href']#得到urlmovie = a[1].text#得到电影名称print(category,url,movie,date)def main():url = 'http://www.dytt8.net'html = get_pages(url)#网页源代码class_name = '.co_content8'#class名get_data(html,class_name)#得到.co_content8类名下的数据class_name = '.co_content3'get_data(html,class_name)if __name__ == '__main__':main()
爬取电影天堂电影信息相关推荐
- 使用requests库和lxml解析爬取电影天堂电影信息
使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载.快速获得最新最全电影资源! 站点分析 以电影天堂国内电影为例 http://www.ygdy8.net/html/ ...
- requests+xpath爬取电影天堂电影信息
电影天地网址:http://www.ygdy8.net/html/gndy/china/list_4_1.html 目标: 1.爬取电影天堂的国内电影一栏的所有电影的url 2.进入每个电影的url获 ...
- python3爬虫:爬取电影天堂电影信息
python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...
- python爬取电影天堂电影信息
from lxml import etree import requests # url='https://www.dytt8.net/html/gndy/dyzz/index.html' heade ...
- python爬电影天堂_python爬虫爬取电影天堂电影
python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!
以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...
- 大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...
- Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
- 爬取电影天堂电影列表和详情页
爬取电影天堂电影列表和详情页 import requests from lxml import etreebase_list_url = 'https://www.dytt8.net'headers ...
最新文章
- 一篇文章搞懂人脸识别的十大过程
- onInterceptTouchEvent和onTouchEvent调用时序
- go build命令详解
- Spring Boot @ConfigurationProperties注解的使用
- Html的一些小东西
- mac下android环境搭建笔记(android studio)
- 作者:单志广(1974-),男,博士,国家信息中心信息化研究部副主任
- ***redis linux 命令使用总结
- 网络爬虫抓包使用及通过表单请求
- 4核处理器_4核、6核以及8核 游戏玩家如何按需购买CPU
- Android之Button按钮
- Dz插件-Discuz插件-免费Discuz采集伪原创发布插件
- IntelliJ IDEA导出jar包
- Word怎么删除空白页?6个方法随便用!
- 【Codeforces633H】Fibonacci-ish II
- 程序流程图、N-S图、PAD图
- 有云说 | 直播火爆的真正原因是什么?
- 广州你让我泪流满面1
- c语言实验作业在dev蜗居的思路,C语言程序设计实验(共5篇)
- 高等数值计算方法学习笔记第4章第二部分【数值积分(数值微分)】
热门文章
- 计算机辅助训练对吞咽障碍,计算机辅助认知功能训练对脑卒中后认知期吞咽障碍的疗效...
- 不能上美国邮箱服务器地址,我的邮箱不能接收国外的邮件,国内的可以接收,请解决!...
- 初次进入职场如何工作与学习
- 达芬奇密码 第七十四章
- matlab 如何输出gif,MATLAB生成GIF动画,PhotoShop制作GIF动画
- Pandas | rank()函数
- Postgresql模式匹配
- 深入剖析Netty源码设计(一)——深入理解select poll epoll机制
- 跳槽对个人发展的利与弊是什么?
- KAIZEN是什么?