思路:使用requests库获取网页源代码,使用BeautifulSoup解析网页源代码,然后使用css选择器获取数据

源代码:

import requests
from bs4 import BeautifulSoupdef get_pages(url):"""获取网页源代码"""response = requests.get(url)content = response.text.encode('iso-8859-1').decode('gbk')#获取网页源代码并编码转换return contentdef get_data(html,class_name):"""得到数据"""soup = BeautifulSoup(html,'lxml')container = soup.select(class_name+' ul tr')[1:]#得到class_name类名下的tr,注意返回列表# print(container)for tr in container:a = tr.select('td a')#获取td下的a,返回列表date = tr.select('td font')[0].text#得到日期category = a[0].text#得到类别url = 'http://www.dytt8.net'+ a[1]['href']#得到urlmovie = a[1].text#得到电影名称print(category,url,movie,date)def main():url = 'http://www.dytt8.net'html = get_pages(url)#网页源代码class_name = '.co_content8'#class名get_data(html,class_name)#得到.co_content8类名下的数据class_name = '.co_content3'get_data(html,class_name)if __name__ == '__main__':main()

爬取电影天堂电影信息相关推荐

  1. 使用requests库和lxml解析爬取电影天堂电影信息

    使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载.快速获得最新最全电影资源! 站点分析 以电影天堂国内电影为例 http://www.ygdy8.net/html/ ...

  2. requests+xpath爬取电影天堂电影信息

    电影天地网址:http://www.ygdy8.net/html/gndy/china/list_4_1.html 目标: 1.爬取电影天堂的国内电影一栏的所有电影的url 2.进入每个电影的url获 ...

  3. python3爬虫:爬取电影天堂电影信息

    python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...

  4. python爬取电影天堂电影信息

    from lxml import etree import requests # url='https://www.dytt8.net/html/gndy/dyzz/index.html' heade ...

  5. python爬电影天堂_python爬虫爬取电影天堂电影

    python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...

  6. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  7. 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!

    以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...

  8. 大数据Python爬取B站电影排行榜——爬取信息

    大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...

  9. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  10. 爬取电影天堂电影列表和详情页

    爬取电影天堂电影列表和详情页 import requests from lxml import etreebase_list_url = 'https://www.dytt8.net'headers ...

最新文章

  1. 一篇文章搞懂人脸识别的十大过程
  2. onInterceptTouchEvent和onTouchEvent调用时序
  3. go build命令详解
  4. Spring Boot @ConfigurationProperties注解的使用
  5. Html的一些小东西
  6. mac下android环境搭建笔记(android studio)
  7. 作者:单志广(1974-),男,博士,国家信息中心信息化研究部副主任
  8. ***redis linux 命令使用总结
  9. 网络爬虫抓包使用及通过表单请求
  10. 4核处理器_4核、6核以及8核 游戏玩家如何按需购买CPU
  11. Android之Button按钮
  12. Dz插件-Discuz插件-免费Discuz采集伪原创发布插件
  13. IntelliJ IDEA导出jar包
  14. Word怎么删除空白页?6个方法随便用!
  15. 【Codeforces633H】Fibonacci-ish II
  16. 程序流程图、N-S图、PAD图
  17. 有云说 | 直播火爆的真正原因是什么?
  18. 广州你让我泪流满面1
  19. c语言实验作业在dev蜗居的思路,C语言程序设计实验(共5篇)
  20. 高等数值计算方法学习笔记第4章第二部分【数值积分(数值微分)】

热门文章

  1. 计算机辅助训练对吞咽障碍,计算机辅助认知功能训练对脑卒中后认知期吞咽障碍的疗效...
  2. 不能上美国邮箱服务器地址,我的邮箱不能接收国外的邮件,国内的可以接收,请解决!...
  3. 初次进入职场如何工作与学习
  4. 达芬奇密码 第七十四章
  5. matlab 如何输出gif,MATLAB生成GIF动画,PhotoShop制作GIF动画
  6. Pandas | rank()函数
  7. Postgresql模式匹配
  8. 深入剖析Netty源码设计(一)——深入理解select poll epoll机制
  9. 跳槽对个人发展的利与弊是什么?
  10. KAIZEN是什么?