url = "http://www.ygdy8.com/html/gndy/dyzz/index.html’

req = urllib.request.Request(url)

req.add_header("User-Agent", user_agent)

html_temp = urllib.request.urlopen(req)

网页上那一页,一共有25部电影的链接,其中最后一部电影的链接,也就是:

也就是"/html/gndy/dyzz/20170731/54631.html’,在html_temp中搜索,看到是有的:

但是,接下来用lmxl解析:

rp_tree = etree.HTML(html_temp )

Node_rp = rp_tree.xpath('//div[@class="co_content8"]//a')

或者用BeautifulSoup:

soup_temp = BeautifulSoup(rp_html, 'html')

后得到的东西(我也不知道得到的这个东西术语怎么叫,如果知道的话也请大佬告诉一下O(∩_∩)O)中,却只有12部电影。我用soup_temp来截图好了:

也就是只分析到了青禾男高,就没了。Node_rp = rp_tree.xpath的也一样:

百度到咱们segment的一个问答BeautifulSoup获取的tag不完整中,我用了soup = BeautifulSoup(text, 'html.parser')就能正确获取。我想问一下这真的是因为html的文件是不规范造成的么?那意思是说,这是写这个网页的人写的不好的问题还是谁的问题?最想问的是,如果不用BeautifulSoup模块的话,而用from lxml import etree我该怎么做?

附上我的环境:

Python 3.6.2

beautifulsoup4 (4.6.0)

bs4 (0.0.1)

lxml (3.7.2)

urllib3 (1.22)

python使用lxml及request爬取-python用lxml解析网页为什么不完整?相关推荐

  1. python使用lxml及request爬取-python+lxml 爬取网页信息及储存

    用lxml来爬取招聘网站信息 用requests获取网页 解析网页内容 保存数据成csv格式 用requests获取网页 import requests from lxml import etree ...

  2. python协程gevent案例 爬取斗鱼图片过程解析 - python

    文章来源: 敏而好学论坛 嗨学网www.piaodoo.com 欢迎大家相互学习 分析 分析网站寻找需要的网址 用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图: 在里面的请求中, ...

  3. 斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫

    斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫 输出结果 

  4. Python爬虫实战系列(一)-request爬取网站资源

    Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...

  5. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

  6. python爬虫的一次尝试——华北电力大学图书馆读者荐购系统:基于python爬虫的web数据爬取

    华北电力大学图书馆读者荐购系统数据爬取 前言 本章工具 网页分析 1.荐购数据 2.书目具体信息 代码部分 1. 荐购数据爬取 2. 完整书目信息爬取 前言 本学期数据仓库与数据挖掘课程大作业是编程实 ...

  7. [python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱

    前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJ ...

  8. Python爬虫-漫画柜漫画爬取

    代码仅供学习 from selenium import webdriver from lxml import etree import time import random import reques ...

  9. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

最新文章

  1. Python 输入和输出
  2. input输入框小写字母自动转换成大写字母
  3. python重命名窗口_为《Python实现批量重命名》程序加一个GUI
  4. opencv mat初始化_【OpenCV入门之十二】看起来一样的图像竟然存在这么大的差别!...
  5. laragon环境更新安装新的php版本操作方法
  6. C++---deque双端队列
  7. 《101 Windows Phone 7 Apps》读书笔记-TODO LIST
  8. Atitit  自动化gui 与 发帖机 技术
  9. python删库命令_python3 删除数据库
  10. vue使用coreUI的CDataTable踩坑记录
  11. 你了解微信商户分账吗?
  12. Python初学者必须吃透的69个内置函数
  13. pyqt界面语言中英文转换
  14. virtuoso根据原理图绘制版图并联接_virtuoso画原理图
  15. 7-1 设计一个风扇Fan类 (20 分)JAVA PTA
  16. Excel批量核实输入的银行卡号信息是否正确!
  17. 张庭夫妇公司产品多为代工贴牌,218元洁面乳成本约15元,聊聊微商的利润有多大
  18. 对策论基础---矩阵对策的基本定理
  19. Stata绘图相关问题
  20. PE文件资源解析(十一)对话框资源的解析

热门文章

  1. Stylus插件开发教程 1
  2. cordova:Error: Cannot find module '../cordova/platform_metadata'
  3. 通过StringBuilder的reverse()实现倒序
  4. 【记录】 安装qflow on ubuntu 16.04
  5. Kettle提高表输出写入速度(每秒万条记录)
  6. redis添加认证密码
  7. HP880G3 安装RHEL6.5
  8. (28)java web的hibernate使用
  9. 第二阶段个人冲刺第一天总结
  10. SpringMVC上传文件以流方式判断类型附常用类型