python使用lxml及request爬取-python用lxml解析网页为什么不完整？

url = "http://www.ygdy8.com/html/gndy/dyzz/index.html’

req = urllib.request.Request(url)

req.add_header("User-Agent", user_agent)

html_temp = urllib.request.urlopen(req)

网页上那一页，一共有25部电影的链接，其中最后一部电影的链接，也就是：

也就是"/html/gndy/dyzz/20170731/54631.html’，在html_temp中搜索，看到是有的：

但是，接下来用lmxl解析：

rp_tree = etree.HTML(html_temp )

Node_rp = rp_tree.xpath('//div[@class="co_content8"]//a')

或者用BeautifulSoup：

soup_temp = BeautifulSoup(rp_html, 'html')

后得到的东西（我也不知道得到的这个东西术语怎么叫，如果知道的话也请大佬告诉一下O(∩_∩)O）中，却只有12部电影。我用soup_temp来截图好了：

也就是只分析到了青禾男高，就没了。Node_rp = rp_tree.xpath的也一样：

百度到咱们segment的一个问答BeautifulSoup获取的tag不完整中，我用了soup = BeautifulSoup(text, 'html.parser')就能正确获取。我想问一下这真的是因为html的文件是不规范造成的么？那意思是说，这是写这个网页的人写的不好的问题还是谁的问题？最想问的是，如果不用BeautifulSoup模块的话，而用from lxml import etree我该怎么做？

附上我的环境：

Python 3.6.2

beautifulsoup4 (4.6.0)

bs4 (0.0.1)

lxml (3.7.2)

urllib3 (1.22)

python使用lxml及request爬取-python用lxml解析网页为什么不完整？相关推荐

python使用lxml及request爬取-python+lxml 爬取网页信息及储存
用lxml来爬取招聘网站信息用requests获取网页解析网页内容保存数据成csv格式用requests获取网页 import requests from lxml import etree ...
python协程gevent案例爬取斗鱼图片过程解析 - python
文章来源: 敏而好学论坛嗨学网www.piaodoo.com 欢迎大家相互学习分析分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图: 在里面的请求中, ...
斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫
斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫输出结果
Python爬虫实战系列(一)-request爬取网站资源
Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期文章目录 Python爬虫实战系列(一)-request爬取网站资源前言一.request库是什么? 二 ...
[day4]python网络爬虫实战：爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
python爬虫的一次尝试——华北电力大学图书馆读者荐购系统：基于python爬虫的web数据爬取
华北电力大学图书馆读者荐购系统数据爬取前言本章工具网页分析 1.荐购数据 2.书目具体信息代码部分 1. 荐购数据爬取 2. 完整书目信息爬取前言本学期数据仓库与数据挖掘课程大作业是编程实 ...
[python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱
前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJ ...
Python爬虫-漫画柜漫画爬取
代码仅供学习 from selenium import webdriver from lxml import etree import time import random import reques ...
python爬虫豆瓣影评的爬取cookies实现自动登录账号
python爬虫豆瓣影评的爬取cookies实现自动登录账号频繁的登录网页会让豆瓣锁定你的账号-- 网页请求使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

python使用lxml及request爬取-python用lxml解析网页为什么不完整？

python使用lxml及request爬取-python用lxml解析网页为什么不完整？相关推荐

最新文章

热门文章