第二天,利用BeautifulSoup解析库

import requests
import re
import time
from bs4 import BeautifulSoupdef get_one_page(url):proxies = {"http":"http://61.145.69.27","http":"http://121.61.0.208"}headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}response = requests.get(url,headers=headers,proxies=proxies)if response.status_code == 200:return response.textreturn None
def parse_one_page(html):soup = BeautifulSoup(html, 'lxml')for td in soup.find_all(attrs={'valign':'top'}):for a in td.find(name='a'):print(a.string)for p in td.find_all(name='p'):print(p.string)for span in td.find_all(name='span'):print(span.string)
def main(offset):url = 'https://book.douban.com/top250?start='+str(offset)html = get_one_page(url)parse_one_page(html)
if __name__ == '__main__':for i in range(10):main(i * 25)time.sleep(1)

运行结果:
不知道如何选择抓取节点,结果中有许多[None]

豆瓣图书排行250抓取练习相关推荐

  1. python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题

    我上次分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息 和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 , ...

  2. 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化

    目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 数据获取 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 数据导入及环境配置 Flume介绍 Hive介绍 MySQL介绍 ...

  3. 爬虫系列之豆瓣图书排行

    豆瓣上有图书的排行榜,所以这次写了一个豆瓣的爬虫. 首先是分析排行榜的url 根据这个可以很容易的知道不同图书的排行榜就是在网站后面加上/tag/[类别],所以我们首先要获得图书的类别信息. 这里可以 ...

  4. python 豆瓣评论删除_Python抓取豆瓣《白夜追凶》的评论并且分词

    最近网剧<白夜追凶>在很多朋友的推荐下,开启了追剧模式,自从琅琊榜过后没有看过国产剧了,此剧确实是良心剧呀!一直追下去,十一最后两天闲来无事就抓取豆瓣的评论看一下 相关代码提交到githu ...

  5. scrapy-爬取豆瓣电影排行250

    一.豆瓣简单爬去 1.爬取文件 这里重点就是翻页了,我们可以发现相连的页面都有只改了一点且有连续性,依着规律可以for循环写出页面link的列表 start_urls = ['http://movie ...

  6. 将豆瓣排名前250爬取数据通过sqlite3存入数据库

    #爬取豆瓣top250电影,并保存到数据库 import requests from bs4 import BeautifulSoup import sqlite3def get_html(web_u ...

  7. 豆瓣民谣排行100爬取练习

    第三天,学习利用Xpath解析库 import requests import time from lxml import etreedef get_one_page(url):proxies = { ...

  8. Python3爬取豆瓣图书Top250并写入txt文件当中

    首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码 转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...

  9. python3[爬虫基础入门实战] 爬取豆瓣电影排行top250

    先来张爬取结果的截图 再来份代码吧 # encoding=utf8 import requests import re from bs4 import BeautifulSoup from tkint ...

最新文章

  1. http头部信息解析
  2. php 计算一个字符串在另一个字符串中出现的次数
  3. Linux 安装配置JDK 、 MySQL 、nginx
  4. (转)The POM for 0.0.1-SNAPSHOT is missing, no dependency informat
  5. 5 呼吸灯verilog与Systemverilog编码
  6. python操作sqlite数据库_Python操作Sqlite正确实现方法解析
  7. 顺序存储结构与链式存储结构的比较
  8. 房价增幅或于年底见顶
  9. 易语言版{大智慧/分析家/飞狐交易师}DLL插件接口开发模块(beta),自定义股票软件公式扩展函数...
  10. 7z文件linux怎么解压,Ubuntu 12.04下解压7z文件
  11. 电脑计算机丢失msvcp140.dll,电脑缺少msvcp140.dll怎么办
  12. 李兴平,世界站长第一人
  13. htpp proxy
  14. java即时通讯im聊天源码,dubbo即时通讯im聊天源码,netty即时通讯im聊天源码,springboot即时通讯im聊天源码
  15. element 前端布局理解经验及好用的属性
  16. 终于有一篇能让小白更容易理解GC算法的文章了
  17. 关于visual studio下载过慢的问题
  18. java jsr 303_java对象校验(validation)-JSR303规范
  19. 第二次作业:王者荣耀案例分析
  20. 2022哪款充电宝质量好?2022充电宝排行

热门文章

  1. 拿破仑的滑铁卢与罗斯柴尔德的凯旋门
  2. 电子制造ERP管理系统在仓库管理中的应用
  3. FairyGUI-GComponent组件
  4. Python Basic - python 文件对象的文件交互各类方法描述与实现
  5. 哈工大软件构造lab1
  6. 北京联通dns服务器位置,ipv6北京联通dns服务器地址
  7. 数据结构与算法:用链表实现无序列表。
  8. graphpad prism8教程柱状图_一起来看看Graphpad Prism 8.0进阶篇吧!
  9. 百度网盘资源下载加速教学
  10. 怎么申请好用的企业邮箱?外贸公司企业邮箱托管