豆瓣图书排行250抓取练习
第二天,利用BeautifulSoup解析库
import requests
import re
import time
from bs4 import BeautifulSoupdef get_one_page(url):proxies = {"http":"http://61.145.69.27","http":"http://121.61.0.208"}headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}response = requests.get(url,headers=headers,proxies=proxies)if response.status_code == 200:return response.textreturn None
def parse_one_page(html):soup = BeautifulSoup(html, 'lxml')for td in soup.find_all(attrs={'valign':'top'}):for a in td.find(name='a'):print(a.string)for p in td.find_all(name='p'):print(p.string)for span in td.find_all(name='span'):print(span.string)
def main(offset):url = 'https://book.douban.com/top250?start='+str(offset)html = get_one_page(url)parse_one_page(html)
if __name__ == '__main__':for i in range(10):main(i * 25)time.sleep(1)
运行结果:
不知道如何选择抓取节点,结果中有许多[None]
豆瓣图书排行250抓取练习相关推荐
- python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题
我上次分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息 和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 , ...
- 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化
目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 数据获取 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 数据导入及环境配置 Flume介绍 Hive介绍 MySQL介绍 ...
- 爬虫系列之豆瓣图书排行
豆瓣上有图书的排行榜,所以这次写了一个豆瓣的爬虫. 首先是分析排行榜的url 根据这个可以很容易的知道不同图书的排行榜就是在网站后面加上/tag/[类别],所以我们首先要获得图书的类别信息. 这里可以 ...
- python 豆瓣评论删除_Python抓取豆瓣《白夜追凶》的评论并且分词
最近网剧<白夜追凶>在很多朋友的推荐下,开启了追剧模式,自从琅琊榜过后没有看过国产剧了,此剧确实是良心剧呀!一直追下去,十一最后两天闲来无事就抓取豆瓣的评论看一下 相关代码提交到githu ...
- scrapy-爬取豆瓣电影排行250
一.豆瓣简单爬去 1.爬取文件 这里重点就是翻页了,我们可以发现相连的页面都有只改了一点且有连续性,依着规律可以for循环写出页面link的列表 start_urls = ['http://movie ...
- 将豆瓣排名前250爬取数据通过sqlite3存入数据库
#爬取豆瓣top250电影,并保存到数据库 import requests from bs4 import BeautifulSoup import sqlite3def get_html(web_u ...
- 豆瓣民谣排行100爬取练习
第三天,学习利用Xpath解析库 import requests import time from lxml import etreedef get_one_page(url):proxies = { ...
- Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码 转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
先来张爬取结果的截图 再来份代码吧 # encoding=utf8 import requests import re from bs4 import BeautifulSoup from tkint ...
最新文章
- http头部信息解析
- php 计算一个字符串在另一个字符串中出现的次数
- Linux 安装配置JDK 、 MySQL 、nginx
- (转)The POM for 0.0.1-SNAPSHOT is missing, no dependency informat
- 5 呼吸灯verilog与Systemverilog编码
- python操作sqlite数据库_Python操作Sqlite正确实现方法解析
- 顺序存储结构与链式存储结构的比较
- 房价增幅或于年底见顶
- 易语言版{大智慧/分析家/飞狐交易师}DLL插件接口开发模块(beta),自定义股票软件公式扩展函数...
- 7z文件linux怎么解压,Ubuntu 12.04下解压7z文件
- 电脑计算机丢失msvcp140.dll,电脑缺少msvcp140.dll怎么办
- 李兴平,世界站长第一人
- htpp proxy
- java即时通讯im聊天源码,dubbo即时通讯im聊天源码,netty即时通讯im聊天源码,springboot即时通讯im聊天源码
- element 前端布局理解经验及好用的属性
- 终于有一篇能让小白更容易理解GC算法的文章了
- 关于visual studio下载过慢的问题
- java jsr 303_java对象校验(validation)-JSR303规范
- 第二次作业:王者荣耀案例分析
- 2022哪款充电宝质量好?2022充电宝排行