豆瓣图书排行250抓取练习

第二天，利用BeautifulSoup解析库

import requests
import re
import time
from bs4 import BeautifulSoupdef get_one_page(url):proxies = {"http":"http://61.145.69.27","http":"http://121.61.0.208"}headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}response = requests.get(url,headers=headers,proxies=proxies)if response.status_code == 200:return response.textreturn None
def parse_one_page(html):soup = BeautifulSoup(html, 'lxml')for td in soup.find_all(attrs={'valign':'top'}):for a in td.find(name='a'):print(a.string)for p in td.find_all(name='p'):print(p.string)for span in td.find_all(name='span'):print(span.string)
def main(offset):url = 'https://book.douban.com/top250?start='+str(offset)html = get_one_page(url)parse_one_page(html)
if __name__ == '__main__':for i in range(10):main(i * 25)time.sleep(1)

运行结果：
不知道如何选择抓取节点，结果中有许多[None]

豆瓣图书排行250抓取练习相关推荐

python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题
我上次分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 , ...
基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析（hdfs、flume、hive、mysql等）、大屏可视化
目录项目介绍研究背景国内外研究现状分析研究目的研究意义研究总体设计数据获取网络爬虫介绍豆瓣电影数据的采集数据预处理数据导入及环境配置 Flume介绍 Hive介绍 MySQL介绍 ...
爬虫系列之豆瓣图书排行
豆瓣上有图书的排行榜,所以这次写了一个豆瓣的爬虫. 首先是分析排行榜的url 根据这个可以很容易的知道不同图书的排行榜就是在网站后面加上/tag/[类别],所以我们首先要获得图书的类别信息. 这里可以 ...
python 豆瓣评论删除_Python抓取豆瓣《白夜追凶》的评论并且分词
最近网剧<白夜追凶>在很多朋友的推荐下,开启了追剧模式,自从琅琊榜过后没有看过国产剧了,此剧确实是良心剧呀!一直追下去,十一最后两天闲来无事就抓取豆瓣的评论看一下相关代码提交到githu ...
scrapy-爬取豆瓣电影排行250
一.豆瓣简单爬去 1.爬取文件这里重点就是翻页了,我们可以发现相连的页面都有只改了一点且有连续性,依着规律可以for循环写出页面link的列表 start_urls = ['http://movie ...
将豆瓣排名前250爬取数据通过sqlite3存入数据库
#爬取豆瓣top250电影,并保存到数据库 import requests from bs4 import BeautifulSoup import sqlite3def get_html(web_u ...
豆瓣民谣排行100爬取练习
第三天,学习利用Xpath解析库 import requests import time from lxml import etreedef get_one_page(url):proxies = { ...
Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...
python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
先来张爬取结果的截图再来份代码吧 # encoding=utf8 import requests import re from bs4 import BeautifulSoup from tkint ...

豆瓣图书排行250抓取练习

豆瓣图书排行250抓取练习相关推荐

最新文章

热门文章