python_爬虫_豆瓣TOP250_url
本文仅供学习使用,如有侵权,联系删除。
获得豆瓣top 250书单的url
import lxml
import requests
import re
import csv
from requests.exceptions import RequestExceptionurl_lt = []def get_one_page(url):try:headers = {"User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}response = requests.get(url,headers=headers,timeout = 5)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef get_book_url_list(html):soup = BeautifulSoup(html,'lxml')url_list_info = soup.find_all(class_ = 'pl2')pattern = re.compile('<a.*?href=(.*?)onclick=.*?title.*?>.*?</a>',re.S)for url in url_list_info:url = str(url)url = re.search(pattern,url)url_lt.append(url.group(1).strip())def main(offset):url = 'https://book.douban.com/top250?start=' + str(offset)html = get_one_page(url)get_book_url_list(html)print(len(url_lt))def write_csv(file,url_list):with open(file,'a',encoding='utf-8',newline='') as csvfile:fieldnames = ["rank","book_url"]writer = csv.DictWriter(csvfile,fieldnames=fieldnames)writer.writeheader()for i in range(len(url_list)):writer.writerow({"rank":i+1,"book_url":url_list[i]})if __name__ == '__main__':for i in range(10):main(i)write_csv("douban_TOP250_data.csv",url_lt)
python_爬虫_豆瓣TOP250_url相关推荐
- python_爬虫_豆瓣TOP250_页面内容
本文仅供学习使用,如有侵权,联系删除 豆瓣TOP250书籍页面内容如下,此次将爬取图片中的内容 from bs4 import BeautifulSoup import lxml import req ...
- Python_爬虫_网页图片下载_その日の紋
Python_爬虫_网页图片下载_その日の紋 项目效果 项目需求 项目分析 URL分析 页面分析 项目实施 项目源码 项目效果 项目需求 目标页面:https://www.hanakomon.jp/c ...
- Python_爬虫_案例汇总:
1.豆瓣采集 1 #coding:utf-8 2 #采集豆瓣书信息和图片,写进数据库 3 4 from urllib import request 5 # from bs4 import Beauti ...
- Python_爬虫_猫眼电影网电影预告片批量下载
非常简单的一个基础爬虫代码,可以根据不同的url自动下载同一页中的所有预告片 import requests from lxml import etree import re# 1.确定url地址 u ...
- python_爬虫_七麦网
本文用于学习交流使用,如有侵权,联系删除 1 爬取需求 1.1 七麦网简介 七麦网(https://www.qimai.cn/),该平台支持提供iOS.Android应用市场.微信.小程序等数据查询, ...
- 爬虫_豆瓣全部正在热映电影 (xpath)
单纯地练习一下xpath 1 import requests 2 from lxml import etree 3 4 5 def get_url(url): 6 html = requests.ge ...
- 最帅爬虫_豆瓣读书(加密数据获取)
网址: http://book.douban.com/subject_search?search_text=python&cat=1001&start=%s0 需求: 获取所有 pyt ...
- Python_爬虫_中文乱码
今天在用Python2.7爬取百度百科的一个网页时发现输出时中文为乱码. 尝试一: 查看网页页面信息,发现其中文字编码为"GBK",遂准备对其进行解码. content = url ...
- python爬虫和数据分析的书籍_豆瓣书籍数据爬取与分析
前言 17年底,买了清华大学出版社出版的<Hadoop权威指南>(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片.从那个时候其就对出版社综合实力很感兴趣,想通 ...
最新文章
- find命令详解(原创)
- 四种方法使Map线程安全
- 回文数的个数、杨辉三角
- no instance(s) of type variable(s) X exist so that DataSource<X> conforms to DataStream<Order>
- 【Alpha阶段】第一次Scrum Meeting
- 极客时间算法练习题总结
- html js 图片左右切换代码,Js图片切换特效中的左右箭头功能实现代码
- 微积分基本公式-牛顿莱布尼兹公式
- 塑身必知常识:究竟是有氧运动还是无氧运动好?
- 操作系统的分类有哪些?
- python小游戏 记忆翻牌小游戏设计与实现
- 图像处理之LSB Matching Revisited论文复现
- 电商数据采集的10个经典方法
- 计算机寻址范围字长,地址总线,字长,内存容量,寻址范围 之间的计算
- 自然语言处理复习笔记
- Java性能监控和故障诊断可视化工具之jmc
- 多层嵌套的CSS 3D动画技术详解
- MP之自定义分页,多表查询带分页带条件(Error evaluating expression ‘ew.customSqlSegment‘.或 Invalid bound statement)
- OPENCV之人眼检测
- java后端实现加减乘除和比例计算
热门文章
- 机器学习10大经典算法详解
- ftp下载工具绿色版,网络上难找的绿色版ftp下载工具
- c语言编写51单片机中断程序,执行过程是怎样的?
- 【Python】cmd指令安装python第三方库的几种方法
- 机器学习(周志华)-支持向量机课后习题:
- WLAN 无线局域网
- 牛逼!手把手教你制作个人微信红包封面,保姆级红包封面制作教程
- python设计一个学生类姓名年龄成绩_C# 编写学生类Student,包含学生姓名,成绩,设计一个友员函数sortDegree(),将学生成绩按大到小排序。...
- 用数据激活线下,更好玩的新营销来了
- ARM920T内核工作模式