本文仅供学习使用,如有侵权,联系删除。

获得豆瓣top 250书单的url

import lxml
import requests
import re
import csv
from requests.exceptions import RequestExceptionurl_lt = []def get_one_page(url):try:headers = {"User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}response = requests.get(url,headers=headers,timeout = 5)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef get_book_url_list(html):soup = BeautifulSoup(html,'lxml')url_list_info = soup.find_all(class_ = 'pl2')pattern = re.compile('<a.*?href=(.*?)onclick=.*?title.*?>.*?</a>',re.S)for url in url_list_info:url = str(url)url = re.search(pattern,url)url_lt.append(url.group(1).strip())def main(offset):url = 'https://book.douban.com/top250?start=' + str(offset)html = get_one_page(url)get_book_url_list(html)print(len(url_lt))def write_csv(file,url_list):with open(file,'a',encoding='utf-8',newline='') as csvfile:fieldnames = ["rank","book_url"]writer = csv.DictWriter(csvfile,fieldnames=fieldnames)writer.writeheader()for i in range(len(url_list)):writer.writerow({"rank":i+1,"book_url":url_list[i]})if __name__ == '__main__':for i in range(10):main(i)write_csv("douban_TOP250_data.csv",url_lt)

python_爬虫_豆瓣TOP250_url相关推荐

  1. python_爬虫_豆瓣TOP250_页面内容

    本文仅供学习使用,如有侵权,联系删除 豆瓣TOP250书籍页面内容如下,此次将爬取图片中的内容 from bs4 import BeautifulSoup import lxml import req ...

  2. Python_爬虫_网页图片下载_その日の紋

    Python_爬虫_网页图片下载_その日の紋 项目效果 项目需求 项目分析 URL分析 页面分析 项目实施 项目源码 项目效果 项目需求 目标页面:https://www.hanakomon.jp/c ...

  3. Python_爬虫_案例汇总:

    1.豆瓣采集 1 #coding:utf-8 2 #采集豆瓣书信息和图片,写进数据库 3 4 from urllib import request 5 # from bs4 import Beauti ...

  4. Python_爬虫_猫眼电影网电影预告片批量下载

    非常简单的一个基础爬虫代码,可以根据不同的url自动下载同一页中的所有预告片 import requests from lxml import etree import re# 1.确定url地址 u ...

  5. python_爬虫_七麦网

    本文用于学习交流使用,如有侵权,联系删除 1 爬取需求 1.1 七麦网简介 七麦网(https://www.qimai.cn/),该平台支持提供iOS.Android应用市场.微信.小程序等数据查询, ...

  6. 爬虫_豆瓣全部正在热映电影 (xpath)

    单纯地练习一下xpath 1 import requests 2 from lxml import etree 3 4 5 def get_url(url): 6 html = requests.ge ...

  7. 最帅爬虫_豆瓣读书(加密数据获取)

    网址: http://book.douban.com/subject_search?search_text=python&cat=1001&start=%s0 需求: 获取所有 pyt ...

  8. Python_爬虫_中文乱码

    今天在用Python2.7爬取百度百科的一个网页时发现输出时中文为乱码. 尝试一: 查看网页页面信息,发现其中文字编码为"GBK",遂准备对其进行解码. content = url ...

  9. python爬虫和数据分析的书籍_豆瓣书籍数据爬取与分析

    前言 17年底,买了清华大学出版社出版的<Hadoop权威指南>(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片.从那个时候其就对出版社综合实力很感兴趣,想通 ...

最新文章

  1. find命令详解(原创)
  2. 四种方法使Map线程安全
  3. 回文数的个数、杨辉三角
  4. no instance(s) of type variable(s) X exist so that DataSource<X> conforms to DataStream<Order>
  5. 【Alpha阶段】第一次Scrum Meeting
  6. 极客时间算法练习题总结
  7. html js 图片左右切换代码,Js图片切换特效中的左右箭头功能实现代码
  8. 微积分基本公式-牛顿莱布尼兹公式
  9. 塑身必知常识:究竟是有氧运动还是无氧运动好?
  10. 操作系统的分类有哪些?
  11. python小游戏 记忆翻牌小游戏设计与实现
  12. 图像处理之LSB Matching Revisited论文复现
  13. 电商数据采集的10个经典方法
  14. 计算机寻址范围字长,地址总线,字长,内存容量,寻址范围 之间的计算
  15. 自然语言处理复习笔记
  16. Java性能监控和故障诊断可视化工具之jmc
  17. 多层嵌套的CSS 3D动画技术详解
  18. MP之自定义分页,多表查询带分页带条件(Error evaluating expression ‘ew.customSqlSegment‘.或 Invalid bound statement)
  19. OPENCV之人眼检测
  20. java后端实现加减乘除和比例计算

热门文章

  1. 机器学习10大经典算法详解
  2. ftp下载工具绿色版,网络上难找的绿色版ftp下载工具
  3. c语言编写51单片机中断程序,执行过程是怎样的?
  4. 【Python】cmd指令安装python第三方库的几种方法
  5. 机器学习(周志华)-支持向量机课后习题:
  6. WLAN 无线局域网
  7. 牛逼!手把手教你制作个人微信红包封面,保姆级红包封面制作教程
  8. python设计一个学生类姓名年龄成绩_C# 编写学生类Student,包含学生姓名,成绩,设计一个友员函数sortDegree(),将学生成绩按大到小排序。...
  9. 用数据激活线下,更好玩的新营销来了
  10. ARM920T内核工作模式