1 #coding=utf-8
 2 import io
 3 import requests
 4 from bs4 import BeautifulSoup
 5 for i in range(1,50):
 6     url=requests.get('http://www.budejie.com/text/%s' % i) #使用request.get请求url
 7     soup = BeautifulSoup(url.text, 'html.parser')#使用parser解析
 8     all_desc=soup.find_all('div',class_='j-r-list-c-desc')
 9     for j in all_desc:
10         f=open(r'C:\Users\Administrator\Desktop\Python\qiushibaike\baisi.txt','r+',encoding='utf-8') #写入
11         f.read() #追加数据前要先读取yix
12         f.write(j.get_text())
13         f.close()
14     print("已爬取第%s页" % i)
15     i+=1

爬取白死不得姐的段子,并且写入到指定目录下的文本中。重点,使用parser解析获取到的url,然后通过soup.find_all()找到对应的标签,all_desc里面是多个<div><a>1231</a><div>,如何获取123123,我们通多for循环遍历,j.get_text().获取具体文本。在写入的时候先打开open(' ',' ',' ')三个参数,第一个为目录下的文件地址,第二个为操作方式' r+'是持续写入,但是后面写入的内容会替换掉前面的内容,解决办法是,在写入之前我们先读取f.read(),这样后写入的会被添加在末尾,不会覆盖。 第三个参数非常重要具体使用方法参见上一篇 http://www.cnblogs.com/wangcongsuibi/p/7941294.html

转载于:https://www.cnblogs.com/wangcongsuibi/p/7941779.html

爬取百思不得姐的段子相关推荐

  1. Python爬取百思不得姐的视频

    本次使用Python爬取百思不得姐中的视频,虽然其中视频提供了下载,但作为程序猿,你懂的(本次使用的Python的版本为3.6.1). 其源码如下: #_*_ coding:utf-8 _*_ imp ...

  2. [python爬虫之路day19:] scrapy框架初入门day1——爬取百思不得姐段子

    好久没学习爬虫了,今天再来记录一篇我的初入门scrapy. 首先scrapy是针对大型数据的爬取,简单便捷,但是需要操作多个文件以下介绍: 写一个爬虫,需要做很多的事情.比如: 发送网络请求, 数据解 ...

  3. python爬虫scrapy框架爬取糗妹妹段子首页

    声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...

  4. 每日爬虫练习:爬取最新搞笑段子

    2020-03-22日爬虫练习 爬取网站:别逗了 需求: 爬取分页段子,并将段子标题和正文以字典的形式通过json序列化后存储到本地 技术路线: 1.requests BeautifulSoup Js ...

  5. python 多线程爬取 百思不得姐段子

    并且可以导出到csv文件查看. 复制粘贴运行即可. 2019年8月11日测试可用 import requests,threading,csv from lxml import etree from q ...

  6. python爬取百思不得姐视频

    1 页面分析 百思不得姐视频地址http://www.budejie.com/video/ 看到这个地址的时候我们首先分析,这个地址的多页是如何实现的?访问其他页面时链接是怎么样的?所以我们直接点击页 ...

  7. 爬取百思不得姐网站上的MP4视频,有限制,必须是网页内有mp4才行,18年3月之后百思不得姐网页版改版之后不行了

    代码如下,贡献出来 #-*-coding:utf-8 -*- import requests #第三方 import re #正则模块 import urllib def get_response(u ...

  8. python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子

    人生苦短,我用Python,今天来一起爬取一下内涵段子. 话不啰嗦直接代码,gogogog! #coding=utf-8 import urllib2 import re class Spider: ...

  9. 内涵段子爬取及re匹配

    案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...

最新文章

  1. Shell 定时清理小脚本
  2. MySQL中数据库的操作
  3. 英特尔收购人工智能公司 Nervana,开发深度学习技术
  4. mysql ubb html_UBB中轻松实现歌词同步播放_html
  5. 前端做微信好友分享_前端微信分享,调用微信分享,分享朋友圈,分享微信好友,分享qq空间,qq好友...
  6. 智己汽车——比智能车更豪华,比豪华车更智能
  7. Mybatis理解与入门步骤
  8. STM32(三)-------流水灯(标准库函数)
  9. java调用支付宝接口代码介绍
  10. C语言表上作业法运输问题,表上作业法解运输问题
  11. java运行 .class文件_运行java的class文件方法详解
  12. PS常用工具理解及常用快捷键大全
  13. 触发器详解——(三)T触发器
  14. MATLAB地图工具箱学习总结(一)从地图投影说起
  15. 港科夜闻|香港科技大学(广州)拟获批首个省级重点实验室
  16. 天地孤影任我行(东邪西毒电影原声曲)铃声 天地孤影任我行(...
  17. 超级玛丽游戏设计(Java+GUI+J2SE)
  18. 赛灵思 Xilinx UG1506 - Versal ACAP 开发板系统设计方法指南(中文版) (v2021.2)
  19. Vim常用技巧--查看不可见字符
  20. 苹果谷歌微软三国混战地图详解(图)

热门文章

  1. 想要完美蜕变就来广州传智播客平面UI设计培训机构
  2. haproxy MMM WordPress
  3. Cocos2d-X资源网站索引
  4. 物联通信安全需求如何实现
  5. matlab批量修改文件扩展名
  6. 销售人员如何寻找客户?
  7. 服务器设置密码修改导致的后果
  8. uva 10118(DP)
  9. Android studio ndk目录无法点击选择
  10. mysql删除用户并回收权限