新时代的我们,需要的是数据说话,大数据时代,需要自动化的工具,学习方式就是遇佛杀佛,遇神杀神,不会什么查什么,逐个解决

作者网址:CSDN

1.第一遍+加上自己写的注释

 1 # -*- coding: utf-8 -*-
 2 #---------------------------------------
 3 #   程序:百度贴吧爬虫
 4 #   版本:0.1
 5 #   作者:why
 6 #   日期:2013-05-14
 7 #   语言:Python 2.7
 8 #   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
 9 #   功能:下载对应页码内的所有页面并存储为html文件。
10 #---------------------------------------
11
12 import string, urllib2
13
14 #定义百度函数
15 def baidu_tieba(url,begin_page,end_page):
16     for i in range(begin_page, end_page+1):
17         sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名 string的方法有.zfil 网页 最后几行能找到 string.zfill(s, width) width显示0,然后s附在最后
18         print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'  #显示下载进程
19         f = open(sName,'w+')               #用来写入更新,网址20         m = urllib2.urlopen(url + str(i)).read()  #urllib.urlopen的用法网址  .read的用法(包括了write的用法)用来阅读网址内容 网址 返回的是string 这个地方还是不懂?为什么要打开,写入
21         f.write(m)
22         f.close()  #网址用来释放空间23
24
25 #-------- 在这里输入参数 ------------------
26
27 # 这个是山东大学的百度贴吧中某一个帖子的地址
28 #bdurl = 'http://tieba.baidu.com/p/2296017831?pn='  #网址太老,已经被删了 最好换成http://tieba.baidu.com/p/2251718675?pn=
29 #iPostBegin = 1
30 #iPostEnd = 10
31
32 bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))  #raw_input()里面的u代表了utf-8编码(因为括号里用到了中文),返回一般是str,为什么还要加str() 如果是输入的是其他的字符比如:、返回类型就变成Unicode(我用type()函数检测的),对于有中文字符的Unicode编码,需要修改代码才行
33 begin_page = int(raw_input(u'请输入开始的页数:\n'))  #把返回的string转变成int类型34 end_page = int(raw_input(u'请输入终点的页数:\n'))    #同理35 #-------- 在这里输入参数 ------------------ 363738 #调用 39 baidu_tieba(bdurl,begin_page,end_page)  #调用前面写的函数

经验:在jupyter上运行会出错,感觉是kernal的问题

下方是原配

1.第二遍(便于其他人复制黏贴,希望转载的把CSDN原作者附上,我的就不用了)

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:百度贴吧爬虫
#   版本:0.1
#   作者:why
#   日期:2013-05-14
#   语言:Python 2.7
#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
#   功能:下载对应页码内的所有页面并存储为html文件。
#---------------------------------------import string, urllib2#定义百度函数
def baidu_tieba(url,begin_page,end_page):   for i in range(begin_page, end_page+1):sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'f = open(sName,'w+')m = urllib2.urlopen(url + str(i)).read()f.write(m)f.close()#-------- 在这里输入参数 ------------------# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
begin_page = int(raw_input(u'请输入开始的页数:\n'))
end_page = int(raw_input(u'请输入终点的页数:\n'))
#-------- 在这里输入参数 ------------------#调用
baidu_tieba(bdurl,begin_page,end_page)

转载于:https://www.cnblogs.com/gkgy/p/6411605.html

爬虫学习笔记(1)---简单的爬取百度贴吧相关推荐

  1. 爬虫学习笔记-猫眼电影排行爬取

    爬虫学习笔记-猫眼电影排行爬取 1 分析页面 https://maoyan.com/board/4 点击页码发现页面的URL变成: 初步推断出offset是一个偏移量的参数,当页面为第一页时offse ...

  2. 爬虫学习笔记(用python爬取东方财富网实验)

    参考文章以及视频:(11条消息) 爬虫实战 | 爬取东方财富网股票数据_简说Python的博客-CSDN博客.手把手教你从东方财富网上获取股票数据_哔哩哔哩_bilibili.[Python爬虫案例] ...

  3. Python学习笔记(65)~ 爬取百度首页标题

    爬取百度首页标题 Demo #!/usr/bin/python3 import re from urllib import request#爬虫爬取百度首页内容 data=request.urlope ...

  4. 【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析

    –转自<1900-高级农民工>http://www.makcyun.top 安装并运行pyspider 安装pyspider pip3 install pyspider 运行pyspide ...

  5. python爬虫学习笔记(一)—— 爬取腾讯视频影评

    前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...

  6. Python数据爬虫学习笔记(11)爬取千图网图片数据

    需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中. 分析:以数码电器板块为例 1.查看该板块的每一页的URL: 注意到第一页是&q ...

  7. python爬取京东手机数据_Python数据爬虫学习笔记(21)爬取京东商品JSON信息并解析...

    一.需求:有一个通过抓包得到的京东商品的JSON链接,解析该JSON内容,并提取出特定id的商品价格p,json内容如下: jQuery923933([{"op":"75 ...

  8. Python3爬虫学习笔记——xpath练习之爬取起点网玄幻小说排行

    这次看完xpath章之后巩固练习 import re import requests from lxml import etree def get_one_page(url):headers = {' ...

  9. Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据

    需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下: 准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下: 编写代码 ...

  10. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

最新文章

  1. nginx-lua-openresty-graphicsmagick 下载远程图片,本地缩图红缓存加水印
  2. PAT甲级1120 Friend Numbers:[C++题解]set去重且有序
  3. Mysql数据库存储引擎--转
  4. java安全例外_java – 本地Applet安全例外
  5. UVa 264 - Count on Cantor
  6. 字符串处理 —— 回文串相关 —— 回文串的判断
  7. assertionerror是什么异常_php7异常与错误处理和自定义异常
  8. Python Itsdangerous
  9. javaScripct入门教程
  10. 超慢速移动动画使用CSS3实现流畅效果
  11. python读取文本数据--完善中
  12. 每日算法系列【LeetCode 123】买卖股票的最佳时机 III
  13. 20200727每日一句
  14. python程序设计基础课后答案-python语言程序设计基础(第2版)课后答案嵩天
  15. 10X 空间转录组学
  16. Unity Compute Shader入门(大量对象随机赋值颜色实验)
  17. js-js数据结构和算法-递归思想-斐波那契数-动态规划-贪心
  18. 【白皮书】以太坊 (Ethereum ):下一代智能合约和去中心化应用平台
  19. 2020入侵防御系统(IPS)TOP10
  20. 南京大学计算机学院英才计划,南京大学以“英才计划”为切入点 向前衔接高中...

热门文章

  1. Android上SQLite的性能优化问题
  2. 各位学Python的要小心了!!!
  3. nosql数据库之Redis概念及基本操作
  4. 【Task2(2天)】特征工程
  5. python 正则表达式学习-group
  6. Android 数字动画
  7. HDU 2553 N皇后问题 DFS 简单题
  8. iphone 推送服务--Apple Push Notification Service
  9. Windows系统性能分析
  10. 跨域两种解决方案CORS以及JSONP