爬虫学习笔记（1）---简单的爬取百度贴吧

新时代的我们，需要的是数据说话，大数据时代，需要自动化的工具，学习方式就是遇佛杀佛，遇神杀神，不会什么查什么，逐个解决

作者网址：CSDN

1.第一遍+加上自己写的注释

 1 # -*- coding: utf-8 -*-
 2 #---------------------------------------
 3 #   程序：百度贴吧爬虫
 4 #   版本：0.1
 5 #   作者：why
 6 #   日期：2013-05-14
 7 #   语言：Python 2.7
 8 #   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
 9 #   功能：下载对应页码内的所有页面并存储为html文件。
10 #---------------------------------------
11
12 import string, urllib2
13
14 #定义百度函数
15 def baidu_tieba(url,begin_page,end_page):
16     for i in range(begin_page, end_page+1):
17         sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名 string的方法有.zfil 网页 最后几行能找到 string.zfill(s, width) width显示0，然后s附在最后
18         print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'  #显示下载进程
19         f = open(sName,'w+')               #用来写入更新，网址20         m = urllib2.urlopen(url + str(i)).read()  #urllib.urlopen的用法网址  .read的用法（包括了write的用法）用来阅读网址内容 网址 返回的是string 这个地方还是不懂？为什么要打开，写入
21         f.write(m)
22         f.close()  #网址用来释放空间23
24
25 #-------- 在这里输入参数 ------------------
26
27 # 这个是山东大学的百度贴吧中某一个帖子的地址
28 #bdurl = 'http://tieba.baidu.com/p/2296017831?pn='  #网址太老，已经被删了 最好换成http://tieba.baidu.com/p/2251718675?pn=
29 #iPostBegin = 1
30 #iPostEnd = 10
31
32 bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))  #raw_input()里面的u代表了utf-8编码（因为括号里用到了中文）,返回一般是str，为什么还要加str（） 如果是输入的是其他的字符比如：、返回类型就变成Unicode（我用type（）函数检测的），对于有中文字符的Unicode编码，需要修改代码才行

33 begin_page = int(raw_input(u'请输入开始的页数：\n'))  #把返回的string转变成int类型34 end_page = int(raw_input(u'请输入终点的页数：\n'))    #同理35 #-------- 在这里输入参数 ------------------ 363738 #调用 39 baidu_tieba(bdurl,begin_page,end_page)  #调用前面写的函数

经验：在jupyter上运行会出错，感觉是kernal的问题

下方是原配

1.第二遍（便于其他人复制黏贴，希望转载的把CSDN原作者附上，我的就不用了）

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.1
#   作者：why
#   日期：2013-05-14
#   语言：Python 2.7
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
#   功能：下载对应页码内的所有页面并存储为html文件。
#---------------------------------------import string, urllib2#定义百度函数
def baidu_tieba(url,begin_page,end_page):   for i in range(begin_page, end_page+1):sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'f = open(sName,'w+')m = urllib2.urlopen(url + str(i)).read()f.write(m)f.close()#-------- 在这里输入参数 ------------------# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))
begin_page = int(raw_input(u'请输入开始的页数：\n'))
end_page = int(raw_input(u'请输入终点的页数：\n'))
#-------- 在这里输入参数 ------------------#调用
baidu_tieba(bdurl,begin_page,end_page)

转载于:https://www.cnblogs.com/gkgy/p/6411605.html

爬虫学习笔记（1）---简单的爬取百度贴吧相关推荐

爬虫学习笔记-猫眼电影排行爬取
爬虫学习笔记-猫眼电影排行爬取 1 分析页面 https://maoyan.com/board/4 点击页码发现页面的URL变成: 初步推断出offset是一个偏移量的参数,当页面为第一页时offse ...
爬虫学习笔记（用python爬取东方财富网实验）
参考文章以及视频:(11条消息) 爬虫实战 | 爬取东方财富网股票数据_简说Python的博客-CSDN博客.手把手教你从东方财富网上获取股票数据_哔哩哔哩_bilibili.[Python爬虫案例] ...
Python学习笔记（65）~ 爬取百度首页标题
爬取百度首页标题 Demo #!/usr/bin/python3 import re from urllib import request#爬虫爬取百度首页内容 data=request.urlope ...
【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析
–转自<1900-高级农民工>http://www.makcyun.top 安装并运行pyspider 安装pyspider pip3 install pyspider 运行pyspide ...
python爬虫学习笔记（一）—— 爬取腾讯视频影评
前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...
Python数据爬虫学习笔记（11）爬取千图网图片数据
需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中. 分析:以数码电器板块为例 1.查看该板块的每一页的URL: 注意到第一页是&q ...
python爬取京东手机数据_Python数据爬虫学习笔记（21）爬取京东商品JSON信息并解析...
一.需求:有一个通过抓包得到的京东商品的JSON链接,解析该JSON内容,并提取出特定id的商品价格p,json内容如下: jQuery923933([{"op":"75 ...
Python3爬虫学习笔记——xpath练习之爬取起点网玄幻小说排行
这次看完xpath章之后巩固练习 import re import requests from lxml import etree def get_one_page(url):headers = {' ...
Python数据爬虫学习笔记（3）爬取豆瓣阅读的出版社名称数据
需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下: 准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下: 编写代码 ...
Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行基础包含 requests pyquery 进入正题基础包含这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

爬虫学习笔记（1）---简单的爬取百度贴吧

爬虫学习笔记（1）---简单的爬取百度贴吧相关推荐

最新文章

热门文章