爬虫学习笔记(1)---简单的爬取百度贴吧
新时代的我们,需要的是数据说话,大数据时代,需要自动化的工具,学习方式就是遇佛杀佛,遇神杀神,不会什么查什么,逐个解决
作者网址:CSDN
1.第一遍+加上自己写的注释
1 # -*- coding: utf-8 -*- 2 #--------------------------------------- 3 # 程序:百度贴吧爬虫 4 # 版本:0.1 5 # 作者:why 6 # 日期:2013-05-14 7 # 语言:Python 2.7 8 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 9 # 功能:下载对应页码内的所有页面并存储为html文件。 10 #--------------------------------------- 11 12 import string, urllib2 13 14 #定义百度函数 15 def baidu_tieba(url,begin_page,end_page): 16 for i in range(begin_page, end_page+1): 17 sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名 string的方法有.zfil 网页 最后几行能找到string.
zfill
(s, width) width显示0,然后s附在最后 18 print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......' #显示下载进程 19 f = open(sName,'w+') #用来写入更新,网址20 m = urllib2.urlopen(url + str(i)).read() #urllib.urlopen的用法网址 .read的用法(包括了write的用法)用来阅读网址内容 网址 返回的是string 这个地方还是不懂?为什么要打开,写入 21 f.write(m) 22 f.close() #网址用来释放空间23 24 25 #-------- 在这里输入参数 ------------------ 26 27 # 这个是山东大学的百度贴吧中某一个帖子的地址 28 #bdurl = 'http://tieba.baidu.com/p/2296017831?pn=' #网址太老,已经被删了 最好换成http://tieba.baidu.com/p/2251718675?pn= 29 #iPostBegin = 1 30 #iPostEnd = 10 31 32 bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n')) #raw_input()里面的u代表了utf-8编码(因为括号里用到了中文),返回一般是str,为什么还要加str() 如果是输入的是其他的字符比如:、返回类型就变成Unicode(我用type()函数检测的),对于有中文字符的Unicode编码,需要修改代码才行
33 begin_page = int(raw_input(u'请输入开始的页数:\n')) #把返回的string转变成int类型34 end_page = int(raw_input(u'请输入终点的页数:\n')) #同理35 #-------- 在这里输入参数 ------------------ 363738 #调用 39 baidu_tieba(bdurl,begin_page,end_page) #调用前面写的函数
经验:在jupyter上运行会出错,感觉是kernal的问题
下方是原配
1.第二遍(便于其他人复制黏贴,希望转载的把CSDN原作者附上,我的就不用了)
# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期:2013-05-14 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 # 功能:下载对应页码内的所有页面并存储为html文件。 #---------------------------------------import string, urllib2#定义百度函数 def baidu_tieba(url,begin_page,end_page): for i in range(begin_page, end_page+1):sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'f = open(sName,'w+')m = urllib2.urlopen(url + str(i)).read()f.write(m)f.close()#-------- 在这里输入参数 ------------------# 这个是山东大学的百度贴吧中某一个帖子的地址 #bdurl = 'http://tieba.baidu.com/p/2296017831?pn=' #iPostBegin = 1 #iPostEnd = 10 bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n')) begin_page = int(raw_input(u'请输入开始的页数:\n')) end_page = int(raw_input(u'请输入终点的页数:\n')) #-------- 在这里输入参数 ------------------#调用 baidu_tieba(bdurl,begin_page,end_page)
转载于:https://www.cnblogs.com/gkgy/p/6411605.html
爬虫学习笔记(1)---简单的爬取百度贴吧相关推荐
- 爬虫学习笔记-猫眼电影排行爬取
爬虫学习笔记-猫眼电影排行爬取 1 分析页面 https://maoyan.com/board/4 点击页码发现页面的URL变成: 初步推断出offset是一个偏移量的参数,当页面为第一页时offse ...
- 爬虫学习笔记(用python爬取东方财富网实验)
参考文章以及视频:(11条消息) 爬虫实战 | 爬取东方财富网股票数据_简说Python的博客-CSDN博客.手把手教你从东方财富网上获取股票数据_哔哩哔哩_bilibili.[Python爬虫案例] ...
- Python学习笔记(65)~ 爬取百度首页标题
爬取百度首页标题 Demo #!/usr/bin/python3 import re from urllib import request#爬虫爬取百度首页内容 data=request.urlope ...
- 【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析
–转自<1900-高级农民工>http://www.makcyun.top 安装并运行pyspider 安装pyspider pip3 install pyspider 运行pyspide ...
- python爬虫学习笔记(一)—— 爬取腾讯视频影评
前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...
- Python数据爬虫学习笔记(11)爬取千图网图片数据
需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中. 分析:以数码电器板块为例 1.查看该板块的每一页的URL: 注意到第一页是&q ...
- python爬取京东手机数据_Python数据爬虫学习笔记(21)爬取京东商品JSON信息并解析...
一.需求:有一个通过抓包得到的京东商品的JSON链接,解析该JSON内容,并提取出特定id的商品价格p,json内容如下: jQuery923933([{"op":"75 ...
- Python3爬虫学习笔记——xpath练习之爬取起点网玄幻小说排行
这次看完xpath章之后巩固练习 import re import requests from lxml import etree def get_one_page(url):headers = {' ...
- Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据
需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下: 准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下: 编写代码 ...
- Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...
最新文章
- nginx-lua-openresty-graphicsmagick 下载远程图片,本地缩图红缓存加水印
- PAT甲级1120 Friend Numbers:[C++题解]set去重且有序
- Mysql数据库存储引擎--转
- java安全例外_java – 本地Applet安全例外
- UVa 264 - Count on Cantor
- 字符串处理 —— 回文串相关 —— 回文串的判断
- assertionerror是什么异常_php7异常与错误处理和自定义异常
- Python Itsdangerous
- javaScripct入门教程
- 超慢速移动动画使用CSS3实现流畅效果
- python读取文本数据--完善中
- 每日算法系列【LeetCode 123】买卖股票的最佳时机 III
- 20200727每日一句
- python程序设计基础课后答案-python语言程序设计基础(第2版)课后答案嵩天
- 10X 空间转录组学
- Unity Compute Shader入门(大量对象随机赋值颜色实验)
- js-js数据结构和算法-递归思想-斐波那契数-动态规划-贪心
- 【白皮书】以太坊 (Ethereum ):下一代智能合约和去中心化应用平台
- 2020入侵防御系统(IPS)TOP10
- 南京大学计算机学院英才计划,南京大学以“英才计划”为切入点 向前衔接高中...