第一次用python写爬虫
刚开始接触python,看网上好多都说写写爬虫锻炼一下,于是乎周末加班的时候边查边学的写了个轻之国度小说的脚本,会有很多不足之处,仅仅是锻炼尝试用python写代码~~
# -*- coding: UTF-8 -*- # Python: 2.7.8# Platform: Windows# Program: Get Novels From Internet# Author: dxl# Description: Get Novels# Version: 1.0# History: import urllib2,os,codecsfrom bs4 import BeautifulSoup#跟网址 http://lknovel.lightnovel.cn/main/vollist/66.htmlurl=''#存储路径title_path=''#抽取正则reg = '(?<=a href=")http:[^\s].+(?=")'#request消息头heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7', 'Accept-Language':'zh-cn,zh;q=0.5', 'Cache-Control':'max-age=0', 'Connection':'keep-alive', 'Host':'John', 'Keep-Alive':'115', 'Referer':url, 'User-Agent':'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.14) Gecko/20110221 Ubuntu/10.10 (maverick) Firefox/3.6.14'}#获取网页信息def getHtml(url): opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) urllib2.install_opener(opener) req = urllib2.Request(url) opener.addheaders = heads.items() respHtml = opener.open(req).read() return respHtml;#获取小说列表def getTextList(url): urls=[] respHtml = getHtml(url) soup = BeautifulSoup(respHtml) list = soup.find_all('dd') for x in list: urls.append(x.find_all('a')[1].get('href')) return urls#获取文本信息到本地def loadText(urls): for url in urls : load(url)#下载资源def load(url): soup = BeautifulSoup(getHtml(url)) title=soup.find_all("h1",class_='ft-24') title_name= title[0].find_all('strong')[0].get_text().replace('\r\n','').replace('\t','') title_path='D:/pms_branches/MyPython/src/com/dxl/%s'%title_name if not os.path.exists(title_path): os.mkdir(title_path) list= soup.find_all("li",class_='span3') for x in list: title_list_name= x.find_all('a')[0].find_all('span')[0].get_text().replace('\r\n','').replace('\t','').replace('?','').replace('<','').replace('>','').replace('|','').replace('*','').replace('"','').replace(':','') title_list_path= title_path+'\%s'%title_list_name if not os.path.exists(title_list_path): soup_html=BeautifulSoup(getHtml(x.find_all('a')[0].get('href'))) text_lists=soup_html.find_all("div",class_='lk-view-line') with codecs.open(title_list_path,'wb','GB18030') as fp: for text in text_lists: fp.write(text.get_text()) print '完成%s'%title_list_nameif __name__=="__main__":# url=raw_input("""输入目标网址\n 按回车键结束\n""") url='http://lknovel.lightnovel.cn/main/vollist/573.html' urls=getTextList(url) loadText(urls)
第一次用python写爬虫相关推荐
- 爬虫python 科研有用吗_为什么说用python写爬虫有优势?
之前和做Java的小伙伴聊过对比Java和python,就以这个为开头,跟大家聊聊为什么要学习python,他有哪些优势吧~ 对比Java和python,两者区别: 1.python的requests ...
- python+mysql库+json_用python写爬虫-5.1json用pandas入mysql库
pandas是一个数据处理模块,前面也已经提到了好些,用python写爬虫--4.5pandas存入excel. 这次来统一说一说,使用感想. pandas主要是Seriers和Dataframe,S ...
- 用Python写爬虫有哪些好处?
大家都知道,关于爬虫几乎每种编程语言都可以实现,比如:Java.C.C++.python等都可以实现爬虫,但是之所以会选择python写爬虫,是因为python具有独特的优势.那么用python语言写 ...
- 为什么多迪技术人员都喜欢用python写爬虫?
有更加成熟的一种爬虫脚本语言,而非框架.是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言.很多同学学php的,但是也自学过python,对php了解还是比较深的,为什么多迪技术人员都喜 ...
- php和python写爬虫-可以写爬虫的那么多,为什么只有python火了?
原标题:可以写爬虫的那么多,为什么只有python火了? 网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...
- php和python写爬虫-为什么选择用python做爬虫
什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当 ...
- php和python写爬虫-一个简单的Python写的XML爬虫
一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...
- php和python写爬虫-python和php哪个更适合写爬虫
python和PHP相比较,python适合做爬虫.原因如下 抓取网页本身的接口 相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如per ...
- 为什么用python写爬虫_零基础,是怎么开始写Python爬虫的
刚开始接触爬虫的时候,简直惊为天人,十几行代码,就可以将无数网页的信息全部获取下来,自动选取网页元素,自动整理成结构化的文件. 利用这些数据,可以做很多领域的分析.市场调研,获得很多有价值的信息.这种 ...
- 用python写爬虫(一)初识爬虫
什么是爬虫 爬虫又被称之为网络蜘蛛.网络机器人等,简单来说就是模拟客户端发送网络请求,接收请求响应,按照一定的规则自动的抓取互联网信息的程序. 为什么需要爬虫 1.从个人角度来说,爬虫可以做我们的生活 ...
最新文章
- map:根据 value 找 key ?
- python判断是否是小写字母_python判断字符串是字母 数字 大小写(转载)
- 如何测量代码执行时间
- 3-pycharm找不到库的解决办法
- 本地使用Rfam 12.0+
- Linux 命令(41)—— tr 命令
- UE4之Obj模型解构解析
- EMNLP 2019 丨微软亚洲研究院精选论文解读
- hyper-v 中 安装 Centos 7.0 设置网络 教程
- 记一篇IT培训日记005-Hello Java
- LAMP兄弟连 视频教程集
- SQL*Plus 系统变量之36 - PAGES[IZE]
- 【Hash篇】什么是哈希值?
- mqtt简介及在web端的应用(接入阿里iot)
- scikit-image HOG feature 提取函数使用心得。
- K8S容器编排之POD健康监控
- 异步复位同步释放 打两拍
- 永磁同步电机的MTPA最大转矩电流比控制算法的仿真模型,有详细的算法设计文档
- python ssh 爆破_ssh爆破(python脚本)
- 三人抢答器逻辑电路图_三人抢答器plc程序图分享
热门文章
- php mysql电子_用php与mysql的电子贺卡代码
- jsp注册页面java代码_JSP 实现登录注册功能-Fun言
- 前端静态页面——爱心捐赠网站
- 缺氧游戏 不给计算机加水,缺氧 泥土用完了怎么办 | 手游网游页游攻略大全
- 全国python一级考试_全国青少年软件编程(Python)等级考试试卷(一级)测试卷...
- matlab 分段函数 傅里叶变换,2005_09傅里叶变换及其应用 (第3版)_11482158.pdf
- flutter中Image.network()网络图片加载失败使用默认图片显示
- 学习游戏服务器编程进阶篇之全球同服技术架构
- 两步完成druid数据库连接池的密文配置
- php管理智能dns,智能DNS解析与用户定位调度技术