刚开始接触python,看网上好多都说写写爬虫锻炼一下,于是乎周末加班的时候边查边学的写了个轻之国度小说的脚本,会有很多不足之处,仅仅是锻炼尝试用python写代码~~

# -*- coding: UTF-8 -*- # Python:      2.7.8# Platform:    Windows# Program:     Get Novels From Internet# Author:      dxl# Description: Get Novels# Version:     1.0# History:     import urllib2,os,codecsfrom bs4 import BeautifulSoup#跟网址 http://lknovel.lightnovel.cn/main/vollist/66.htmlurl=''#存储路径title_path=''#抽取正则reg = '(?<=a href=")http:[^\s].+(?=")'#request消息头heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',             'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7',             'Accept-Language':'zh-cn,zh;q=0.5',             'Cache-Control':'max-age=0',             'Connection':'keep-alive',             'Host':'John',             'Keep-Alive':'115',             'Referer':url,             'User-Agent':'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.14) Gecko/20110221 Ubuntu/10.10 (maverick) Firefox/3.6.14'}#获取网页信息def getHtml(url):    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())    urllib2.install_opener(opener)     req = urllib2.Request(url)    opener.addheaders = heads.items()    respHtml = opener.open(req).read()    return respHtml;#获取小说列表def getTextList(url):    urls=[]    respHtml = getHtml(url)    soup = BeautifulSoup(respHtml)    list = soup.find_all('dd')    for x in list:        urls.append(x.find_all('a')[1].get('href'))    return urls#获取文本信息到本地def loadText(urls):    for url in urls :        load(url)#下载资源def load(url):    soup = BeautifulSoup(getHtml(url))    title=soup.find_all("h1",class_='ft-24')    title_name= title[0].find_all('strong')[0].get_text().replace('\r\n','').replace('\t','')    title_path='D:/pms_branches/MyPython/src/com/dxl/%s'%title_name    if not os.path.exists(title_path):        os.mkdir(title_path)    list= soup.find_all("li",class_='span3')     for x in list:        title_list_name= x.find_all('a')[0].find_all('span')[0].get_text().replace('\r\n','').replace('\t','').replace('?','').replace('<','').replace('>','').replace('|','').replace('*','').replace('"','').replace(':','')        title_list_path= title_path+'\%s'%title_list_name         if not os.path.exists(title_list_path):            soup_html=BeautifulSoup(getHtml(x.find_all('a')[0].get('href')))            text_lists=soup_html.find_all("div",class_='lk-view-line')            with codecs.open(title_list_path,'wb','GB18030') as fp:                for text in text_lists:                    fp.write(text.get_text())        print '完成%s'%title_list_nameif __name__=="__main__":#     url=raw_input("""输入目标网址\n       按回车键结束\n""")     url='http://lknovel.lightnovel.cn/main/vollist/573.html'     urls=getTextList(url)     loadText(urls)

第一次用python写爬虫相关推荐

  1. 爬虫python 科研有用吗_为什么说用python写爬虫有优势?

    之前和做Java的小伙伴聊过对比Java和python,就以这个为开头,跟大家聊聊为什么要学习python,他有哪些优势吧~ 对比Java和python,两者区别: 1.python的requests ...

  2. python+mysql库+json_用python写爬虫-5.1json用pandas入mysql库

    pandas是一个数据处理模块,前面也已经提到了好些,用python写爬虫--4.5pandas存入excel. 这次来统一说一说,使用感想. pandas主要是Seriers和Dataframe,S ...

  3. 用Python写爬虫有哪些好处?

    大家都知道,关于爬虫几乎每种编程语言都可以实现,比如:Java.C.C++.python等都可以实现爬虫,但是之所以会选择python写爬虫,是因为python具有独特的优势.那么用python语言写 ...

  4. 为什么多迪技术人员都喜欢用python写爬虫?

    有更加成熟的一种爬虫脚本语言,而非框架.是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言.很多同学学php的,但是也自学过python,对php了解还是比较深的,为什么多迪技术人员都喜 ...

  5. php和python写爬虫-可以写爬虫的那么多,为什么只有python火了?

    原标题:可以写爬虫的那么多,为什么只有python火了? 网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...

  6. php和python写爬虫-为什么选择用python做爬虫

    什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当 ...

  7. php和python写爬虫-一个简单的Python写的XML爬虫

    一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...

  8. php和python写爬虫-python和php哪个更适合写爬虫

    python和PHP相比较,python适合做爬虫.原因如下 抓取网页本身的接口 相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如per ...

  9. 为什么用python写爬虫_零基础,是怎么开始写Python爬虫的

    刚开始接触爬虫的时候,简直惊为天人,十几行代码,就可以将无数网页的信息全部获取下来,自动选取网页元素,自动整理成结构化的文件. 利用这些数据,可以做很多领域的分析.市场调研,获得很多有价值的信息.这种 ...

  10. 用python写爬虫(一)初识爬虫

    什么是爬虫 爬虫又被称之为网络蜘蛛.网络机器人等,简单来说就是模拟客户端发送网络请求,接收请求响应,按照一定的规则自动的抓取互联网信息的程序. 为什么需要爬虫 1.从个人角度来说,爬虫可以做我们的生活 ...

最新文章

  1. map:根据 value 找 key ?
  2. python判断是否是小写字母_python判断字符串是字母 数字 大小写(转载)
  3. 如何测量代码执行时间
  4. 3-pycharm找不到库的解决办法
  5. 本地使用Rfam 12.0+
  6. Linux 命令(41)—— tr 命令
  7. UE4之Obj模型解构解析
  8. EMNLP 2019 丨微软亚洲研究院精选论文解读
  9. hyper-v 中 安装 Centos 7.0 设置网络 教程
  10. 记一篇IT培训日记005-Hello Java
  11. LAMP兄弟连 视频教程集
  12. SQL*Plus 系统变量之36 - PAGES[IZE]
  13. 【Hash篇】什么是哈希值?
  14. mqtt简介及在web端的应用(接入阿里iot)
  15. scikit-image HOG feature 提取函数使用心得。
  16. K8S容器编排之POD健康监控
  17. 异步复位同步释放 打两拍
  18. 永磁同步电机的MTPA最大转矩电流比控制算法的仿真模型,有详细的算法设计文档
  19. python ssh 爆破_ssh爆破(python脚本)
  20. 三人抢答器逻辑电路图_三人抢答器plc程序图分享

热门文章

  1. php mysql电子_用php与mysql的电子贺卡代码
  2. jsp注册页面java代码_JSP 实现登录注册功能-Fun言
  3. 前端静态页面——爱心捐赠网站
  4. 缺氧游戏 不给计算机加水,缺氧 泥土用完了怎么办 | 手游网游页游攻略大全
  5. 全国python一级考试_全国青少年软件编程(Python)等级考试试卷(一级)测试卷...
  6. matlab 分段函数 傅里叶变换,2005_09傅里叶变换及其应用 (第3版)_11482158.pdf
  7. flutter中Image.network()网络图片加载失败使用默认图片显示
  8. 学习游戏服务器编程进阶篇之全球同服技术架构
  9. 两步完成druid数据库连接池的密文配置
  10. php管理智能dns,智能DNS解析与用户定位调度技术