第一次用python写爬虫

刚开始接触python,看网上好多都说写写爬虫锻炼一下，于是乎周末加班的时候边查边学的写了个轻之国度小说的脚本，会有很多不足之处，仅仅是锻炼尝试用python写代码~~

# -*- coding: UTF-8 -*- # Python:      2.7.8# Platform:    Windows# Program:     Get Novels From Internet# Author:      dxl# Description: Get Novels# Version:     1.0# History:     import urllib2,os,codecsfrom bs4 import BeautifulSoup#跟网址 http://lknovel.lightnovel.cn/main/vollist/66.htmlurl=''#存储路径title_path=''#抽取正则reg = '(?<=a href=")http:[^\s].+(?=")'#request消息头heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',             'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7',             'Accept-Language':'zh-cn,zh;q=0.5',             'Cache-Control':'max-age=0',             'Connection':'keep-alive',             'Host':'John',             'Keep-Alive':'115',             'Referer':url,             'User-Agent':'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.14) Gecko/20110221 Ubuntu/10.10 (maverick) Firefox/3.6.14'}#获取网页信息def getHtml(url):    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())    urllib2.install_opener(opener)     req = urllib2.Request(url)    opener.addheaders = heads.items()    respHtml = opener.open(req).read()    return respHtml;#获取小说列表def getTextList(url):    urls=[]    respHtml = getHtml(url)    soup = BeautifulSoup(respHtml)    list = soup.find_all('dd')    for x in list:        urls.append(x.find_all('a')[1].get('href'))    return urls#获取文本信息到本地def loadText(urls):    for url in urls :        load(url)#下载资源def load(url):    soup = BeautifulSoup(getHtml(url))    title=soup.find_all("h1",class_='ft-24')    title_name= title[0].find_all('strong')[0].get_text().replace('\r\n','').replace('\t','')    title_path='D:/pms_branches/MyPython/src/com/dxl/%s'%title_name    if not os.path.exists(title_path):        os.mkdir(title_path)    list= soup.find_all("li",class_='span3')     for x in list:        title_list_name= x.find_all('a')[0].find_all('span')[0].get_text().replace('\r\n','').replace('\t','').replace('?','').replace('<','').replace('>','').replace('|','').replace('*','').replace('"','').replace(':','')        title_list_path= title_path+'\%s'%title_list_name         if not os.path.exists(title_list_path):            soup_html=BeautifulSoup(getHtml(x.find_all('a')[0].get('href')))            text_lists=soup_html.find_all("div",class_='lk-view-line')            with codecs.open(title_list_path,'wb','GB18030') as fp:                for text in text_lists:                    fp.write(text.get_text())        print '完成%s'%title_list_nameif __name__=="__main__":#     url=raw_input("""输入目标网址\n       按回车键结束\n""")     url='http://lknovel.lightnovel.cn/main/vollist/573.html'     urls=getTextList(url)     loadText(urls)

第一次用python写爬虫相关推荐

爬虫python 科研有用吗_为什么说用python写爬虫有优势？
之前和做Java的小伙伴聊过对比Java和python,就以这个为开头,跟大家聊聊为什么要学习python,他有哪些优势吧~ 对比Java和python,两者区别: 1.python的requests ...
python+mysql库+json_用python写爬虫-5.1json用pandas入mysql库
pandas是一个数据处理模块,前面也已经提到了好些,用python写爬虫--4.5pandas存入excel. 这次来统一说一说,使用感想. pandas主要是Seriers和Dataframe,S ...
用Python写爬虫有哪些好处？
大家都知道,关于爬虫几乎每种编程语言都可以实现,比如:Java.C.C++.python等都可以实现爬虫,但是之所以会选择python写爬虫,是因为python具有独特的优势.那么用python语言写 ...
为什么多迪技术人员都喜欢用python写爬虫？
有更加成熟的一种爬虫脚本语言,而非框架.是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言.很多同学学php的,但是也自学过python,对php了解还是比较深的,为什么多迪技术人员都喜 ...
php和python写爬虫-可以写爬虫的那么多，为什么只有python火了？
原标题:可以写爬虫的那么多,为什么只有python火了? 网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...
php和python写爬虫-为什么选择用python做爬虫
什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当 ...
php和python写爬虫-一个简单的Python写的XML爬虫
一个简单的Python写的XML爬虫来源:程序员人生发布时间:2013-11-06 16:22:29 阅读次数:1578次原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...
php和python写爬虫-python和php哪个更适合写爬虫
python和PHP相比较,python适合做爬虫.原因如下抓取网页本身的接口相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如per ...
为什么用python写爬虫_零基础，是怎么开始写Python爬虫的
刚开始接触爬虫的时候,简直惊为天人,十几行代码,就可以将无数网页的信息全部获取下来,自动选取网页元素,自动整理成结构化的文件. 利用这些数据,可以做很多领域的分析.市场调研,获得很多有价值的信息.这种 ...
用python写爬虫（一）初识爬虫
什么是爬虫爬虫又被称之为网络蜘蛛.网络机器人等,简单来说就是模拟客户端发送网络请求,接收请求响应,按照一定的规则自动的抓取互联网信息的程序. 为什么需要爬虫 1.从个人角度来说,爬虫可以做我们的生活 ...

第一次用python写爬虫

第一次用python写爬虫相关推荐

最新文章

热门文章