用python 爬取百度百科内容-使用python爬取小说全部内容
爬取代码为import urllib.request
from bs4 import BeautifulSoup
#coding: utf-8
class xiaoShuo():
def __init__(self,url,parLabelValue,parLabelType,parLabel,clildLabelValue,clildLabelType,clildLabel,enc):
self.url = url;
self.parLabelValue = parLabelValue;
self.parLabelType = parLabelType;
self.enc=enc;
self.parLabel = parLabel;
self.clildLabelValue = clildLabelValue;
self.clildLabelType = clildLabelType;
self.clildLabel = clildLabel;
def getUrlContent(self):
response = urllib.request.urlopen(self.url);
html = response.read().decode(self.enc);
pageNode = BeautifulSoup(html, 'html.parser')
iterms = pageNode.find_all(self.parLabel,{self.parLabelType:self.parLabelValue})
for i in range(len(iterms)):
tagA = iterms[i].select("a");
for j in range(len(tagA)):
# print("%s: %s"%(tagA[j].get_text(),tagA[j].get("href")))
content = self.getXiaoShuoContent(self.url,self.clildLabel,self.clildLabelValue,self.clildLabelType,self.enc)
print(content)
def getXiaoShuoContent(self,url,childLabel,childLabelValue,childLabelType,enc):
response = urllib.request.urlopen(url);
html = response.read().decode(enc);
pageNode = BeautifulSoup(html, 'html.parser')
iterms = pageNode.find_all(childLabel, {childLabelType: childLabelValue})
content = "";
for i in range(len(iterms)):
content = iterms[i].get_text(),
return content;
def writeTofile(self,fileName,content):
try:
with open("%s.txt" %(fileName), "w") as f: # 格式化字符串还能这么用!
for i in content:
f.write(i)
except:
print("写入错误")
a = xiaoShuo("https://www.szzyue.com/dushu/11/11255/","L","class","td","contents","id","dd","gbk");
html = a.getUrlContent();
# print(html)
用python 爬取百度百科内容-使用python爬取小说全部内容相关推荐
- 用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数 ...
- python爬取百度百科表格_第一个python爬虫(python3爬取百度百科1000个页面)
以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介 爬虫:一段自动抓取互联网信息的程序 爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...
- python 百度百科 爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
- python 爬取百度知道,Python 爬虫爬取百度百科网站
利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...
- 学习开源web知识图谱项目,爬取百度百科中文页面
github上找到的项目,感觉比较适合知识图谱入门 源码地址:https://github.com/lixiang0/WEB_KG ubuntu环境(如果在windows下跑改下文件路径,我改了一下还 ...
- 实战爬取百度百科1000多个页面,发现惊天大密,你们猜猜看
推荐一下我建的python学习交流qun:850973621,群里有免费的视频教程,开发工具. 电子书籍.项目源码分享.一起交流学习,一起进步! 爬虫最简单的架构就三个方面: 1.URL管理器:主要负 ...
- python类百度百科_Python抓取百度百科数据
抓取策略 确定目标:确定抓取哪个网站的哪些页面的哪部分数据.本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介. 分析目标:分析要抓取的url的格式,限定抓取范围.分析要抓 ...
- python爬虫百度百科-如何入门 Python 爬虫?
目前网上有关网页爬虫的指导有很多,但是套路却是千篇一律,基本都是围绕以下内容进行展开,CSS/html等网页知识 requests或urllib BeautifulSoup或正则表达式 Seleniu ...
- python爬虫实战(一)~爬取百度百科人物的文本+图片信息+Restful api接口
我的github地址:https://github.com/yuyongsheng1990/python_spider_from_bdbaike # -*- coding: UTF-8 -*- # @ ...
- 【爬虫实战】10应用Python网络爬虫——定向爬取百度百科文字
python百度百科爬虫 网页源代码分析 编程实现 小结 网页源代码分析 首先找一下需要爬取的正文: 对应的源代码有两个地方: 上图往后翻会发现省略号,所以下面这张图才是我们需要爬取的部分: 编程实现 ...
最新文章
- 传图识字有次数限制吗_5岁娃识字3000?别羡慕!过早逼娃认字,后果很严重
- php执行跟踪_PHP使用debug_backtrace方法跟踪调试代码调用详解
- SpringBoot文件上传源码解析
- 汇编语言——十种寻址方式
- Jerry的ABAP原创技术文章合集
- sentinel接入网关应用_阿里Sentinel整合Zuul网关详解
- 兰州大学第一届 飞马杯 ★★快乐苹果树★★ 树链剖分 + 懒标记 + 树状数组
- centos重新安装yum
- 电商素材网站解救节日美工忙,赶紧收藏
- UI素材|管理系统数字可视化界面
- EF性能优化-有人说EF性能低,我想说:EF确实不如ADO.NET
- 消息队列(MQ):ZeroMQ基本原理
- vi/vim编辑器使用方法详解
- 递归算法实例:阶乘(vb.net代码)
- java设置打印字体大小_PHP调整字体大小打印到网络热敏打印机
- 《数据分析:企业的贤内助[陈哲]》——读书笔记
- vue笔记——本地应用
- 大厂高频面试题之Java内存区域分布
- strcmp函数(讲解)
- webpack配置完全指南
热门文章
- (转)java DecimalFormat用法
- flash 版的mp3编码代码
- python爬虫如何从一个页面进入另一个页面-Python爬虫怎么获取下一页的URL和网页内容?...
- python编程可以做什么工作-Python学到什么程度才可以去找工作?掌握这4点足够了!...
- python有趣的小项目-Python几个有趣和特别的小故事
- python详细安装教程环境配置-如何安装Python(环境设置)?详细安装步骤图解
- python urllib.request 爬虫 数据处理-python爬虫1--urllib请求库之request模块
- python实现文件下载-python实现文件上传下载
- python3.6.4安装教程-python3.6.4如何安装到树莓派3代
- python编程语言能干什么-python编程语言的优势与劣势--python能干啥