简介:提取网页保存到txt文件中 + 解析txt文件内容,取出内容

from urllib import request
import re.jsonurl="http://www.163.com"
response = request.urlopen(url).read().decode("gbk")
# 写入一个txt文件
with open("163/163.txt","w",encoding="gbk")as f:f.write(str(response))
# 读取,用json序列化后遍历出来,取出键里面的值
with open("163/163.txt",'r+',encoding="utf-8")as f:content=f.read()
c1=content.replace(" ",'').replace("\n",'') #去掉空格、换行
c2="["+c1+"]"
cc=json.loads.(c2)  #序列化
for i in cc:print(x['title'])   #取出每个项里面“title”键的值print(x['docurl'])

简介:提取美团链接保存在一个txt文件中

#coding=utf-8
from urllib import request
from bs4 import BeautifulSoup
req=request.urlopen("http://hotel.meituan.com/xian/")
content=req.read().decode("utf8")
bsObj=BeautifulSoup(content,"html.parser")
pcontent=bsObj.findAll("a",{"class":"poi-title"})i=1
with open("meituan/url.txt","a+",encoding="utf8") as f:for x in pcontent:f.write(x['href']+"\n")    #取出 标签 里面的信息f.write(x.get_text())    #取出正文print("第"+'int(%s)'%(i)+"条url")i+=1

范例:功能实现后提高代码质量

#coding=utf-8
#获取当前地址下的所有酒店url地址
from urllib import request,error
from bs4 import BeautifulSoup
import json
for page in range(3):url="https://ihotel.meituan.com/hbsearch/HotelSearch?utm_medium=pc&version_name=999.9&cateId=20&attr_28=129&uuid=12B729E22135402D5CBC1432A179A735CF81DF50626153919EC2C66D46DCB233%401517811001478&cityId=42&offset="+str(page*20)+"&limit=20&startDay=20180205&endDay=20180205&q=&sort=defaults"try:req=request.urlopen(url)content=req.read().decode("utf8")
##                bsObj=BeautifulSoup(content,"html.parser")
##                pcontent=bsObj.findAll("a",{"class":"poi-title"})content_dict=json.loads(content)with open("meituan/url.txt","a+",encoding="utf8") as f:for x in content_dict['data']['searchresult']:print(x['poiid'])hotel_url="http://hotel.meituan.com/%s/"%x['poiid']f.write(hotel_url+"\n")except error.URLError as e:print(e.reason)

urllib添加代理IP

# -*- coding: UTF-8 -*-
from urllib import requestif __name__ == "__main__":#访问网址url = 'http://2017.ip138.com/ic.asp'#url = 'http://www.whatismyip.com.tw'#这是代理IPproxy = {'http':'113.124.226.174:808'}#创建ProxyHandlerproxy_support = request.ProxyHandler(proxy)#创建Openeropener = request.build_opener(proxy_support)#添加UserAngentopener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'),('Host','www.whatismyip.com.tw')    #这个网站能检测IP地址,所以用这个作为示例]#安装OPenerrequest.install_opener(opener)#使用自己安装好的Openerresponse = request.urlopen(url)#读取相应信息并解码html = response.read().decode("gbk")#打印信息print(html)

转载于:https://www.cnblogs.com/hellangels333/p/8602011.html

Python_爬虫_urllib解析库相关推荐

  1. 爬虫智能解析库 Readability 和 Newspaper 的用法

    舆情爬虫是网络爬虫一个比较重要的分支,舆情爬虫往往需要爬虫工程师爬取几百几千个新闻站点.比如一个新闻页面我们需要爬取其标题.正文.时间.作者等信息,如果用传统的方式来实现,每一个站点都要配置非常多的规 ...

  2. python爬虫智能解析库详解

    文章很长 请耐心阅读 什么是爬虫 爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事.比如一篇新闻吧,链接是这个: https://news.ifeng.com/c ...

  3. python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲

    @(这里写自定义目录标题) 使用XPath解析库 1.简介 ??XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言.适用于XML和HTML文档的 ...

  4. Python_爬虫_BeautifulSoup网页解析库

    BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含 的 几个解析器 Python标准库[主要,系统自带;] ...

  5. python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装(附tesserocr安装方法)...

    Python3爬虫环境配置--解析库安装(附tesserocr安装方法) 抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml ...

  6. beautifulsoup解析动态页面div未展开_两个资讯爬虫解析库的用法与对比

    " 阅读本文大概需要 10 分钟. " 舆情爬虫是网络爬虫一个比较重要的分支,舆情爬虫往往需要爬虫工程师爬取几百几千个新闻站点.比如一个新闻页面我们需要爬取其标题.正文.时间.作者 ...

  7. Python爬虫 解析库的使用

    已写章节 第一章 网络爬虫入门 第二章 基本库的使用 第三章 解析库的使用 第四章 数据存储 第五章 动态网页的抓取 文章目录 已写章节 第三章 解析库的使用 3.1BeautifulSoup 3.1 ...

  8. Python3 爬虫学习笔记 C07 【解析库 lxml】

    Python3 爬虫学习笔记第七章 -- [解析库 lxml] 文章目录 [7.1]关于 lxml [7.2]使用 XPath [7.3]查找所有节点 [7.4]查找子节点 [7.5]查找父节点 [7 ...

  9. python爬虫教程(五):解析库bs4及爬取实例

    大家好,今天分享的是解析库中的bs4,本文章的目的是让你知道如何使用bs4,并且附带爬取实例. 目录 一.bs4简介 二.安装及初始印象 1.安装 2.解析器 3.初始印象 三.选择元素的方法 1.方 ...

  10. Python爬虫下一代网络请求库httpx和parsel解析库测评

    Python网络爬虫领域两个最新的比较火的工具莫过于httpx和parsel了.httpx号称下一代的新一代的网络请求库,不仅支持requests库的所有操作,还能发送异步请求,为编写异步爬虫提供了便 ...

最新文章

  1. DFT的准备(二)(对离散时间傅里叶变换DTFT采样)
  2. 元素的子元素_从暂元里取出子元素 | Stata编程
  3. OVS openflow(二十四)
  4. c语言自增自减5运算符详解,巧用C语言中的自增自减运算符
  5. C++编程技巧—对数运算实现
  6. 相位噪声 matlab,相位噪声仿真方法.PDF
  7. collect() java_java-确保可以在并行流上订购.collect吗?
  8. 工作 10 年,月薪过万者不足三成,程序员却笑了!
  9. layui 工具条实现分页
  10. android 敏感词过滤器,android 过滤敏感词主要类
  11. java单线程爬虫使用Jsoup爬取bt磁力链接
  12. BAT4行代码让电脑蓝屏(无伤害)
  13. 耳机四根线的图解_耳机五根线如何连接
  14. #GeekPoint# 苹果的 AR 眼镜
  15. [Introduction to programming in Java 笔记] 1.3.8 Gambler's ruin simulation 赌徒破产模拟
  16. 【目标检测】SSD(Single Shot MultiBox Detector)的复现
  17. VB登录界面设计代码
  18. 攀藤 5003粉尘激光传感器arduino使用
  19. java华容道代码_用java编程 华容道游戏
  20. java生成txt表格_java读取txt文件表格并生成新txt

热门文章

  1. 解决:PHP Deprecated: Comments starting with '#' are deprecated in ……
  2. (转)Scala中协变(+)、逆变(-)、上界(:)、下界(:)简单介绍
  3. 系统优化设计方案3.20周一例会
  4. 邮件服务系统专题14:九层垃圾邮件过滤技术
  5. 宝贝,后端接口如何提高性能?
  6. Spring 最常用的 7 大类注解,史上最强整理!
  7. 京东笔试题:如何实现 MySQL 删除重复记录并且只保留一条?
  8. 如何不重启热更新线上 Java 代码?
  9. 高T技术大牛的百度十年:白天求生存,晚上求发展
  10. 百度以侵犯商业秘密起诉前高管王劲 索赔5000万 内附王劲离职承诺函