Python_爬虫_urllib解析库

简介：提取网页保存到txt文件中 + 解析txt文件内容，取出内容

from urllib import request
import re.jsonurl="http://www.163.com"
response = request.urlopen(url).read().decode("gbk")
# 写入一个txt文件
with open("163/163.txt","w",encoding="gbk")as f:f.write(str(response))
# 读取,用json序列化后遍历出来，取出键里面的值
with open("163/163.txt",'r+',encoding="utf-8")as f:content=f.read()
c1=content.replace(" ",'').replace("\n",'') #去掉空格、换行
c2="["+c1+"]"
cc=json.loads.(c2)  #序列化
for i in cc:print(x['title'])   #取出每个项里面“title”键的值print(x['docurl'])

简介：提取美团链接保存在一个txt文件中

#coding=utf-8
from urllib import request
from bs4 import BeautifulSoup
req=request.urlopen("http://hotel.meituan.com/xian/")
content=req.read().decode("utf8")
bsObj=BeautifulSoup(content,"html.parser")
pcontent=bsObj.findAll("a",{"class":"poi-title"})i=1
with open("meituan/url.txt","a+",encoding="utf8") as f:for x in pcontent:f.write(x['href']+"\n")    #取出 标签 里面的信息f.write(x.get_text())    #取出正文print("第"+'int(%s)'%(i)+"条url")i+=1

范例：功能实现后提高代码质量

#coding=utf-8
#获取当前地址下的所有酒店url地址
from urllib import request,error
from bs4 import BeautifulSoup
import json
for page in range(3):url="https://ihotel.meituan.com/hbsearch/HotelSearch?utm_medium=pc&version_name=999.9&cateId=20&attr_28=129&uuid=12B729E22135402D5CBC1432A179A735CF81DF50626153919EC2C66D46DCB233%401517811001478&cityId=42&offset="+str(page*20)+"&limit=20&startDay=20180205&endDay=20180205&q=&sort=defaults"try:req=request.urlopen(url)content=req.read().decode("utf8")
##                bsObj=BeautifulSoup(content,"html.parser")
##                pcontent=bsObj.findAll("a",{"class":"poi-title"})content_dict=json.loads(content)with open("meituan/url.txt","a+",encoding="utf8") as f:for x in content_dict['data']['searchresult']:print(x['poiid'])hotel_url="http://hotel.meituan.com/%s/"%x['poiid']f.write(hotel_url+"\n")except error.URLError as e:print(e.reason)

urllib添加代理IP

# -*- coding: UTF-8 -*-
from urllib import requestif __name__ == "__main__":#访问网址url = 'http://2017.ip138.com/ic.asp'#url = 'http://www.whatismyip.com.tw'#这是代理IPproxy = {'http':'113.124.226.174:808'}#创建ProxyHandlerproxy_support = request.ProxyHandler(proxy)#创建Openeropener = request.build_opener(proxy_support)#添加UserAngentopener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'),('Host','www.whatismyip.com.tw')    #这个网站能检测IP地址，所以用这个作为示例]#安装OPenerrequest.install_opener(opener)#使用自己安装好的Openerresponse = request.urlopen(url)#读取相应信息并解码html = response.read().decode("gbk")#打印信息print(html)

转载于:https://www.cnblogs.com/hellangels333/p/8602011.html

Python_爬虫_urllib解析库相关推荐

爬虫智能解析库 Readability 和 Newspaper 的用法
舆情爬虫是网络爬虫一个比较重要的分支,舆情爬虫往往需要爬虫工程师爬取几百几千个新闻站点.比如一个新闻页面我们需要爬取其标题.正文.时间.作者等信息,如果用传统的方式来实现,每一个站点都要配置非常多的规 ...
python爬虫智能解析库详解
文章很长请耐心阅读什么是爬虫爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事.比如一篇新闻吧,链接是这个: https://news.ifeng.com/c ...
python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲
@(这里写自定义目录标题) 使用XPath解析库 1.简介 ??XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言.适用于XML和HTML文档的 ...
Python_爬虫_BeautifulSoup网页解析库
BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含的几个解析器 Python标准库[主要,系统自带;] ...
python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装（附tesserocr安装方法）...
Python3爬虫环境配置--解析库安装(附tesserocr安装方法) 抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml ...
beautifulsoup解析动态页面div未展开_两个资讯爬虫解析库的用法与对比
" 阅读本文大概需要 10 分钟. " 舆情爬虫是网络爬虫一个比较重要的分支,舆情爬虫往往需要爬虫工程师爬取几百几千个新闻站点.比如一个新闻页面我们需要爬取其标题.正文.时间.作者 ...
Python爬虫解析库的使用
已写章节第一章网络爬虫入门第二章基本库的使用第三章解析库的使用第四章数据存储第五章动态网页的抓取文章目录已写章节第三章解析库的使用 3.1BeautifulSoup 3.1 ...
Python3 爬虫学习笔记 C07 【解析库 lxml】
Python3 爬虫学习笔记第七章 -- [解析库 lxml] 文章目录 [7.1]关于 lxml [7.2]使用 XPath [7.3]查找所有节点 [7.4]查找子节点 [7.5]查找父节点 [7 ...
python爬虫教程（五）：解析库bs4及爬取实例
大家好,今天分享的是解析库中的bs4,本文章的目的是让你知道如何使用bs4,并且附带爬取实例. 目录一.bs4简介二.安装及初始印象 1.安装 2.解析器 3.初始印象三.选择元素的方法 1.方 ...
Python爬虫下一代网络请求库httpx和parsel解析库测评
Python网络爬虫领域两个最新的比较火的工具莫过于httpx和parsel了.httpx号称下一代的新一代的网络请求库,不仅支持requests库的所有操作,还能发送异步请求,为编写异步爬虫提供了便 ...

Python_爬虫_urllib解析库

简介：提取网页保存到txt文件中 + 解析txt文件内容，取出内容

简介：提取美团链接保存在一个txt文件中

范例：功能实现后提高代码质量

urllib添加代理IP

Python_爬虫_urllib解析库相关推荐

最新文章

热门文章