python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...
问 题
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
import HTMLParser
class WALLSTREET:
def __init__(self, baseUrl):
self.url = baseUrl
def get_html_content(self):
url = self.url
response = urllib2.urlopen(url)
str = response.read()
print str
baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url
ws = WALLSTREET(baseUrl)
ws.get_html_content()
以上是代码,写的很简单,但是print出来的是乱码
尝试了 print str.decode(“utf-8“”)
但是报错
UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte
解决方案
str = response.read()这句有两个问题:
1、str是内置关键字必须更改为其他变量名
2、查看网页源代码的编码方式,如果为utf-8在read()后加.decode('utf-8'),若为其他可以相应解码
小建议这种小程序写个函数会比用类来更加方便,无论是使用还是实现
扫一扫关注IT屋
微信公众号搜索 “ IT屋 ” ,选择关注与百万开发者在一起
python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...相关推荐
- python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...
Python爬虫获取某个网页所有的a标签中的超链接网址 安装BeautifulSoup 管理员身份运行命令行,然后命令行中输入以下命令: pip install beautifulsoup4 爬虫核心 ...
- Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
- python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...
- python爬取网页上的特定链接_python 用bs4解析网页后,如何循环打开爬取出来的网址链接?...
请问,用beautiful soup爬取特定网页后提取tag 'a',抓取里面的网址,打开特定的网址,循环特定次数,最后打印出想要的网址,如何操作? 详细的要求如下图: 我的代码如下: import ...
- python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
- 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集
今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...
- python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息
#!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...
- python爬取微博热搜写入数据库_python爬虫爬取微博热搜
[实例简介] [实例截图] [核心代码] import requests #数据抓取库 from lxml import etree #数据解析库 imp ...
- python爬取豆瓣电影top250的名字_Python爬虫-爬取豆瓣电影Top250
小菜鸟一枚,这是第五个爬虫吧,记录一下 #!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import Beau ...
最新文章
- php模拟post上传图片,php模拟post上传图片解决方法
- python共享内存
- C++实现计数排序(附完整源码)
- 浅谈SQL Server 对于内存的管理
- jquery 数组添加不重复数据
- abap代码获取采购订单po中的抬头文本
- LeetCode 1362. 最接近的因数
- php oauth 扩展,PHP扩展之Web服务(一)——OAuth
- 大数据之-Hadoop3.x_MapReduce_shuffle机制---大数据之hadoop3.x工作笔记0110
- 看这篇就够了!一文读懂拜占庭将军问题
- Android ImageView 正确使用姿势
- python deap_遗传算法库DEAP的示例代码的学习和分析
- Chrome 页面呈现原理与性能优化(内附分享 ppt)
- 写在博客文章后,关于为什么要写博客,特此提醒自己。
- 硬件负载均衡设备介绍
- 2018蓝桥模拟赛 天上的星星
- 堆内存和栈内存的区别(通俗版)
- 下载文件提示【SmartScreen筛选器已阻止了下载】,处理方法
- 这么简单的抓包神器?15块钱?两块钱就搞定!
- Android MTK LCM Driver 屏驱动
热门文章
- 解决github很慢的问题
- eclipse中测试Hibernate异常报 ORA-00926: 缺失 VALUES 关键字
- 解决ubuntu上ifconfig没有eth0/ens33且无法上网的问题
- jmeter发送json数据,报405、400错误解决方案
- HTTP 错误 500.19- Internal Server Error 错误解决方法
- 出现should be mapped with insert=“false“ update=“false“的解决方法
- 在Vim中有没有一种方法可以在不将文本放入寄存器的情况下删除?
- C语言:指针的几种形式
- 浅析React之事件系统(二)
- 东莞日报报道:比派科技(banana pi)致力于打通物联风创业生态链》