问 题

#!/usr/bin/python

# -*- coding: utf-8 -*-

import urllib2

import re

import HTMLParser

class WALLSTREET:

def __init__(self, baseUrl):

self.url = baseUrl

def get_html_content(self):

url = self.url

response = urllib2.urlopen(url)

str = response.read()

print str

baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url

ws = WALLSTREET(baseUrl)

ws.get_html_content()

以上是代码,写的很简单,但是print出来的是乱码

尝试了 print str.decode(“utf-8“”)

但是报错

UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

解决方案

str = response.read()这句有两个问题:

1、str是内置关键字必须更改为其他变量名

2、查看网页源代码的编码方式,如果为utf-8在read()后加.decode('utf-8'),若为其他可以相应解码

小建议这种小程序写个函数会比用类来更加方便,无论是使用还是实现

扫一扫关注IT屋

微信公众号搜索 “ IT屋 ” ,选择关注与百万开发者在一起

python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...相关推荐

  1. python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...

    Python爬虫获取某个网页所有的a标签中的超链接网址 安装BeautifulSoup 管理员身份运行命令行,然后命令行中输入以下命令: pip install beautifulsoup4 爬虫核心 ...

  2. Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】

    Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

  3. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  4. python爬取网页上的特定链接_python 用bs4解析网页后,如何循环打开爬取出来的网址链接?...

    请问,用beautiful soup爬取特定网页后提取tag 'a',抓取里面的网址,打开特定的网址,循环特定次数,最后打印出想要的网址,如何操作? 详细的要求如下图: 我的代码如下: import ...

  5. python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息

    Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...

  6. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  7. python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息

    #!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...

  8. python爬取微博热搜写入数据库_python爬虫爬取微博热搜

    [实例简介] [实例截图] [核心代码] import requests                #数据抓取库 from lxml import etree         #数据解析库 imp ...

  9. python爬取豆瓣电影top250的名字_Python爬虫-爬取豆瓣电影Top250

    小菜鸟一枚,这是第五个爬虫吧,记录一下 #!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import Beau ...

最新文章

  1. php模拟post上传图片,php模拟post上传图片解决方法
  2. python共享内存
  3. C++实现计数排序(附完整源码)
  4. 浅谈SQL Server 对于内存的管理
  5. jquery 数组添加不重复数据
  6. abap代码获取采购订单po中的抬头文本
  7. LeetCode 1362. 最接近的因数
  8. php oauth 扩展,PHP扩展之Web服务(一)——OAuth
  9. 大数据之-Hadoop3.x_MapReduce_shuffle机制---大数据之hadoop3.x工作笔记0110
  10. 看这篇就够了!一文读懂拜占庭将军问题
  11. Android ImageView 正确使用姿势
  12. python deap_遗传算法库DEAP的示例代码的学习和分析
  13. Chrome 页面呈现原理与性能优化(内附分享 ppt)
  14. 写在博客文章后,关于为什么要写博客,特此提醒自己。
  15. 硬件负载均衡设备介绍
  16. 2018蓝桥模拟赛 天上的星星
  17. 堆内存和栈内存的区别(通俗版)
  18. 下载文件提示【SmartScreen筛选器已阻止了下载】,处理方法
  19. 这么简单的抓包神器?15块钱?两块钱就搞定!
  20. Android MTK LCM Driver 屏驱动

热门文章

  1. 解决github很慢的问题
  2. eclipse中测试Hibernate异常报 ORA-00926: 缺失 VALUES 关键字
  3. 解决ubuntu上ifconfig没有eth0/ens33且无法上网的问题
  4. jmeter发送json数据,报405、400错误解决方案
  5. HTTP 错误 500.19- Internal Server Error 错误解决方法
  6. 出现should be mapped with insert=“false“ update=“false“的解决方法
  7. 在Vim中有没有一种方法可以在不将文本放入寄存器的情况下删除?
  8. C语言:指针的几种形式
  9. 浅析React之事件系统(二)
  10. 东莞日报报道:比派科技(banana pi)致力于打通物联风创业生态链》