兴趣来潮,爬了下51job,但是遇到编码问题!以下是简单的一段代码

获取整个页面数据

# -*- coding:utf-8 -*-
import requests
import sysreload(sys)sys.setdefaultencoding('utf-8')
def spider(url):session = requests.Session() html = session.get(url, headers=headers)return htmlurl = 'http://www.51job.com/'
html = spider(url)

结果:

print html.encoding
>>>ISO-8859-1

html.text中的某一段

print html.text
>>>langs : {ts_qxjzw : 'ÇëÑ¡Ôñְλ' ,queren : 'È·ÈÏ' ,guanbi : '¹Ø±Õ' ,yxdd : 'ÒÑÑ¡µØµã' ,yxzn : 'ÒÑÑ¡Ö°ÄÜ' ,yxhy : 'ÒÑÑ¡ÐÐÒµ' ,nzdnxj : 'Äú×î¶àÄÜÑ¡Ôñ' ,xiang : 'Ïî' ,xjdq : 'Ñ¡ÔñµØÇø' ,xj_xg : 'Ñ¡Ôñ/ÐÞ¸Ä' ,zycs : 'Ö÷Òª³ÇÊÐ' ,sysf : 'ËùÓÐÊ¡·Ý' ,tspd : 'ÌØÊâƵµÀ',qxjgzdd : 'ÇëÑ¡Ôñ¹¤×÷µØµã' ,qxjznlb : 'ÇëÑ¡ÔñÖ°ÄÜÀà±ð' ,qxjhylb : 'ÇëÑ¡ÔñÐÐÒµÀà±ð' ,gzdd : '¹¤×÷µØµã' ,buxian : '²»ÏÞ'} ,

我设置html.text.decode('ISO-8859-1'),报错!UnicodeEncodeError: 'ascii' codec can't encode characters in position 249-254: ordinal not in range(128)

翻阅了些资料,最终添加了 html.encoding = 'gbk',搞定!

代码:

# -*- coding:utf-8 -*-
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def spider(url):session = requests.Session() html = session.get(url, headers=headers)html.encoding = 'gbk'return htmlurl = 'http://www.51job.com/'
html = spider(url)

展示html中的一段

print html.text
>>>langs : {ts_qxjzw : '请选择职位' ,queren : '确认' ,guanbi : '关闭' ,yxdd : '已选地点' ,yxzn : '已选职能' ,yxhy : '已选行业' ,nzdnxj : '您最多能选择' ,xiang : '项' ,xjdq : '选择地区' ,xj_xg : '选择/修改' ,zycs : '主要城市' ,sysf : '所有省份' ,tspd : '特殊频道',qxjgzdd : '请选择工作地点' ,qxjznlb : '请选择职能类别' ,qxjhylb : '请选择行业类别' ,gzdd : '工作地点' ,buxian : '不限'} ,

转载于:https://www.cnblogs.com/dwz1011/p/6284832.html

爬取51job职位信息之编码问题相关推荐

  1. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

  2. 爬取51job职位信息--进行专业市场需求可视化分析(python、tableau、DBeaver)

    爬取51job信管专业相关岗位的情况进行可视化分析. 采用工具:python.tableau(可视化).DBeaver(数据库管理软件) 文章目录 一.数据爬取 1.1导入相关的库 1.2对每个岗位搜 ...

  3. 怎么防爬虫爬取信息_scrapy爬取51job职位信息(针对新的反爬虫机制)!

    1 定义抓取内容 在items.py中添加如下代码: class Job51Item(scrapy.Item):title = scrapy.Field()salary = scrapy.Field( ...

  4. [Python] scrapy + selenium 抓取51job 职位信息(实现 传参 控制抓取 页数+职位名称+城市)

    目录 一.目标 二.51job网页分析: 1.网页构成观察 2.网页分析 三.代码实现 1. 踩过的坑-----实现城市选择 2.代码实现 3.代码优化 1)存放格式优化 2)在爬虫中去掉\xa0\x ...

  5. 爬虫实战之全站爬取拉勾网职位信息

    全站爬取拉勾网职位信息 一.环境 window7 scrapy MySQL 二.简介 scrapy的全站爬取方式crawlspider跟其通用爬取方式spider实现上有一定的区别,两者都有各自的优势 ...

  6. java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息

    [Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...

  7. scrapy 爬取拉勾网职位信息

    需求:1.使用python爬虫框架,爬取拉勾网职位信息, 2.将爬取的职位信息存储到json格式的文件中 3.将爬取的数据进行数据分析 1.图片中的链接是职位列表页的链接,进行翻页,该链接没有变化,无 ...

  8. SeleniumChrome实战:动态爬取51job招聘信息

    一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息 输入会 ...

  9. python爬取前程无忧职位信息

    欢迎关注我的微信公众号:AI进阶者,每天分享技术干货 相信很多小伙伴都面临找工作的问题,本人目前正在魔都读研,也面临明年春招找实习秋招找工作等一系列问题,由于本人的专业为机械专业,结合今年的就业状况( ...

最新文章

  1. vsftpd安装问题汇总(持续更新。。)
  2. 本地 服务器 文件传输,本地服务器文件传输
  3. 可缺一台洗衣机的ykcchf
  4. ACE主动对象模式(1)
  5. linux内核驱动摄像头图片,详解linux 摄像头驱动编写
  6. 1078 最小生成树
  7. Go Web编程(Go语言性能好、语法简单、开发效率高!)
  8. RIP/EIGRP/OSPF/ISIS使用的端口号/协议号
  9. Linux电脑怎么接投影,linux如何连接投影机
  10. 【网页截图亲测可用】Linux + python3 + selenium + chrome + chrome-driver 服务器端网页截图
  11. 已知从1970年1月1日0分0秒到目前的总秒数计算当前时间
  12. python表示整数的点称为整点_礼行天下 仪动职场智慧树网课答案
  13. python用sympy解二元一次方程等数学运算
  14. iphone主屏幕动态壁纸_iPhone不需长按自动触发动态壁纸教程
  15. Oracle公司中文翻译为“甲骨文”的来源是什么?
  16. 使用FFmpeg将一张图片和一段音频转换成视频
  17. Cadence OrCAD Capture 检索和定位功能的介绍图文视频教程
  18. 百度地图:新的瓦片生成工具来了
  19. View 点击事件的分发机制
  20. Java 多线程之间通讯(面试概念解答三)

热门文章

  1. VB.NET实现DirectSound9 (8) 音效控制器
  2. python念什么_python读什么
  3. 解决准考证不能打印不能截图的一种方法
  4. spring boot信佳玩具有限公司仓库管理系统毕业设计源码011553
  5. 一台电脑两个网卡接入两个网络
  6. 5-3-BP神经网络
  7. 使用Gmail邮箱攻略
  8. 用老版计算机弹音乐少年,15年前,这部电影用音乐,拯救了一个迷失少年!
  9. angular2--安装和使用
  10. 【MoveIt】入门教程-第一章(上)Move Group C++ Interface(官方教程翻译+个人补充)