爬取51job职位信息之编码问题

兴趣来潮，爬了下51job，但是遇到编码问题！以下是简单的一段代码

获取整个页面数据

# -*- coding:utf-8 -*-

import requests

import sysreload(sys)sys.setdefaultencoding('utf-8')

def spider(url):session = requests.Session() html = session.get(url, headers=headers)return htmlurl = 'http://www.51job.com/'
html = spider(url)

结果：

print html.encoding
>>>ISO-8859-1

html.text中的某一段

print html.text
>>>langs : {ts_qxjzw : 'ÇëÑ¡ÔñÖ°Î»' ,queren : 'È·ÈÏ' ,guanbi : '¹Ø±Õ' ,yxdd : 'ÒÑÑ¡µØµã' ,yxzn : 'ÒÑÑ¡Ö°ÄÜ' ,yxhy : 'ÒÑÑ¡ÐÐÒµ' ,nzdnxj : 'Äú×î¶àÄÜÑ¡Ôñ' ,xiang : 'Ïî' ,xjdq : 'Ñ¡ÔñµØÇø' ,xj_xg : 'Ñ¡Ôñ/ÐÞ¸Ä' ,zycs : 'Ö÷Òª³ÇÊÐ' ,sysf : 'ËùÓÐÊ¡·Ý' ,tspd : 'ÌØÊâÆµµÀ',qxjgzdd : 'ÇëÑ¡Ôñ¹¤×÷µØµã' ,qxjznlb : 'ÇëÑ¡ÔñÖ°ÄÜÀà±ð' ,qxjhylb : 'ÇëÑ¡ÔñÐÐÒµÀà±ð' ,gzdd : '¹¤×÷µØµã' ,buxian : '²»ÏÞ'} ,

我设置html.text.decode('ISO-8859-1')，报错！UnicodeEncodeError: 'ascii' codec can't encode characters in position 249-254: ordinal not in range(128)

翻阅了些资料，最终添加了 html.encoding = 'gbk'，搞定！

代码：

# -*- coding:utf-8 -*-
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def spider(url):session = requests.Session() html = session.get(url, headers=headers)html.encoding = 'gbk'return htmlurl = 'http://www.51job.com/'
html = spider(url)

展示html中的一段

print html.text
>>>langs : {ts_qxjzw : '请选择职位' ,queren : '确认' ,guanbi : '关闭' ,yxdd : '已选地点' ,yxzn : '已选职能' ,yxhy : '已选行业' ,nzdnxj : '您最多能选择' ,xiang : '项' ,xjdq : '选择地区' ,xj_xg : '选择/修改' ,zycs : '主要城市' ,sysf : '所有省份' ,tspd : '特殊频道',qxjgzdd : '请选择工作地点' ,qxjznlb : '请选择职能类别' ,qxjhylb : '请选择行业类别' ,gzdd : '工作地点' ,buxian : '不限'} ,

转载于:https://www.cnblogs.com/dwz1011/p/6284832.html

爬取51job职位信息之编码问题相关推荐

Python Scrapy爬虫框架爬取51job职位信息并保存至数据库
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...
爬取51job职位信息--进行专业市场需求可视化分析（python、tableau、DBeaver）
爬取51job信管专业相关岗位的情况进行可视化分析. 采用工具:python.tableau(可视化).DBeaver(数据库管理软件) 文章目录一．数据爬取 1.1导入相关的库 1.2对每个岗位搜 ...
怎么防爬虫爬取信息_scrapy爬取51job职位信息（针对新的反爬虫机制）！
1 定义抓取内容在items.py中添加如下代码: class Job51Item(scrapy.Item):title = scrapy.Field()salary = scrapy.Field( ...
[Python] scrapy + selenium 抓取51job 职位信息（实现传参控制抓取页数+职位名称+城市）
目录一.目标二.51job网页分析: 1.网页构成观察 2.网页分析三.代码实现 1. 踩过的坑-----实现城市选择 2.代码实现 3.代码优化 1)存放格式优化 2)在爬虫中去掉\xa0\x ...
爬虫实战之全站爬取拉勾网职位信息
全站爬取拉勾网职位信息一.环境 window7 scrapy MySQL 二.简介 scrapy的全站爬取方式crawlspider跟其通用爬取方式spider实现上有一定的区别,两者都有各自的优势 ...
java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息
[Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...
scrapy 爬取拉勾网职位信息
需求:1.使用python爬虫框架,爬取拉勾网职位信息, 2.将爬取的职位信息存储到json格式的文件中 3.将爬取的数据进行数据分析 1.图片中的链接是职位列表页的链接,进行翻页,该链接没有变化,无 ...
SeleniumChrome实战:动态爬取51job招聘信息
一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息输入会 ...
python爬取前程无忧职位信息
欢迎关注我的微信公众号:AI进阶者,每天分享技术干货相信很多小伙伴都面临找工作的问题,本人目前正在魔都读研,也面临明年春招找实习秋招找工作等一系列问题,由于本人的专业为机械专业,结合今年的就业状况( ...

爬取51job职位信息之编码问题

爬取51job职位信息之编码问题相关推荐

最新文章

热门文章