爬取51job职位信息之编码问题
兴趣来潮,爬了下51job,但是遇到编码问题!以下是简单的一段代码
获取整个页面数据
# -*- coding:utf-8 -*-
import requests
import sysreload(sys)sys.setdefaultencoding('utf-8')
def spider(url):session = requests.Session() html = session.get(url, headers=headers)return htmlurl = 'http://www.51job.com/' html = spider(url)
结果:
print html.encoding >>>ISO-8859-1
html.text中的某一段
print html.text >>>langs : {ts_qxjzw : 'ÇëÑ¡Ôñְλ' ,queren : 'È·ÈÏ' ,guanbi : '¹Ø±Õ' ,yxdd : 'ÒÑÑ¡µØµã' ,yxzn : 'ÒÑÑ¡Ö°ÄÜ' ,yxhy : 'ÒÑÑ¡ÐÐÒµ' ,nzdnxj : 'Äú×î¶àÄÜÑ¡Ôñ' ,xiang : 'Ïî' ,xjdq : 'Ñ¡ÔñµØÇø' ,xj_xg : 'Ñ¡Ôñ/ÐÞ¸Ä' ,zycs : 'Ö÷Òª³ÇÊÐ' ,sysf : 'ËùÓÐÊ¡·Ý' ,tspd : 'ÌØÊâƵµÀ',qxjgzdd : 'ÇëÑ¡Ôñ¹¤×÷µØµã' ,qxjznlb : 'ÇëÑ¡ÔñÖ°ÄÜÀà±ð' ,qxjhylb : 'ÇëÑ¡ÔñÐÐÒµÀà±ð' ,gzdd : '¹¤×÷µØµã' ,buxian : '²»ÏÞ'} ,
我设置html.text.decode('ISO-8859-1'),报错!UnicodeEncodeError: 'ascii' codec can't encode characters in position 249-254: ordinal not in range(128)
翻阅了些资料,最终添加了 html.encoding = 'gbk',搞定!
代码:
# -*- coding:utf-8 -*- import requests import sys reload(sys) sys.setdefaultencoding('utf-8') def spider(url):session = requests.Session() html = session.get(url, headers=headers)html.encoding = 'gbk'return htmlurl = 'http://www.51job.com/' html = spider(url)
展示html中的一段
print html.text >>>langs : {ts_qxjzw : '请选择职位' ,queren : '确认' ,guanbi : '关闭' ,yxdd : '已选地点' ,yxzn : '已选职能' ,yxhy : '已选行业' ,nzdnxj : '您最多能选择' ,xiang : '项' ,xjdq : '选择地区' ,xj_xg : '选择/修改' ,zycs : '主要城市' ,sysf : '所有省份' ,tspd : '特殊频道',qxjgzdd : '请选择工作地点' ,qxjznlb : '请选择职能类别' ,qxjhylb : '请选择行业类别' ,gzdd : '工作地点' ,buxian : '不限'} ,
转载于:https://www.cnblogs.com/dwz1011/p/6284832.html
爬取51job职位信息之编码问题相关推荐
- Python Scrapy爬虫框架爬取51job职位信息并保存至数据库
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...
- 爬取51job职位信息--进行专业市场需求可视化分析(python、tableau、DBeaver)
爬取51job信管专业相关岗位的情况进行可视化分析. 采用工具:python.tableau(可视化).DBeaver(数据库管理软件) 文章目录 一.数据爬取 1.1导入相关的库 1.2对每个岗位搜 ...
- 怎么防爬虫爬取信息_scrapy爬取51job职位信息(针对新的反爬虫机制)!
1 定义抓取内容 在items.py中添加如下代码: class Job51Item(scrapy.Item):title = scrapy.Field()salary = scrapy.Field( ...
- [Python] scrapy + selenium 抓取51job 职位信息(实现 传参 控制抓取 页数+职位名称+城市)
目录 一.目标 二.51job网页分析: 1.网页构成观察 2.网页分析 三.代码实现 1. 踩过的坑-----实现城市选择 2.代码实现 3.代码优化 1)存放格式优化 2)在爬虫中去掉\xa0\x ...
- 爬虫实战之全站爬取拉勾网职位信息
全站爬取拉勾网职位信息 一.环境 window7 scrapy MySQL 二.简介 scrapy的全站爬取方式crawlspider跟其通用爬取方式spider实现上有一定的区别,两者都有各自的优势 ...
- java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息
[Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...
- scrapy 爬取拉勾网职位信息
需求:1.使用python爬虫框架,爬取拉勾网职位信息, 2.将爬取的职位信息存储到json格式的文件中 3.将爬取的数据进行数据分析 1.图片中的链接是职位列表页的链接,进行翻页,该链接没有变化,无 ...
- SeleniumChrome实战:动态爬取51job招聘信息
一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息 输入会 ...
- python爬取前程无忧职位信息
欢迎关注我的微信公众号:AI进阶者,每天分享技术干货 相信很多小伙伴都面临找工作的问题,本人目前正在魔都读研,也面临明年春招找实习秋招找工作等一系列问题,由于本人的专业为机械专业,结合今年的就业状况( ...
最新文章
- vsftpd安装问题汇总(持续更新。。)
- 本地 服务器 文件传输,本地服务器文件传输
- 可缺一台洗衣机的ykcchf
- ACE主动对象模式(1)
- linux内核驱动摄像头图片,详解linux 摄像头驱动编写
- 1078 最小生成树
- Go Web编程(Go语言性能好、语法简单、开发效率高!)
- RIP/EIGRP/OSPF/ISIS使用的端口号/协议号
- Linux电脑怎么接投影,linux如何连接投影机
- 【网页截图亲测可用】Linux + python3 + selenium + chrome + chrome-driver 服务器端网页截图
- 已知从1970年1月1日0分0秒到目前的总秒数计算当前时间
- python表示整数的点称为整点_礼行天下 仪动职场智慧树网课答案
- python用sympy解二元一次方程等数学运算
- iphone主屏幕动态壁纸_iPhone不需长按自动触发动态壁纸教程
- Oracle公司中文翻译为“甲骨文”的来源是什么?
- 使用FFmpeg将一张图片和一段音频转换成视频
- Cadence OrCAD Capture 检索和定位功能的介绍图文视频教程
- 百度地图:新的瓦片生成工具来了
- View 点击事件的分发机制
- Java 多线程之间通讯(面试概念解答三)