python 读取网页并分词
代码:
import requests
from bs4 import BeautifulSoup
import jieba# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:# <p>标签的处理for line in div.findChildren():file_object.write(line.get_text()+'\n')# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))with open(filename,'r',encoding='utf-8') as file_object:with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:for line in file_object.readlines():seg_list = jieba.cut(line,cut_all=False)file_cut_object.write('/'.join(seg_list))
爬取结果:
分词结果:
python 读取网页并分词相关推荐
- python读取网页表格数据库_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- Python读取Excel展现在网页上
一.一个好玩的办公程序 今天给大家介绍了好玩的程序,使用Python读取Excel,并把读取的数据展现在网页上. 这次我们包含的技术有Python里的pandas和flask库.有关两个库的介绍大家可 ...
- python读取gzip格式及普通格式网页的方法
一般情况下,我们读取网页分析去返回内容时是这样子的: #!/usr/bin/python #coding:utf-8 import urllib2 headers = {"User-Agen ...
- python爬网页数据到 excel 自动化_Selenium2+python自动化之读取Excel数据(xlrd)
前言 当登录的账号有多个的时候,我们一般用excel存放测试数据,本节课介绍,python读取excel方法,并保存为字典格式. 一.环境准备 1.先安装xlrd模块,打开cmd,输入pip inst ...
- python网页表格读取_是否可以读取网页html表格数据?
我目前正在考虑一些自动读取网页数据.因此,有没有可能从网页中读取以下类型的表格:excel应该有一个值name of condion,Operator and Expressions.在 编辑> ...
- python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法
压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...
- python提取网页表格信息_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- 如何用python读取文本中指定行的内容
如何用python读取文本中指定行的内容 搜索资料 我来答 分享 新浪微博 QQ空间 浏览 5284 次 查看全文 http://www.taodudu.cc/news/show-64036.ht ...
- python读数据-如何用Python读取开放数据?
当你开始接触丰富多彩的开放数据集时,CSV.JSON和XML等格式名词就会奔涌而来.如何用Python高效地读取它们,为后续的整理和分析做准备呢?本文为你一步步展示过程,你自己也可以动手实践. 需求 ...
- python读取txt文件乱码-python文件乱码
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 原文地址:http:www.zisexinghen.cnlikeshare322. ...
最新文章
- Java开源搜索引擎
- Windows句柄-2
- php实际开发过程,4.工作实际开发应用
- 程序员面试金典 - 面试题 16.21. 交换和(哈希set)
- FLEX:target和currentTarget属性的区别
- 冒泡排序(bubble sort)算法实现
- 计算机广告制作教程,Photoshop实例教程:制作网站横条广告
- 分号(;)和逗号(,)的用法
- 注塑成型缺陷熔接痕产生原因及解决方案
- JavaScript 学习中
- 基于天地图热力图及区域划分
- Java实现比较APP版本号大小
- Ubuntu 20安装微信3.0版本的方法 v2022
- springboot考研规划系统 毕业设计-附源码541230
- java服务监控_Java最流行的微服务框架监控和各种监控数据
- epoch和iteration的区别
- iOS 3DES加密无盐值加密
- 苹果电脑卸载顽固图标
- 天才小毒妃 第920章 被金执事威胁
- 第三方风控的窘境:赚钱不易,生存更难
热门文章
- 中国产品质量协会AAA等级企业限定为500家
- javabean 是什么?
- HDU 3339 In Action(最短路+背包)题解
- linux随手笔记(Centos为主)
- 添加样式(后台给字段note(left,height-auto ))
- 如何安装安信可一体化开发环境【转】
- 一般纳米材料是指尺度为_水溶性单分散纳米材料的开发意义
- 拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
- 拓端tecdat|主成分分析(PCA)原理及R语言实现及分析实例
- 操作系统银行家算法(课程设计报告)JAVA实现