代码:

import requests
from bs4 import BeautifulSoup
import jieba# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:# <p>标签的处理for line in div.findChildren():file_object.write(line.get_text()+'\n')# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))with open(filename,'r',encoding='utf-8') as file_object:with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:for line in file_object.readlines():seg_list = jieba.cut(line,cut_all=False)file_cut_object.write('/'.join(seg_list))

爬取结果:

分词结果:

python 读取网页并分词相关推荐

  1. python读取网页表格数据库_python 提取网页表格数据库数据库

    python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...

  2. Python读取Excel展现在网页上

    一.一个好玩的办公程序 今天给大家介绍了好玩的程序,使用Python读取Excel,并把读取的数据展现在网页上. 这次我们包含的技术有Python里的pandas和flask库.有关两个库的介绍大家可 ...

  3. python读取gzip格式及普通格式网页的方法

    一般情况下,我们读取网页分析去返回内容时是这样子的: #!/usr/bin/python #coding:utf-8 import urllib2 headers = {"User-Agen ...

  4. python爬网页数据到 excel 自动化_Selenium2+python自动化之读取Excel数据(xlrd)

    前言 当登录的账号有多个的时候,我们一般用excel存放测试数据,本节课介绍,python读取excel方法,并保存为字典格式. 一.环境准备 1.先安装xlrd模块,打开cmd,输入pip inst ...

  5. python网页表格读取_是否可以读取网页html表格数据?

    我目前正在考虑一些自动读取网页数据.因此,有没有可能从网页中读取以下类型的表格:excel应该有一个值name of condion,Operator and Expressions.在 编辑> ...

  6. python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法

    压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...

  7. python提取网页表格信息_python 提取网页表格数据库数据库

    python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...

  8. 如何用python读取文本中指定行的内容

    如何用python读取文本中指定行的内容 搜索资料 我来答 分享 新浪微博 QQ空间 浏览 5284 次 查看全文 http://www.taodudu.cc/news/show-64036.ht ...

  9. python读数据-如何用Python读取开放数据?

    当你开始接触丰富多彩的开放数据集时,CSV.JSON和XML等格式名词就会奔涌而来.如何用Python高效地读取它们,为后续的整理和分析做准备呢?本文为你一步步展示过程,你自己也可以动手实践. 需求 ...

  10. python读取txt文件乱码-python文件乱码

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 原文地址:http:www.zisexinghen.cnlikeshare322. ...

最新文章

  1. Java开源搜索引擎
  2. Windows句柄-2
  3. php实际开发过程,4.工作实际开发应用
  4. 程序员面试金典 - 面试题 16.21. 交换和(哈希set)
  5. FLEX:target和currentTarget属性的区别
  6. 冒泡排序(bubble sort)算法实现
  7. 计算机广告制作教程,Photoshop实例教程:制作网站横条广告
  8. 分号(;)和逗号(,)的用法
  9. 注塑成型缺陷熔接痕产生原因及解决方案
  10. JavaScript 学习中
  11. 基于天地图热力图及区域划分
  12. Java实现比较APP版本号大小
  13. Ubuntu 20安装微信3.0版本的方法 v2022
  14. springboot考研规划系统 毕业设计-附源码541230
  15. java服务监控_Java最流行的微服务框架监控和各种监控数据
  16. epoch和iteration的区别
  17. iOS 3DES加密无盐值加密
  18. 苹果电脑卸载顽固图标
  19. 天才小毒妃 第920章 被金执事威胁
  20. 第三方风控的窘境:赚钱不易,生存更难

热门文章

  1. 中国产品质量协会AAA等级企业限定为500家
  2. javabean 是什么?
  3. HDU 3339 In Action(最短路+背包)题解
  4. linux随手笔记(Centos为主)
  5. 添加样式(后台给字段note(left,height-auto ))
  6. 如何安装安信可一体化开发环境【转】
  7. 一般纳米材料是指尺度为_水溶性单分散纳米材料的开发意义
  8. 拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
  9. 拓端tecdat|主成分分析(PCA)原理及R语言实现及分析实例
  10. 操作系统银行家算法(课程设计报告)JAVA实现