先看原数据,一直在想办法清除 “\n”和“/”这两个符号。

# 从提取出的几列来看,还有些细节需要再洗洗:例如为了统计和美观需要,“\n”和“/”这两个符号应去掉。

lendhouse_content_split3 = lendhouse_content_split2.iloc[:,[0,16,24,42,70,94]]

lendhouse_content_split3.columns=['location_name','area','direction','housetype','stair_type','stairs']

print("未使用replace前:\n",lendhouse_content_split3.head(2),"\n")

# lendhouse_content_split3 = lendhouse_content_split3.map(lambda x: x.replace("/n",""))

# 报错 AttributeError: 'DataFrame' object has no attribute 'map'

lendhouse_content_split3 = lendhouse_content_split3.replace("/n","")

print("第一次使用replace:\n",lendhouse_content_split3.head(2))

# 并没有替换成功,看 print 结果还是有 “/n” 这个符号在。

# 第一列 location_name 还需要再分列,下面先分列整理。

未使用replace前:

location_name area direction housetype stair_type stairs

0 黄埔-科学城-万科里享家\n 78㎡\n /南 3室2厅1卫 中楼层 (34层)

1 黄埔-科学城-沙湾新村\n 18㎡\n /南 4室2厅2卫 低楼层 (16层)

第一次使用replace:

location_name area direction housetype stair_type stairs

0 黄埔-科学城-万科里享家\n 78㎡\n /南 3室2厅1卫 中楼层 (34层)

1 黄埔-科学城-沙湾新村\n 18㎡\n /南 4室2厅2卫 低楼层 (16层)

# lendhouse_content_split4 = pd.DataFrame(x.split("-") for x in lendhouse_content_split3[0]) # 报错 KeyError: 0 —— 备注以对比参考。

lendhouse_content_split4 = pd.DataFrame(x.split("-") for x in lendhouse_content_split3['location_name'])

lendhouse_content_split4.columns=['district','板块','name','none1']

lendhouse_content_split4.head()

district

板块

name

none1

0

黄埔

科学城

万科里享家\n

None

1

黄埔

科学城

沙湾新村\n

None

2

番禺

石碁

雅苑青年公馆\n

None

3

仅剩4间\n

None

None

None

4

天河

华景新城

华景新城绿茵居\n

None

# 合并 lendhouse_content_split3 和 lendhouse_content_split4

lendhouse_content_split5 = pd.merge(lendhouse_content_split4.iloc[:,:3],lendhouse_content_split3.iloc[:,1:6],

right_index=True, left_index=True)

print("得到 lendhouse_content 的数据状态:\n",lendhouse_content_split5.head())

# 接下来要想办法清除 “\n”和“/”这两个符号。

得到 lendhouse_content 的数据状态:

district 板块 name area direction housetype stair_type stairs

0 黄埔 科学城 万科里享家\n 78㎡\n /南 3室2厅1卫 中楼层 (34层)

1 黄埔 科学城 沙湾新村\n 18㎡\n /南 4室2厅2卫 低楼层 (16层)

2 番禺 石碁 雅苑青年公馆\n 61㎡\n /北 1室1厅1卫 中楼层 (5层)

3 仅剩4间\n None None /\n None None

4 天河 华景新城 华景新城绿茵居\n 62㎡\n /南 2室1厅1卫 低楼层 (9层)

# lendhouse_content_split5['area'] = lendhouse_content_split5['area'].replace("\n","")

lendhouse_content_split5 = lendhouse_content_split5.replace("\r\n","")

print("第一次使用replace:\n",lendhouse_content_split5.head(2))

# lendhouse_content_split5['direction'] = lendhouse_content_split5['direction'].replace("/","")

lendhouse_content_split5 = lendhouse_content_split5.replace("/","")

print("\n第二次使用replace:\n",lendhouse_content_split5.head(2))

# 发现替换函数 replace 还是没有生效。那接下来看看能不能直接截取特定符号前面或者特定符号后面的字符串,作为新的内容。

# lendhouse_content_split5.to_excel(total_path+"\\lendhouse_content_split5"+".xlsx", encoding='utf-8', index=False, header=True)

第一次使用replace:

district 板块 name area direction housetype stair_type stairs

0 黄埔 科学城 万科里享家\n 78㎡\n /南 3室2厅1卫 中楼层 (34层)

1 黄埔 科学城 沙湾新村\n 18㎡\n /南 4室2厅2卫 低楼层 (16层)

第二次使用replace:

district 板块 name area direction housetype stair_type stairs

0 黄埔 科学城 万科里享家\n 78㎡\n /南 3室2厅1卫 中楼层 (34层)

1 黄埔 科学城 沙湾新村\n 18㎡\n /南 4室2厅2卫 低楼层 (16层)

# import re

# # lendhouse_content_split5['direction'] = re.findall(r'/*', lendhouse_content_split5['direction'])

# # # 上述报错 error: nothing to repeat at position 0

# # print("第一次使用re.findall:\n",lendhouse_content_split5.head(2))

# lendhouse_content_split5['area'] = re.findall(r'*\n', lendhouse_content_split5['area'])

# # 上述报错 error: nothing to repeat at position 0

# print("\n第二次使用re.findall:\n",lendhouse_content_split5.head(2))

好了,遍搜帖子,看到这个:

《python去除字符串中的换行符》https://www.jb51.net/article/125536.htm。

文中提到:

如果行尾符是 CR,则用replace("\r","")

如果行尾符是 LF,则用replace("\n","")

至于如何判断行尾符是CR还是LF,可查阅:

《怎么设置notepad++显示空白制表行尾等所有符号》

https://jingyan.baidu.com/article/48206aea814786216ad6b39e.html

按照指引,查到了自己的行尾符(如下图):两种都有。

接下来两种都替换,但结果还是没替换掉(如下)。额,尝试继续失败。

# lendhouse_content_split5['area'] = lendhouse_content_split5['area'].replace("\n","")

lendhouse_content_split5 = lendhouse_content_split5.replace("\r\n","")

lendhouse_content_split5 = lendhouse_content_split5.replace("\n","")

print("第一次使用replace:\n",lendhouse_content_split5.head(2))

# lendhouse_content_split5['direction'] = lendhouse_content_split5['direction'].replace("/","")

lendhouse_content_split5 = lendhouse_content_split5.replace("/","")

print("\n第二次使用replace:\n",lendhouse_content_split5.head(2))

(未完待续)

原文链接:https://blog.csdn.net/weixin_44216391/article/details/107472319

python替换文本换行符_python解决replace(“/n“,““)无法替换换行符相关推荐

  1. python idea控制台中文乱码_python 解决cv2绘制中文乱码问题

    python 解决cv2绘制中文乱码问题 因为使用cv2.putText() 只能显示英文字符,中文会出现乱码问题, 因此使用PIL在图片上绘制添加中文,可以指定字体文件. 大体思路: OpenCV图 ...

  2. python输出文本和值_python读取文本中数据并转化为DataFrame的实例

    在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一篇文章写下来. 从纯文本格式文件 "file_in"中读取数据,格式如下: 需要输出成"file_out&quo ...

  3. python正则匹配任意字符_Python 匹配任意字符(包括换行符)的正则表达式写法...

    Python 匹配任意字符(包括换行符)的正则表达式写法 想使用正则表达式来获取一段文本中的任意字符,写出如下匹配规则: (.*) 结果运行之后才发现,无法获得换行之后的文本.于是查了一下手册,才发现 ...

  4. python 换页符_Python用什么方法可以将换行符分割成多行?

    展开全部 import pandas as pd import xlsxwriter if __name__ == "__main__": file_name = r'C:\Use ...

  5. python单行动态刷新不了_python 解决tqdm模块不能单行显示的问题

    python 解决tqdm模块不能单行显示的问题 OS: Windows 10 IDE: Anaconda Spyder (Python3.6) 代码如下: from tqdm import tqdm ...

  6. python清洗文本非法字符_Python 文本字符串清理

    文本字符串清理 由于收集来源的问题(比如,表单文本数据录入错误,甚至于有意录入错误的数据),文本字符串往往需要先进行清理才能够在后续的需求中发挥正常且正确的作用. 删除字符串中多余的字符 在文本字符串 ...

  7. python替换字符的操作_Python 字符串操作(string替换、删除、截取、复制、)

    Python 字符串操作(string替换.删除.截取.复制.连接.比较.查找.包含.大小写转换.分割等) 去空格及特殊符号 s.strip() .lstrip() .rstrip(',') 复制字符 ...

  8. python在文本添加超链接_Python将超链接文本打印到Spyder控制台(Python print hyperlinked text to Spyder Console)...

    Python将超链接文本打印到Spyder控制台(Python print hyperlinked text to Spyder Console) 我在Windows 7上使用WinPython发行版 ...

  9. python输出文本 去掉引号_Python可以在文本文件中读取时从字符串中删除双引号吗?...

    我有一些这样的文本文件,有50​​00行: 5.6 4.5 6.8 "6.5" (new line) 5.4 8.3 1.2 "9.3" (new line) ...

最新文章

  1. 吴恩达、李飞飞、沈向洋:2021年的人工智能将会如何发展?
  2. 线段树||BZOJ1593: [Usaco2008 Feb]Hotel 旅馆||Luogu P2894 [USACO08FEB]酒店Hotel
  3. 工作270:el-dialog的open回调
  4. 牛客21297 手机号码
  5. java的servlet是干嘛的_Servlet能够做什么?
  6. js (查重)键值对数组(一维数组),并归类计数
  7. 6.4Spring环境配置等级和优先级
  8. BZOJ 2882 后缀数组的傻逼实现
  9. android电视自动关机,Android定时关机问题解决
  10. python做词云的图片素材_还在为专栏封面发愁?我用Python写了个词云生成器!
  11. java 线程的插队运行_java笔记--线程的插队行为
  12. html设置为邮箱格式,HTML中怎么设置为email链接
  13. 联想微型计算机功率,联想小新pro 13 2019 i7 突破功耗墙以后
  14. CT原理与技术(生物医学工程专业)
  15. Android开发艺术探索读书笔记(第5章 RemoteView)
  16. Unity接入Google登录
  17. python语言的标准库有哪些,python标准库函数有哪些
  18. Python的打包神器—Nuitka
  19. Excel常用函数记录
  20. 图解通信原理与案例分析-30:6G-天地互联、陆海空一体、全空间覆盖的超宽带移动通信系统

热门文章

  1. 开发文档--工程结构
  2. 推荐一个我们软件行业的电影-夺命连线
  3. Mybatis实现分页的三种方式
  4. OWASP A4 Insecure Design(不安全的设计)
  5. appium 多开_全面超越Appium,使用Airtest超快速开发App爬虫
  6. html实例001--锚点链接、格式化字体、段落、链接、文件下载等示例
  7. android 8 荣耀9,华为荣耀9和荣耀8哪个好_荣耀8和荣耀9区别-太平洋IT百科
  8. JAVA——快速排序(详细)
  9. 【秒杀系统】零基础上手秒杀系统(三):抢购接口隐藏 + 单用户限制频率
  10. 【2021秋招】Java 面试知识点【精华背诵版】