python中去掉字符串中的\xa0、\t、\n等字符

读取excel文件中会有显示\xa0、\t、\n等字符,可以使用split去掉

import os
import xlrd
import math
fi_xls = 'tiku.xlsx'
wb = xlrd.open_workbook(fi_xls)
sheet1 = wb.sheet_by_index(0)
for r in range(sheet1.nrows):
    col = []
    for c in range(sheet1.ncols):
        m1 = sheet1.cell(r,c).value
        col.append("".join(m1.split()))
    print(col)

当split中不带参数时,表示分割所有换行符、制表符、空格。

同时Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分,不再会对bytes字节串进行自动解码。文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes,正是这使得两者的区分特别清晰。你不能拼接字符串和字节包,也无法在字节包里搜索字符串(反之亦然),也不能将字符串传入参数为字节包的函数(反之亦然)。

json dump有一个ensure_ascii参数,当它为True的时候,所有非ASCII码字符显示为\uXXXX序列,只需在dump时将ensure_ascii设置为False即可,此时存入json的中文即可正常显示。例如:

json.dump(f, ensure_ascii=False)

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>