加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

解析Python转换全角字符串为半角

发布时间:2021-05-29 07:48:58 所属栏目:教程 来源:互联网
导读:全角和半角 一般情况下,普通的英文字符只占用1个字节的空间,而1个字节有8位,因此可以存储256个字符。而汉字、日语及朝鲜文字这样CJK的文字很明显不止256个,因此

一般情况下,普通的英文字符只占用1个字节的空间,而1个字节有8位,因此可以存储256个字符。而汉字、日语及朝鲜文字这样CJK的文字很明显不止256个,因此会使用2个字节来存储。

而在使用英文输入法时,我们将1个英文字符所占的位置称为半角。而由于1个汉字占用2个英文字符的位置,因为我们将其称为全角。

需要注意的是,只有在支持汉字等语言的计算及上才存在全角和半角的概念。另外,虽然通常情况下的英文字母、数字键及符号键都是半角的,但是为了排列整齐,英文和其他拉丁文的字符和标签也可以使用全角格式。

因此,我们知道全角需要占用2个字节,而半角则占用1个字节。

全角转换为半角

在ASCII编码中,我们知道可以打印的字符只有127-33=94个。在这里,我们需要去除del键及ASCII编码表中前32位。

由于半角和全角只是占用字节个数的不同,因此全角可打印的字符也是94个。因此这2者之间是存在规律的,比如我们假设半角a字符的在计算机中存储的数字为60,而全角的a字符在计算机中存储的数字为1200。而假设a的下1个字符为b,其存储的数字为61, 那么全角的b字符存储的数字应为1201。

因此,这种一一映射的关系就查看各种规范中是如何定义的了。不同的规范定义会有所不同。

由于在Unicode规定中,半角字符是从33开始,到126结束。而Unicode中全角的编码是从65281开始到65374结束。

细心的你们会发现,这里少了1个字符,那就是空格。在半角中,空格是32,而在全角中它是12288。

python的实现转换

现在,我们使用python来实现转换的操作,我们会检查给定的字符是否为全角,只有在全角的情况下才进行转换的操作。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读