
以下是一个简单的Python程序,用于输出中文姓名和每个字的Unicode编码:
name = "你的中文姓名"for char in name: print(char, hex(ord(char)))
解释一下代码:
第一行定义了一个字符串变量name,其中包含了你的中文姓名。
第二行使用了一个for循环来遍历name中的每个字符,并将其打印到屏幕上。
在循环体内部,我们使用了hex()函数将每个字符的Unicode编码转换成十六进制,并将其打印到屏幕上。
请将代码中的“你的中文姓名”替换为你自己的中文姓名。
标识符和关键字
1.标识符(也称为 名称)的词法定义说明如下。
Python 标识符的句法基于 Unicode 标准附件 UAX-31,并加入了下文定义的细化与修改;详见 PEP 3131 。
与 Python 2.x 一样,在 ASCII 范围内(U+0001..U+007F),有效标识符字符为: 大小写字母 A 至 Z、下划线 _ 、数字 0 至 9,但不能以数字开头。
Python 3.0 引入了 ASCII 之外的更多字符(请参阅 PEP 3131)。这些字符的分类使用 unicodedata 模块中的 Unicode 字符数据库版本。
标识符的长度没有限制,但区分大小写。
identifier ::= xid_start xid_continue*
id_start ::=
id_continue ::=
xid_start ::=
xid_continue ::=
上述 Unicode 类别码的含义:
Lu - 大写字母
Ll - 小写字母
Lt - 词首大写字母
Lm - 修饰符字母
Lo - 其他字母
Nl - 字母数字
Mn - 非空白标识
Mc - 含空白标识
Nd - 十进制数字
Pc - 连接标点
Other_ID_Start - 由 PropList.txt 定义的显式字符列表,用于支持向后兼容
Other_ID_Continue - 同上
在解析时,所有标识符都会被转换为规范形式 NFKC;标识符的比较都是基于 NFKC。
Unicode 4.1 中所有可用的标识符字符详见此 HTML 文件 https://www.unicode.org/Public/13.0.0/ucd/DerivedCoreProperties.txt
2.3.1. 关键字
以下标识符为保留字,或称 关键字,不可用于普通标识符。关键字的拼写必须与这里列出的完全一致:
False await else import pass
None break except in raise
True class finally is return
and continue for lambda try
as def from nonlocal while
assert del global not with
async elif if or yield
2.3.2. 保留的标识符类
某些标识符类(除了关键字)具有特殊含义。这些类的命名模式以下划线字符开头,并以下划线结尾:
_*
from module import * 时,不会导入。交互式解释器中,特殊标识符 _ 用于存储最近一次求值的结果;该标识符保存在 builtins 模块里。不处于交互模式时,_ 没有特殊含义,也没有预定义。详见 import 语句。
注解 _ 常用于连接国际化文本;详见 gettext 模块文档。
__*__
系统定义的名称,通常简称为 "dunder" 。这些名称由解释器及其实现(包括标准库)定义。现有系统定义名称相关的论述详见 特殊方法名称 等章节。Python 未来版本中还将定义更多此类名称。任何情况下,任何 不显式遵从 __*__ 名称的文档用法,都可能导致无警告提示的错误。
__*
类的私有名称。类定义时,此类名称以一种混合形式重写,以避免基类及派生类的 "私有" 属性之间产生名称冲突。详见 标识符(名称)
ANSI通常使用0x80~0xFF范围的2个字节来表示1个字符。Unicode字符分为17组编排, UTF-8用1到6个字节编码UNICODE字符。
ANSI是一种字符代码,为使计算机支持更多语言,通常使用0x80~0xFF范围的2个字节来表示1个字符。表示英文字符时用一个字节,表示中文用两个或四个字节。
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
通用字符集(UniversalCharacterSet,UCS)是由ISO制定的ISO10646(或称ISO/IEC10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。
UTF-8(8-bitUnicodeTransformationFormat)是一种针对Unicode的可变长度字符编码,又称万国码。由KenThompson于1992年创建。现在已经标准化为RFC3629。
UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)