今日热文：为什么采用中文编程不行？

一、背景介绍

很多刚接触计算机的同学，可能会发出一个疑问，为什么不能直接使用中文编程？

要了解这个问题，还得从计算机的起源说起！

(资料图片仅供参考)

在计算机软件里面，一切的信息都可以用 1 和 0 来表示（严格说连 0 和 1 都没有，只有开和关），也被称为二进制位，英文简称：bit，音译为“比特”，比特是计算机内存中的最小单位（也称原子单位），在计算机系统中，每 bit 可用 0 或 1 表示数位讯号。

在上篇文章中，我们了解到不管是磁盘还是网络传输，最小的存储单元都是字节。

有的同学可能又会发出疑问，为什么不直接使用比特存储？字节和比特又有什么关系呢？

虽然比特是硬件上的最小单元，但是光靠 1 和 0 很难知道是什么意思，比特就好比身体的细胞，由于颗粒度太细，很难知道这个细胞属于那个地方，于是就有了字节这个概念，字节就好比身体的某个器官，更便于识别。

简单的说，从单位换算角度，一个字节 = 8 个比特！

通过这一串的 8 个 1 和 0 的不同排列方式，可以表达出 256 个（2的8次方）不同的意思，这样换算率在当时的美国科学家看来，已经足够表达英文中全部字母大小写及符号加控制符了，也就是下文我们要介绍的 ASCII 字母代码表。

上个世纪 60 年代，为了更好的便于计算机传输字符信息，美国制定了一套字符编码规则，对英语字符与二进制位之间的关系做了统一规定，这编码规则被称为 ASCII 编码（美国标准信息交换码），一直沿用至今。

ASCII 编码一共规定了 128 个字符的编码规则，这 128 个字符形成的集合就叫做ASCII 字符集。

在早期的 ASCII 编码中，规定使用单字节中低位的 7 个比特去编码所有的字符，每个字符占用一个字节的后面7位，最前面的1位统一规定为 0。

在这个编码规则下，当你在键盘上输入字母 A，计算机会根据 ASCII 字符代码表，找到对应的十进制码值 65，然后换算成二进制码值 01000001，传输到目的地；接受端收到信号之后，会将二进制码值 01000001 再换算成十进制码值 65，然后再根据字符代码表，将十进制码值 65 解码成字母 A，最后输出到控制台。

由此，整个计算机之间的信息传输交换完成！

在 ASCII 编码中，编号 0~31 是控制字符如换行回车删除等，32~126 是可打印字符，可以通过键盘输入并且能够显示出来，一个英文字符占用一个字节。

对于英语来说，用 128 个符号编码就够了，但是随着计算机的快速发展，用来表示其他语言，128 个符号是远远不够的。

所以当 ASCII 码到欧洲的时候，一些欧洲国家就决定对 ASCII 编码进行适当的扩展和改造，现有的编码规则维持不变，把字节中闲置的最高位也编入新的符号。比如，法语中的 é 的编码为 130（二进制 10000010 ）。这样一来，这些欧洲国家使用的编码体系，可以表示最多 256 个符号，这个编码统称为 EASCII（Extended ASCII）。

但是欧洲的语言体系有个特点：小国家特别多，每个国家可能都有自己的语言体系，语言环境十分复杂。因此即使 EASCII 可以表示 256 个字符，也不能统一欧洲的语言环境。

为了解决上面这个问题，欧洲的工程师们想出了一个折中的方案：在 EASCII 中表示的 256 个字符中，前 128 字符和 ASCII 编码表示的字符完全一样，后 128 个字符每个国家或地区都有自己的编码标准。

比如，130 在法语编码中代表了 é，但是在希伯来语编码中代表字母 Gimel (ג)，在俄语编码中又会代表另一个符号。但是不管怎样，所有这些编码方式中，0—127 表示的符号是一样的，不一样的只是 128—255 的这一段。

根据这个规则，就形成了很多子标准：ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。这些子标准适用于欧洲不同的国家地区。具体关于 ISO-8859 的标准请参考这个链接地址。

到了亚洲国家，使用的文字符号就更多了，汉字就多达 10 万多个。根据上面的信息，我们知道一个字节最多只能表示 256 种符号，这对于汉字来说肯定是不够的，必须使用多个字节表达一个符号。因此才出现了后面的 GB2312、Unicode 等字符集，简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 65536 个符号；而 Unicode 字符集是一个很大的字符集合，最多可以使用 4 个字节来表示一个符号，可以容纳 100 多万个符号。

关于字符集的故事发展，我们在此不过深入的讲解，有兴趣的朋友可以看看这个链接地址！

下面我们重点介绍一下 Unicode 字符集！

二、Unicode 字符集

在上文的信息中，我们了解到不同的国家有不同的字符集，如果通过电子邮件把信息传送到另外一个国家的计算机系统中，看到的可能就不是那个原始发送的字符了，很有可能而是乱码！

因为计算机里面并没有真正的字符，字符都是以数字的形式存在的，通过邮件传送一个字符，实际上传送的是这个字符对应的字符编码，同一个数字在不同的国家和地区代表的很可能是不同的符号。

为了解决各个国家和地区之间各自使用不同的本地化字符编码带来的不便，工程师们将全世界所有的符号进行了统一编码，称之为 Unicode，也被称为统一码、万国码。

所有字符不再区分国家和地区，都是人类共有的符号，如"中"字在 Unicode 中不再是 GBK 中的 D6D0，而是在任何地方都是 4e2d，如果所有的计算机系统都使用这种编码方式，那么 4e2d 这个字在任何地方都代表汉字中的"中"。

需要注意的是，Unicode 只是一个字符集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何编码如何存储。这就造成了两个问题：

问题1：如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？问题2：我们知道，英文字母只用一个字节表示就够了，如果 unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是 0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这对当时存储器来说，是无法满足的。

为了解决 Unicode 字符集中的一些问题，就出现了 UTF(Unicode Transformation Formats) 系列的编码规则。UTF 编码规则具体规定了 Unicode 字符集中的字符是如何编码的。

下面我们就来看看 UTF 系列编码的具体实现。

三、UTF 编码规则3.1、UTF-16

早期，Unicode 转换格式规定不管什么字符都使用两个字节表示，两个字节其实就是 16 Bit，所以叫做 UTF-16。

UTF-16 编码非常方便，每两个字节表示一个字符，这个在字符串操作时大大简化了操作，编码效率也比较高，尤其适合在本地磁盘和内存之间操作，可以进行字符和字节之间的快速切换。

但是缺陷也很明显，首先就是一个字符占用两个字节，因为很大一部分字符用一个字节表示就够了，现在需要用两个字节，存储空间放大了一倍；其次在网络之间传输数据，容易因为大小端问题，传输后读取的数据会出现乱码。

3.2、UTF-8

随着互联网的普及，强烈要求出现一种统一的编码方式，为了解决 UTF-16 中的缺陷，基于此又诞生了一种可变长度技术，每个编码区域有不同的字节长度，不同类型的字符可以是由 1~4 个字节组成，这种编码规则我们成它为 UTF-8，由 Ken Thompson 于1992年创建，用在网页上可以统一展示页面上的中文英文繁体及其它语言正常显示。

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度，UTF-8 编码可以容纳 2^21 个字符，总共 200 多万个字符。

UTF-8的编码规则很简单，只有二条：

1.对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 unicode码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的，可以完全兼容过去的编码规则2.对于 n 字节的符号（n>1），第一个字节的前 n 位都设为1，第 n+1 位设为0，后面字节的前两位一律设为 10。剩下的没有提及的二进制位，全部为这个符号的 unicode 码

对不同范围的字符使用不同长度的编码方式，详细的规则如下，其中字母 x 表示可用编码的二进制位。

比如『汉』这个字的 Unicode 编码是 0x6C49。0x6C49 在 0x0800 ～ 0xFFFF 之间，使用 3 字节模板：1110xxxx 10xxxxxx 10xxxxxx。将 0x6C49 写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001。

关于 UTF-8 编码技术更加详细的解说，可以参考这个链接！

四、Java 与字符编码

Java 语言内部使用的是 Unicode 字符集，采用 UTF-16 方式编码字符。

但其实，Java 内部还实现了ASCII、LATIN1、ISO8859-1、UTF-8、GBK 等字符集的编码规则，可以很容易实现这些编码之间的相互转换。

在保证跨平台特性的前提下，也支持了全扩展的本地平台字符集，默认显示输出和键盘输入都是采用的本地编码规则，因此，免不了二者的转化问题。

以 windows 操作系统为例，我们看一个简单的例子！

public static void main(String[] args) throws Exception {    // 我们采用 GBK 进行编码    byte b[] = "我们一起来学习 Java 语言".getBytes("GBK");    File file = new File("encoding.txt");    OutputStream out = new FileOutputStream(file);    out.write(b);    out.close();}

打开输出的文件，内容如下：

我们一起来学习 Java 语言

正常情况下输出，无编码问题，但是如果改成这样呢

public static void main(String[] args) throws Exception {    // 我们采用 ISO8859-1 进行编码    byte b[] = "我们一起来学习 Java 语言".getBytes("ISO8859-1");    File file = new File("encoding.txt");    OutputStream out = new FileOutputStream(file);    out.write(b);    out.close();}

输出的文件，内容如下：

?????Java??

乱码问题就出现了！

原因相信大家都知道了，就是字符编码和解码的规则不一样导致的。

Java 中的各个类，对于英文字符的支持都非常好，可以正常地写入文件中，但对于中文字符就未必了！

从 Java 源代码到写入文件正确的内容，要经过 Java 源代码 -> Java 字节码 -> 虚拟机 -> 文件几个步骤，在上述过程中的每一步都必须正确地处理汉字的编码，才能够使最终有我们期望的结果。

其中Java 源代码 -> Java 字节码这一步骤，Java 编译器 Javac 使用的字符集是系统默认的字符集，比如在中文 Windows 操作系统上就是 GBK，而在 Linux 操作系统上是 ISO8859-1。所以经常有同学发出疑问，自己在本地的 windows 系统上运行的很正常，但是把代码部署到了 Linux 操作系统上编译的类中源文件中的中文字符就出现乱码了。

解决办法就是在编译的时候添加 encoding 参数，并指定对应的编码规则，比如 GBK 或者 UTF-8，这样才能够与平台无关。

如果想要查询 jdk 使用的是哪种编码规则，可以通过如下方式查询：

public static void main(String[] args) {    System.getProperties().list(System.out);}

输出的内容比较多，重点看下file.encoding变量值就可以，比如小编当前的电脑显示结果如下：

file.encoding=GBK

表明了 JDK 使用的是 GBK 字符集，当对字符串进行操作时，都做了 Unicode 到 GBK 的转换，既然 JDK 用的 GBK 编码，那么用 ISO8859-1 字符集显示 GBK 编码出来的中文当然是有问题的。

因此在实际使用过程中，推荐大家统一编码规则，比如采用比较通用的 UTF-8 编码规则，可以避免无端的文字乱码问题。

五、小结

最近网上有传闻说，采用中文来编程，大家可以试想一下，采用中文来编程会是个什么样的结果？

通过上面的分析，我们可以得出一个结论，那就是采用中文编程，如果没有统一编码规则的情况下，会是个灾难；其次也会增加程序员们的工作难度，因为从字节来看，一个汉字至少等于英文的两个字符，所以使用汉字会更加占内存。

还有一点就是，英文最多也就 26 个字符，比较简单，在所有的计算机上都非常通用，如果换成中文的话，截止目前，中文的符号已经超过 10 万个了，还没有完全收集全，如果换成中文来编程，需要穷举所有的中文字符，以防干扰程序的正常执行，这在目前看来基本弊大于利！

六、参考

1、知乎 - 炉石不传说 - 字符、字符集、字符编码的基础知识科普

2、博客园 - 五月的仓颉 - 字符编码

3、知乎 - 韩兰若 - UTF-8 到底是什么意思？unicode编码简介

推荐内容

今日热文：为什么采用中文编程不行？

【新视野】亮晴控股(08603)发盈喜，预计年度纯利约1500万港元至1800万港元 同比扭亏为盈

星源卓镁: 2022年年度权益分派实施公告-今日热搜

焦点速讯：佳节可以有多美？国窖1573在传承中为传统文化注入新生

光伏银浆是什么？光伏银浆有哪些特点和作用？

热头条丨连江县政协、县检察院联合启动“法治进校园”百场宣讲，共画普法宣传同心圆

今日快看!圆锥怎么做立体图形_圆锥怎么做

外汇市场最新行情走势展望：纽元/美元多头走强 澳洲通胀成为关键

快报：「天眼问政·记者帮你问」劳动关系？劳务关系？纠纷维权要分清

今日黄金期货价格实时行情（2023年6月27日）-环球新要闻

我国浅层常压页岩气开采取得突破|全球看热讯

当前信息：《消失的她》畸形秀引争议，真是让人胆战心惊

2020年会计初级考试查询 2020年初级会计证考试成绩查询

齐心协力保障电力供应

床前明月光疑是地上霜的修辞手法_床前明月光疑是地上霜|世界消息

【聚看点】支付宝提现要手续费吗2021 支付宝提现要手续费吗

环球今头条！数字化转型，到底难在哪里？

速读：电影资源泄露：《闪电侠》完整版被传播

快讯！克宫：普京高度评价卢卡申科为调解俄罗斯国内局势所作努力

土耳其央行放松存款规定！里拉兑美元汇率跌超2% 银行业指数涨超3%|天天快看点

武汉拍地：江夏城投底价5.84亿竞得纸坊P(2023)023号涉宅地-快播

各早稻主产区多举措积极应对“三碰头”农业气象灾害|当前快播

当前热讯：看完太心动了！这个暑假一定要带孩子去……

现在艺考都要讲文化成绩了，说明基础教育的重要性

克宫：普京高度评价卢卡申科为调解俄罗斯国内局势所作努力-天天播报

汕头市区梅溪河，一名女子疑似轻生！ 焦点关注

当前热门：国家电网辛保安：国网将加强绿色能源开发利用的国际合作

英威腾：公司液冷超充模块可应用于充电桩 天天报道

2012年春节放假时间表格_2012年春节

省教科院附小：以潜能之力，逐未来之梦 全球最资讯

南财基金通·混合型基金收益排行榜（6月26日）_每日快讯

这就是，曲阜！

环球即时：内向的人如何在职场中取得成功

黄舞妃，随风起舞

6月国家药监局公布多个创新医疗器械_环球热议

河南考古又有新发现：精美壁画墓现身郑州

全球热点！日收益能达到2%？当心假理财产品“碰瓷”央企名头行骗！

快资讯：有筋板板式平焊法兰_对于有筋板板式平焊法兰简单介绍

经济负增长？继英德之后，衰退阴影又缠绕法国

“和平”基金，将向乌克兰拨军费35亿欧元 独家焦点

袁家镇开展“与法‘童’行、‘未’爱护航”宣讲活动

世界热讯:谢谢湖人！三人4.3亿，完爆太阳！

公司越办越好的祝福语 公司越办越好的祝福语句|环球热讯

环球今日报丨3000元化妆品用完后空瓶竟卖300元 业内人士：瓶子是辨别真伪的重要依据

Haynes：太阳周三举办自由球员试训 包括贾巴里-帕克和S-约翰逊_全球报资讯

848-848是什么意思

焦点速看：“活力番禺 宜居之城”——番禺线下房博会圆满落幕

6月27日兴化股份硝酸铵价格暂稳

丰台这些拆迁规划问题官方有回复！有的择机启动！有的变更用地性质！有的正积极推进——

建筑总面积超30万平方米！华大集团全球总部在盐田落成

世界贸易组织总干事伊维拉：必须重视并避免贸易脱钩 每日视点

中国水务(00855.HK)年度股东应占溢利18.57亿港元 拟派息18港仙

惠英红：我已经被淘汰一次，不愿再被淘汰

俄乌战争下最新网络情报活动分析|环球热闻

今日热文：为什么采用中文编程不行？

天天热推荐：7月11日前公布中考成绩！贵阳考生请注意这些时间节点

至古诗意思有哪些 古诗词文中,之的九种意思。 天天视点

旅游板块开盘冲高 曲江文旅涨停

即时焦点：清吟浅唱是什么意思（浅唱是什么意思）

贵州茅台：控股股东增持计划已实施完毕_全球聚焦

天天热头条丨朗姿股份：拟向特定对象增发募资不超过约16.68亿元

全球新消息丨桃江，这次火了！

2023温网女单资格赛首轮：袁悦2-0横扫对手，晋级次轮

大型商超容易发生火灾的部位 容易发生火灾的部位

世界通讯！立方制药：6月21日公司高管汪琴减持公司股份合计4000股

今日热搜：吉林国文医院坚持升国旗20年

坐地起价频发 部分参展商反映在上海撤展时遭“黑物流”

刚刚公告！暂停2小时！

股票行情快报：东软集团（600718）6月27日主力资金净卖出48.94万元 今日热议

高质量发展看中国|安徽：探索信息便民“新举措”构建高效医疗服务-世界视讯

热点！《逆水寒》押镖领什么奖励好 押镖奖励介绍

40nor是什么柜型_40nor_实时焦点

汽车知识解答车辆大绿本叫什么？ 天天短讯

内容正在升级改造，请稍后再试！_每日观点

【全球新视野】赴一场艺术之约！苏州相城黄桥街道开展黄桥梅花园公共艺术作品颁奖仪式活动

周大福拟以9.15港元每股收购新创建剩余股份 涉资约350亿港元 当前观察

合作共赢 构建教育协同发展新格局

已经签订的合同在什么情况下可以免除责任的承担 天天播报

注意！高考志愿填报7句重要提醒 聚看点

【新视野】亮晴控股(08603)发盈喜，预计年度纯利约1500万港元至1800万港元同比扭亏为盈

外汇市场最新行情走势展望：纽元/美元多头走强澳洲通胀成为关键

汕头市区梅溪河，一名女子疑似轻生！焦点关注

英威腾：公司液冷超充模块可应用于充电桩天天报道

省教科院附小：以潜能之力，逐未来之梦全球最资讯

“和平”基金，将向乌克兰拨军费35亿欧元独家焦点

公司越办越好的祝福语公司越办越好的祝福语句|环球热讯

环球今日报丨3000元化妆品用完后空瓶竟卖300元业内人士：瓶子是辨别真伪的重要依据

Haynes：太阳周三举办自由球员试训包括贾巴里-帕克和S-约翰逊_全球报资讯

焦点速看：“活力番禺宜居之城”——番禺线下房博会圆满落幕

世界贸易组织总干事伊维拉：必须重视并避免贸易脱钩每日视点

中国水务(00855.HK)年度股东应占溢利18.57亿港元拟派息18港仙

至古诗意思有哪些古诗词文中,之的九种意思。天天视点

旅游板块开盘冲高曲江文旅涨停

大型商超容易发生火灾的部位容易发生火灾的部位

坐地起价频发部分参展商反映在上海撤展时遭“黑物流”

股票行情快报：东软集团（600718）6月27日主力资金净卖出48.94万元今日热议

热点！《逆水寒》押镖领什么奖励好押镖奖励介绍

汽车知识解答车辆大绿本叫什么？天天短讯

周大福拟以9.15港元每股收购新创建剩余股份涉资约350亿港元当前观察

合作共赢构建教育协同发展新格局

已经签订的合同在什么情况下可以免除责任的承担天天播报

注意！高考志愿填报7句重要提醒聚看点

南京分行社会招聘启事世界球精选

云南国防工业职业技术学院开设专业有什么云南国防工业职业技术学院优势专业是什么

央行今日进行2190亿元7天期逆回购操作中标利率为1.90%_天天观察

【全球独家】密战峨眉演员表角色介绍密战峨眉演员表

海拔4526米全国首座“零海拔天文观测站”交付|天天速读

蛋仔派对平安夜超级跑怎么玩-平安夜超级跑攻略当前关注

【新视野】亮晴控股(08603)发盈喜，预计年度纯利约1500万港元至1800万港元同比扭亏为盈

ChatGPT 实战：快速了解一个新领域全球快资讯

陶谦为什么杀曹嵩_陶谦环球讯息

任天堂新一代主机将继续使用现有账户系统环球视点

外汇市场最新行情走势展望：纽元/美元多头走强澳洲通胀成为关键

垃圾清运的道路运输许可证怎么办_办理 ldquo 从事城市生活垃圾经营性清扫收集运输服务许可证 rdquo 需要每日聚焦

宣汉县新华镇中心校召开食品安全志愿服务和示范城市创建工作专题会议

海南今年以来供港澳活猪逾2.8万头确保优“鲜”通关

周杰伦十大经典歌曲五首盘点周杰伦口碑炸裂的十大歌曲）

橘柑区别（柑橘桔的区别）

记者:米兰接近1500万欧签奇克将免签卢卡-罗梅罗在与瓦伦谈穆萨