# 16.3 字符编码和Unicode
这个世界上有太多太多的字符,远超过了一个字节(8bit)可能容纳的256个数目.为了显式超过256个字符以外的其它字符,一个新的手段被增加进来,那就是字符编码和字符集(更新和更好的"Unicode"解决方案,我们也将很快谈到.).
因此,到底字节161代表什么字符,是由当前使用的字符集决定的.在ISO 8859-1(Latin-1)字符集中,它代表的是一个倒写的感叹号,而在ISO 8859-2字符集中,则代表的是字母a(Aogonek).
当你在一个窗口上绘制字符的时候,系统必须知道你使用的编码,这成为字体编码,也就是所谓的字符集.创建一个没有指定字符集的字体意味着使用默认编码,这在大多数系统上都是没有问题的,因为大多数人都在使用支持本国语言的系统.
但是,如果你确定某些字符使用的是不同的编码(比如ISO 8859-2),在创建字体的时候,你应该指定这种编码,如下所示:
```
wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
false, wxT("Arial"), wxFONTENCODING_ISO8859_2);
```
否则,在一个西文系统ISO 8859-1中,字符将不能被正确显式.
有时候可能我们无法找到一个合适的满足某种编码的字体,这种情况下,我们可以尝试使用一种代替字体,不过你需要将要显式的字体转换成那种代替字体对应的编码方式.下面的代码演示了应该怎样作.一个字符串text的编码为enc,准备用字体facename显示.同时下面的代码也演示了wxCSConv的用法:
```
// 我们有一段'enc'编码的文本,我们希望用字体
// 'facename'显示.
//
// 首先,我们必须确定这个字体可以显示这种编码
wxString text; // 编码方式为 'enc'
if (!wxFontMapper::Get()->IsEncodingAvailable(enc, facename))
{
// 不能支持这种编码,需要查找替代编码.
// 能支持某种替代编码吗?
wxFontEncoding alternative;
if (wxFontMapper::Get()->GetAltForEncoding(enc, &alternative,
facename, false))
{
// 我们找到了替代编码方案'alternative',
// 因此我们进行编码的转换,转换成alternative.
wxCSConv convFrom(wxFontMapper::GetEncodingName(enc));
wxCSConv convTo(wxFontMapper::GetEncodingName(alternative));
text = wxString(text.wc_str(convFrom), convTo) ;
// 然后创建alternative编码的字体
wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
false, facename , alternative);
dc.SetFont(myFont);
}
else
{
// 不能找到完美替代编码;尝试有损耗的编码方案
// ISO 8859-1 (7-bit ASCII)
wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
false, facename, wxFONTENCODING_ISO8859_1);
dc.SetFont(myFont);
}
}
else
{
// OK,这个字体可以支持这个编码.
wxFont myFont(10, wxFONTFAMILY_DEFAULT, wxNORMAL, wxNORMAL,
false, facename, enc);
dc.SetFont(myFont);
}
// 最后,我们使用选择的字体绘制可能已经经过编码转换的字符串.
dc.DrawText(text, 100, 100);
```
转换数据
前面的代码演示了将一组字节流从一种编码转换为另外一种编码的方法.这种转换可以有两种方法,第一种是使用 wxEncodingConverter类,这种方法是不被推荐的(可能在后续版本种被淘汰的方法),你不应该在新的代码种使用这种方法,除非你的编译器不支持wchar_t结构. 推荐使用第二种方法,字符集转换(使用基于wxMBConv的wxCSConv).
wxEncodingConverter
这种方法只能支持部分的字符集,但是如果你的编译器不支持wchar_t结构,这是你唯一的选择,转换方法如下:
```
wxEncodingConverter converter(enc, alternative, wxCONVERT_SUBSTITUTE);
text = converter.Convert(text);
```
wxCONVERT_SUBSTITUTE标记表明允许转换过程中如果找不到严格对应的字符,允许存在信息损失, 这将导致带重音符号的字母变成普通的字母或者短破折号和长破折号统一用"-"来代替等.
wxCSConv (wxMBConv)
Unicode的解决方案的核心是,它使用16bit或者甚至是32bit的wchar_t结构来代表一个字符,因此它可以把全世界所有的字符用一种编码表示.这意味着你不需要处理任何编码转换之类的问题除非你需要处理老的8-bit格式数据,前面我们已经说过,8bit的数据必须和字符集一起使用才有意义.
即使你没有把wxWidgets编译成Unicode模式(这种模式下,所有的字符串都是Unicode编码格式),只要你的系统支持,你还是可以使用它进行编码转换.转换的方法是,先把你的字符串从它的编码转换成Unicode编码,然后再从Unicode编码转换成目标编码. wxString类也使用这种方法来提供编码转换支持.要记住的是:非Unicode版本的wxWidgets中的wxString对象采用的是8bit 的方法保存字符串,因此它自己并不知道其内部的数据使用的是什么编码方式.
如果想把wxString转换成Unicode,你需要使用wxString::wc_str函数,这个函数采用一个多字节转换类作为它的参数,这个参数告诉非Unicode版本的wxString它内部的字符串是采用什么编码方式的,但是在Unicode版本的wxWidgets中, 这个参数被忽略,因为wxString内部的编码已经是Unicode了.
在Unicode版本中,我们可以直接使用wx_str返回的字符串了,但是在非Unicode版本中,我们还需要将其转换为我们可以支持的编码方式convTo,因此在下面的代码中,在Unicode版本中,convTo也将被忽略:
```
text = wxString(text.wc_str(convFrom), convTo);
```
可以看到字符集编码比字体字体编码更常使用,因此有时候你需要通过下面的代码将字体编码名字装换成字符集编码名字:
```
wxFontMapper::GetEncodingName(fontencoding);
```
这就是上面例子中下面这一部分代码的含义:
```
wxCSConv convFrom(wxFontMapper::GetEncodingName(enc));
wxCSConv convTo(wxFontMapper::GetEncodingName(alternative));
text = wxString(text.wc_str(convFrom) , convTo) ;
```
有时候你需要直接使用8bit的字节流而不是使用wxString,这可以通过使用wxCharBuffer类获得,下面我们看看这一行代码:
```
wxCharBuffer output = convTo.cWC2MB(text.wc_str(convFrom));
```
如果你的输入数据不是一个字符串而也是一个8bit的数据流(比如也是一个wxCharBuffer),你可以使用下面的转换方式:
```
wxCharBuffer output = convTo.cWC2MB(convFrom.cMB2WC(input));
```
wxWidgets定义了一些全局的类用于实现字符转换,比如wxConvISO8859_1是一个对象,而wxConvCurrent 是一个指针,指向当前标准C的locale指定的编码类.另外还有一些wxMBConv的子类用来优化特定的编码转换任务,比如 wxMBConvUTF7,wxMBConvUTF8, wxMBConvUTF16LE/BE和wxMBConvUTF32LE/BE.其中后两个被重定义为wxMBConvUFT16/32,它使用机器本身的字节序.更多信息请参考wxWidgets手册中的"wxMBConv Classes Overview"小节.
转化来自外部的临时缓存数据
正如我们刚刚讨论的那样,转换类允许你很方便的把一种字符集转换为另外一种字符集.然而,大多数的转换结果为一个新创建的字符串或者一个临时缓存.有时候我们需要将转换的结果保存起来已备以后使用,这种情况下我们可以把转换的结果复制到一个独立的存储区.
假设我们想在两个电脑之间通过socket传递字符串.我们首先应该在字符串采用的编码上取得一致.否则,平台默认的编码可能把传递的字符串搞的一团糟.在我们的这个例子中,我们把发送出去的字符串先转换成UTF-8编码,在接收的部分,在将UTF-8编码的字符串转换成系统默认的字符串.
下面的代码演示了怎样将符合本地编码的字符串转换成UTF-8,将转换结果存储在一个char*指针中,然后通过socket发送出去,接收的电脑再将收到的字符串从UTF-8转换成它自己的电脑上的本地编码.
```
// 将本地编码字符串转换成UTF-8编码
const wxCharBuffer ConvertToUTF8(wxString anyString)
{
return wxConvUTF8.cWC2MB( anyString.wc_str(*wxConvCurrent) ) ;
}
// 将UTF-8编码的字符串转换成本地编码字符串
wxString ConvertFromUTF8(const char* rawUTF8)
{
return wxString(wxConvUTF8.cMB2WC(rawUTF8), *wxConvCurrent);
}
// 测试以下这两个转换函数
void StringConversionTest(wxString anyString)
{
// 转化成UTF-8编码并保存在wxCharBuffer中.
const wxCharBuffer bUTF8 = ConvertToUTF8(anyString);
// wxCharBuffer可以隐式的转换成char*.
const char *cUTF8 = bUTF8 ;
// 重建字符串
wxString stringCopy = ConvertFromUTF8(cUTF8);
// 因为是同一个电脑,这两个字符串应该是完全相同的.
wxASSERT(anyString == stringCopy);
}
```
帮助文件
你需要为每个支持的语言制作一份帮助文件.你的帮助文件控制器在初始化的时候将指定帮助文件的名称.你可以使用wxLocale::GetName来获取语言相关的名称,也可以直接使用前面介绍的_()宏以便获得语言相关的名称.比如:
```
m_helpController->Initialize(_("help_english"));
```
如果你使用的是wxHtmlHelpController,记住你需要给每一个帮助页面指定META标记,如下所示:
```
<meta http-equiv="Content-Type" content="text/html; charset=iso8859 //2">
```
你还需要注意帮助工程文件(扩展名.hhp)也许要包含一个指定编码的选项行:
```
Charset=iso8859-2
```
这个额外的条目告诉HTML帮助控制器帮助内容和帮助索引使用什么编码格式编码的.
- 第一章 介绍
- 1.1 为什么要使用wxWidgets?
- 1.2 wxWidgets的历史
- 1.3 wxWidgets社区
- 1.4 wxWidgets和面向对象编程
- 1.5 wxWidgets的体系结构
- 1.6 许可协议
- 第一章小结
- 第二章 开始使用
- 2.1 一个小例子
- 2.2 应用程序类
- 2.3 Frame窗口类
- 2.4 事件处理函数
- 2.5 Frame窗口的构造函数
- 2.6 完整的例子
- 2.7 wxWidgets程序一般执行过程
- 2.8 编译和运行程序
- 第二章小结
- 第三章 事件处理
- 3.1 事件驱动编程
- 3.2 事件表和事件处理过程
- 3.3 过滤某个事件
- 3.4 挂载事件表
- 3.5 动态事件处理方法
- 3.6 窗口标识符
- 3.7 自定义事件
- 第三章小结
- 第四章 窗口的基础知识
- 4.1 窗口解析
- 4.2 窗口类概览
- 4.3 基础窗口类
- 4.4 顶层窗口
- 4.5 容器窗口
- 4.6 非静态控件
- 4.7 静态控件
- 4.8 菜单
- 4.9 控制条
- 第四章小结
- 第五章绘画和打印
- 5.1 理解设备上下文
- 5.2 绘画工具
- 5.3 设备上下文中的绘画函数
- 5.4 使用打印框架
- 5.5 使用wxGLCanvas绘制三维图形
- 第五章小节
- 第六章处理用户输入
- 6.1 鼠标输入
- 6.2 处理键盘事件
- 6.3 处理游戏手柄事件
- 第六章小结
- 第七章使用布局控件进行窗口布局
- 7.1 窗口布局基础
- 7.2 窗口布局控件
- 7.3 使用布局控件进行编程
- 7.4 更多关于布局的话题
- 第七章小结
- 第八章使用标准对话框
- 8.1信息对话框
- 8.2 文件和目录对话框
- 8.3 选择和选项对话框
- 8.4 输入对话框
- 8.5 打印对话框
- 第八章小结
- 第九章创建定制的对话框
- 9.1 创建定制对话框的步骤
- 9.2 一个例子:PersonalRecordDialog
- 9.3 在小型设备上调整你的对话框
- 9.4 一些更深入的话题
- 9.5 使用wxWidgets资源文件
- 第九章小结
- 第十章使用图像编程
- 10.1 wxWidgets中图片相关的类
- 10.2 使用wxBitmap编程
- 10.3 使用wxIcon编程
- 10.4 使用wxCursor编程
- 10.5 使用wxImage编程
- 10.6 图片列表和图标集
- 10.7 自定义wxWidgets提供的小图片
- 第十章小结
- 第十一章剪贴板和拖放操作
- 11.1 数据对象
- 11.2 使用剪贴板
- 11.3 实现拖放操作
- 第十一章小结
- 第十二章高级窗口控件
- 12.1 wxTreeCtrl
- 12.2 wxListCtrl
- 12.3 wxWizard
- 12.4 wxHtmlWindow
- 12.5 wxGrid
- 12.6 wxTaskBarIcon
- 12.7 编写自定义的控件
- 第十二章小结
- 第十三章数据结构类
- 13.1 为什么没有使用STL?
- 13.2 字符串类型
- 13.3 wxArray
- 13.4 wxList和wxNode
- 13.5 wxHashMap
- 13.6 存储和使用日期和时间
- 13.7 其它常用的数据类型
- 第十三章小结
- 第十四章文件和流操作
- 14.1 文件类和函数
- 14.2 流操作相关类
- 第十四章小结
- 第十五章内存管理,调试和错误处理
- 15.1 内存管理基础
- 15.2 检测内存泄漏和其它错误
- 15.3 构建自防御的程序
- 15.4 错误报告
- 15.5 提供运行期类型信息
- 15.6 使用wxModule
- 15.7 加载动态链接库
- 15.8 异常处理
- 15.9 调试提示
- 第十五章小结
- 第十六章编写国际化程序
- 16.1 国际化介绍
- 16.2 从翻译说起
- 16.3 字符编码和Unicode
- 16.4 数字和日期
- 16.5 其它媒介
- 16.6 一个小例子
- 第十六章小结
- 第十七章编写多线程程序
- 17.1 什么时候使用多线程,什么时候不要使用
- 17.2 使用wxThread
- 17.3 用于线程同步的对象
- 17.4 多线程的替代方案
- 第十七章小结
- 第十八章使用wxSocket编程
- 18.1 Socket类和功能概览
- 18.2 Socket及其基本处理介绍
- 18.3 Socket标记
- 18.4 使用Socket流
- 18.5 替代wxSocket
- 第十八章小结
- 第十九章使用文档/视图框架
- 19.1 文档/视图基础
- 19.2 文档/视图框架的其它能力
- 19.3 实现Undo/Redo的策略
- 第十九章小结
- 第二十章完善你的应用程序
- 20.1 单个实例和多个实例
- 20.2 更改事件处理机制
- 20.3 降低闪烁
- 20.4 实现联机帮助
- 20.5 解析命令行参数
- 20.6 存储应用程序资源
- 20.7 调用别的应用程序
- 20.8 管理应用程序设置
- 20.9 应用程序安装
- 20.10 遵循用户界面设计规范
- 20.11 全书小结