繁简中文的处理

来自Org
跳转至: 导航搜索

您当前所在的位置:首页 > 编辑手册 > 繁简中文的处理

注意:本页面不使用繁简转换 / 注意:本页面不使用繁简转换

中文维基百科的繁简处理是中文维基百科的一项自动转换,目的是以计算机程序适应不同用字模式的差异。

中文维基百科的读者和编者来自世界各地。他们所需求或贡献的中文在性质上有许许多多的差异,像是简化字繁体字的差异、简体中文繁体中文词汇的差异、方言差异造成的书面语言的差异等等。本百科将这些中文性质集合在一起,称为「用字模式」。可以说:一种用字模式就是某些中文性质的一个集合。

为了整合读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是尝试以计算机程序的自动转换来适应这些差异,让编者可以以自己的用字习惯提供数据,也让读者可以选择所要的数据的用字遣词。

目前的中文维基百科正在进行这样相当特别的计算机程序试验。因此编辑和阅读时有特别的事项需要注意。事实上,就连本页尝试说明的事项,也有许多模糊之处。

现行的自动转换

用字模式自动转换与维基系统本身的原理有关。大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。维基系统通常会保留完整不变的源码,不作自动转换。读者使用维基系统时,并非直接阅读源码,而是由系统将源码实时自动转换成合适的形式,例如加上图片、超级链接等等。而中文维基百科的用字模式转换就是众多自动转换程序中的一道。

自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。

大多数时候(预设情况),本程序是根据转换表进行转换。有的时候,则是根据编者在源码中指定的方式作自动转换,包括不转换或是所谓「手动转换」

转换表就是一份列出各种不同用字模式之间,字与字或是词与词之间的对应关系的表格。目前只有管理员能编辑转换表,一般人可以向管理员提出申请。

所谓「手动转换」仍然是维基系统在读者使用时实时作的自动转换,但是这时程序是根据编者在源码中指定的方式为优先。

编者可以在编辑存档后切换至其它用字模式查看情况。

编者请不要将含有各种用字的源码全部转换成同一种用字,尤其不要用本百科自动转换的结果。注意:自动转换程序可能会输出很多错误结果

用字模式选择

目前中文百科系统支持中文的zh-cn(中国大陆用字),zh-tw(台湾用字),zh-hk(香港用字),和zh-sg(新加坡用字)四种用字模式。要支持更多的用字模式需要修改程序,如果有实际需要请在讨论页中提出。

文章主体繁体/简体选择(按优先级):

  • 所有人都可以在URL后加上&variant=zh-xxxx可为cn、tw、hk、sg。但这-{只}-对含有这一段的URL起作用;
  • 已登入的用户可以在个人参数里选择所谓“中文字体”;
  • 对匿名用户,系统根据用户浏览器要求的语言设置;
  • 如果以上设置都没有,则缺省为zh-cn。

另外,不同的面板(Skin)都增加了到各个用字模式的链接,如现在MonoBook面板,链接是在文章的右上方。链接的名称可以通过MediaWiki:variantname-zh-tw/zh-cnMediaWiki:variantname-zh-tw/zh-tw等修改。如果要去掉某个链接,只需将相应的MediaWiki:variantname-zh-xx的页面内容设为disable。

界面的用字模式

界面的用字模式是独立于文章内容的用字模式的。除了中文的各种用字模式,还可以选择英文、法文等等语言。界面用字模式在已登入用户的个人参数里设置。

转换表

目前,系统预设的自动转换是根据数个「转换表」。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。又叫系统默认转换表。目前只有管理员能编辑转换表,一般人可以向管理员提出申请。

参见:Wikipedia:繁简体转换请求

系统默认转换表

这里列出目前系统默认的转换表:

参见Wikipedia:简繁一多对应校验表Wikipedia:繁简一多对应校验表

定制转换表

管理员可以通过Mediawiki:Conversiontable/zh-cn, Mediawiki:Conversiontable/zh-tw, Mediawiki:Conversiontable/zh-sg, 及 Mediawiki:Conversiontable/zh-hk 来定制转换表。普通用户可以在Wikipedia:繁简体转换请求里提出修改转换表的建议。定制转换表可以用来修正系统默认转换表里的错误。这些页面可以象其它页面一样编写,但是描述转换关系需依以下格式:

-{
 皇后 => 皇后 ;
 波斯尼亚=>波斯尼亚;
 萨拉热窝=>塞拉耶佛 //Sarajevo的翻译;
  ...
 }-

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。 Zhconversiontable/zh-cn页面用于向zh-cn的转换,Zhconversiontable/zh-tw页面用于向zh-tw的转换,等等。 这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在页面-{zh-cn:缓存; zh-tw:暂存区}-里。要看即时效果可以用编辑预览功能。

关于-{}-标记

例如:“张国荣曾在英国-{zh-cn:利兹;zh-hk:列斯}-大学学习。”所用的{}标记是[[利兹大学|-{zh-cn:利兹;zh-hk:列斯}-大学]]

参见本页「不根据系统默认转换表作自动转换」。

-{注意}-:该-{}-标记的设计意图是仅对文字进行手工转换,对链接,模板等等进行手工转换可能会出错!如果要支持对非文字信息进行手工转换,则要对代码作较大的改动。

源码一般不做转换

大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。维基系统通常会保留完整不变的源码,不会对源码作自动转换。


断词问题--自动转换程序很常见的问题

注意:中文维基百科不保证用字模式自动转换程序和内容的正确性。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题特别多的。

转换程序使用最简单的“最大匹配法”进行转换。这会导致如下的错误:假设转换表中有一对应关系为

-{内存}- => -{内存}-

现对以下句子作转换

-{人体内存在很多微生物}-

基于最大匹配,系统会对“-{内存}-”进行转换,得到“-{内存}-”。整个句子将会被错误地转换成

-{人体内存在很多微生物}-

解决这个问题的根本方法是采用智能的断词匹配,将上述句子先拆分为

-{人体 内 存在 很多 微生物}-

然后再对每个词单独转换。

在具有这种智能的-{A|zh-cn:分词; zh-tw:断词;}-系统没有实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及断词错误的词分开:“人体内-{}-存在很多微生物”
  2. 将涉及断词错误的多个词作为一个整体加到定制转换表里,如“-{体内存在}- => -{体内存在}-”。(注:目前只有管理员能编辑转换表,一般人可以向管理员提出申请。)

这就是断词的错误。阅读本百科时请多加注意。遇到可疑的部分可以前往编辑页面去查源码,或是多多留意不同用字模式之间的转换关系,以养成自行「反转换」的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的语法设定不自动转换,或是「手工转换」

设定了所谓「手工转换」,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。

常用的转换工具语法

  • 禁止自动转换一段文字的卷标
    -{文字}-
  • 禁止自动转换一段文字(但作繁简汉字转换)的标签
    文-{}-字
示范:旧-{}-金山,香港称-{旧金山}-。
  • 手工转换一段文字的卷标(局部性自行增添转换方式标签):
    -{zh:文字1; zh-cn:文字2; zh-tw:文字3; zh-hk:文字4; zh-sg:文字5}-
  • 全文禁止自动转换
    <code>__NOCC__</code> 或__NOCONTENTCONVERT__
  • 全文手工转换标签(全面性自行增添转换方式标签):
    -{A|zh:文字1;zh-cn:文字2;zh-tw:文字3;zh-hk:文字4;zh-sg:文字5;}-
  • 条目标题禁止自动转换
    __NOTC__ 或__NOTITLECONVERT__
  • 条目标题手工转换标签
    -{T|文字}-
    -{T|zh:文字1;zh-cn:文字2;zh-tw:文字3;zh-hk:文字4;zh-sg:文字5;}-

条目标题

有时文章的标题不需要转换,如维基词典里的单字,或如-{《计算机世界报》}-之类的专有名词。在这种情况下,可以在文章中加一 __NOTC____NOTITLECONVERT__(注意前后都是两道下划线)来禁止对该文章标题的转换。

注意:这个标记要放在文章最开始的地方。

有时一篇文章的标题里,可能含有各地区认知不同或翻译方式差异很大的词汇,但因为某些理由不适合透过修改转换表来达成自动转换的目的,通常是因为一些常用字。如果冒然修改转换表,可能会造成更多地方产生错误。这种情况下可以在文章内指明标题的正确显示:-{T|标题}--{T|zh-cn:中国大陆用字; zh-sg:新加坡用字}-

实例:美国政治家John Kerry分别有「-{约翰•克里}-」、「-{约翰•凯利}-」与「-{约翰•克里}-」的不同译名,但如果在转换表中进行「-{克里<=>凯利}-」的互换,那么欧洲地名克里米亚克-{里}-姆林宫将会变成「-{凯利}-米亚」与「-{凯利}-姆林宫」的错误情况,为了避免制造更多的混乱,这情况比较适合在-{zh-cn:约翰•克里;zh-tw:约翰•凯利}-的条目中以手工转换标签修正标题与内文部份的相关译名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过复位向将各种用字模式的同一标题指向该文章。如约翰•凯利

全文禁止自动转换

有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这种情况下,可以在文章中加一 __NOCC____NOCONTENTCONVERT__(注意前后都是两道下划线)来禁止对该文章内容的转换。

注意:这个标记要放在文章最开始的地方。

自动转换的能力范围

本百科很多页面都可进行自动转换。但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,就有一部分是不转换的。

参见Wikipedia:什么是条目

页面分类

目前自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换也和别处不同,仅仅是简单的「繁简转换」,并没有进一步转换。

实例:美国政治家John Kerry分别有「-{约翰•克里}-」、「-{约翰•克里}-」与「-{约翰•凯利}-」的不同译名。译名的关系已加入转换表,而条目的源码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源码,而是由系统将源码自动转换成合适的形式。但是在页面分类中,的自动转换也和别处不同,仅仅是简单的「繁简转换」,并没有进一步转换。

在分类页Category:美国政治家之中,如果读者选择中国大陆用字新加坡用字模式,将看到-{zh-cn:约翰•克里;zh-tw:约翰•凯利}-的条目归类在「-{约}-」字之下的-{约翰•克里}-:

而选择台湾用字香港用字的读者则会看到这条目归类在正体的「-{约}-」字之下,然而条目名称是-{约翰•凯利}-:

子分类也是一样。

软件问题

2006年1月开始出现一个问题,可能与新版本的mediawiki有关。只要是分类名繁体对简体,条目或子分类就会从母分类消失,但是条目或子分类页经过任何编辑之后又会恢复,但系统下一次的link更新时又会消失。另外,分类是不可使用复位向功能的。

参看:页面分类

内部连结、URL、复位向与搜寻

虽然源码一般不做转换。只有程序产生出来的页面有经过转换。然而读者收到的页面上,在维基系统之内的「内部连结」(不是外部连结或普通的URL,参见Help:链接),并不是由源码决定,是由程序产生出来的页面决定。也就是说:连结也会受到自动转换计算机程序影响。

同上例:从2004年3月8日2005年3月26日之前,维基百科上面只有-{约翰•克里}-条目,而没有台湾用字模式的-{约翰•凯利}-条目,也没有将「-{约翰•凯利}-」复位向至-{约翰•克里}-。这段时间如果在源码中有[[-{约翰•凯利}-]] 这段代码的话,那么:
    • 如果有人是用「不转换」模式来浏览的话,那么可以收到连往「-{约翰•克里}-」页面的「-{约翰•凯利}-」(系统会在用字模式自动转换之后自动加上连到「-{约翰•克里}-」的连结)。
    • 如果有人是用「不转换」模式来浏览的话,那么会收到有待编辑的「-{约翰•凯利}-」(因为系统直接连到当时什么都没有的「-{约翰•凯利}-」)。

用字自动转换计算机程序的能力范围不包括维基百科的URL与搜索功能。百科的系统不会对URL之中的汉字(有时是Punycode的代号形式),或是输入搜索功能的查询字符串作用字转换。

同一例:这段时间,「-{约翰•凯利}-」无论是条目名称或是其相关的URL(例如 http://zh.wikipedia.org/wiki/-{约翰•凯利}-)都是空的。直到2005年3月26日Zhengzhu将「-{约翰•凯利}-」复位向至-{约翰•克里}-,-{约翰•凯利这个条目}-,以及相关的URL才有内容。

复位向页的内容不会受到自动转换计算机程序影响。

同一例:Zhengzhu所加入的复位向代码如下:
#REDIRECT[[约翰•克里]]
这并不受自动转换计算机程序影响。请看http://....title=-{约翰•凯利}-&redirect=no&variant=zh-tw

本百科的条目名称搜索(「进入」)不会受到自动转换计算机程序影响。因此条目名称完全是一个用字模式的条目还需要一个复位向页才能直接搜索。但是如果复位向页的「名称」和已存在的条目名称完全一样,只是繁简用字模式不同,则需要特殊做法来制造复位向页。

本百科的条目全文搜索(「搜寻」)不会受到自动转换计算机程序影响。

本百科之外的搜寻引擎Google可能有自己的自动转换计算机程序。目前已知搜索时会作简单的繁简转换。当需要建立繁简复位向页的时候,建立新条目的方式往往无法奏效。

如何建立繁简复位向页

-{zh-cn:登录;zh-tw:登入}-的用户可以使用移动页面功能来建立繁简复位向页。比方说,假设现在有个名为「-{沈阳}-」的条目,而你想要建立从「-{沈阳}-」到「-{沈阳}-」的复位向页,那么应该要进行两次移动:

  1. 将「-{沈阳}-」移动到「-{沈阳}-」。
  2. 将「-{沈阳}-」移动到「-{沈阳}-」。

其结果将是「-{沈阳}-」的条目维持原状,而「-{沈阳}-」成为指向「-{沈阳}-」的复位向页。

第二次移动看似多余,但会带来两个好处:

  • 对该条目历来参与者的尊重 —— 未经讨论贸然改变一个条目的名称是不恰当的行为
  • 一旦条目名称改变,原本指向该条目的连结虽会以复位向的方式指向正确的条目,但长期来说所有复位向连结都应该用直接连结取代。修改所有这些连结会增加维基百科的维护成本(尤其是其它语言的维基百科也有可能透过跨语言连结连向这些页面),比起此种额外负担,将条目保持原有名称会是更有效率的作法。

编辑一般文章时的注意事项

  • 文章以及分类的标题必须是全部为简体或繁体字,如果标题繁简混杂,例如「-{中国历史}-」,或是(常见的)「-{台湾}-」,那么系统将不能作正确的转换。
  • 在以前许多事物有繁简体两个版本的不同文章来介绍。现在需要通过手工将这样的文章合并起来。具体请参看繁简处理

关于“繁简中文的处理”的留言:

目前暂无留言

新增相关留言