書き直しの概念
用字系の書き直しには、一般に望ましいとされる品質要件がいくつか存在します。適切な書き直しに求められる要件は次のとおりです。
- 完了
- 予見性
- 発音可能性
- 明白性
これらの品質要件が同時に満たされることはまれなので、Transliterator ステージは、これらの要件のバランスを取ろうとします。
完了
変換元用字系における正しい形式の文字シーケンスが、変換先用字系の文字シーケンスにすべて書き直される、という要件です。
予見性
文字そのものが与えられれば (その用字系で記述される言語に関する知識がなくても)、比較的少数のルールに基づいて書き直しが可能である、という要件です。これで書き直しを機械的に実行できるようになります。
発音可能性
書き直しは、その発音に気を配らずにただ文字をマッピングするだけなら、ほとんど意味がありません。例えば、"αβγδεζηθ..." を "abcdefgh..." にマッピングするだけだと、完備性と明白性は満たされるかもしれませんが、発音できません。
標準の書き直し方法は、多くの場合、変換先の用字系における特定言語の発音ルールに従いません。例えば、日本語のヘボン式では (フランス語、ドイツ語、またはスペイン語とは対照的に) 英語の音価を持つ "j" が使われますが、使われる母音は標準的な英語の音声を持ちません。書き直し方法の中には、場合によって適切な発音を得るために特別な知識が必要とされるものもあります。例えば、日本語の訓令式では "tu" が "tsu" と発音されます。これは同じ用字系内に異なる言語が存在するような状況と似ています。例えば、単語 Gewalt がドイツ語由来の単語であるという知識があれば、"w" は "v" と発音されるでしょう。
場合によって、書き直しは慣習による影響を大きく受けます。例えば、現代ギリシャ語の文字 "ベータ" (β) の音声は "v" に似ていますが、変換によっては、(biology のように) そのまま b が使われることがあります。この場合、ユーザは書き直し後の単語内の "b" が "ベータ" (β) に対応し、現代ギリシャ語では "v" と発音されることを知っている必要があります。発音の予見性を高めるために文脈によって文字が異なる書き直しを受けることもあります。例えば、ギリシャ語の文字シーケンス "ガンマ ガンマ" (γγ) は "ng" と発音され、最初の "ガンマ" は "n" と文字化できます。
明白性
変換先用字系の書き直し結果から変換元用字系のテキストを常に復元できる、という要件です。例えば、Elláda を変換前の Ελλάδα に復元できなければなりません。ただし、複数文字の書き直しでは曖昧性が生じることがあります。例えば、ギリシャ語の文字 "プサイ" (ψ) は ps にマッピングされますが、ps は文字シーケンス "パイ シグマ" (πσ) から生成される場合もあります。"パイ" (π) は p にマッピングされ、"シグマ" (σ) は s にマッピングされるからです。
この曖昧性の問題に対処するために、Transliterator はアポストロフィ (') を用いて文字シーケンスの曖昧性を解消しています。この手順に従うと、ギリシャ文字の "パイ シグマ" (πσ) は p's にマッピングされます。日本語では、変換先用字系で曖昧な文字シーケンスが単一の文字から生成されない限り、変換の曖昧性解消のためにアポストロフィ (') が用いられます。例えば、man'ichi と manichi を区別するためにこの手順が用いられます。
一般的な用字系の変換では、可逆性を得るための共通の技法として、通常なら区別できないような文字の間に特別なアクセント記号を用いることが行われています。例えば、以下は完全に可逆なラテン文字にマッピングされるギリシャ語テキストです。