26. ES6におけるUnicode

この章では、ECMAScript 6がもたらすUnicodeの改善されたサポートについて説明します。Unicodeの一般的な概要については、「Speaking JavaScript」の「UnicodeとJavaScript」の章をお読みください。

26.1. ES6ではUnicodeのサポートが強化されている
26.2. ES6におけるエスケープシーケンス
- 26.2.1. エスケープシーケンスはどこで使用できるか？
- 26.2.2. ES6仕様におけるエスケープシーケンス

26.1 ES6ではUnicodeのサポートが強化されている

ECMAScript 6では、Unicodeのサポートが次の3つの領域で改善されています。

16ビットを超えるコードポイントのUnicodeエスケープ: \u{···}
識別子、文字列リテラル、テンプレートリテラル、正規表現リテラルで使用できます。これらについては次のセクションで説明します。
文字列:
- イテレーションはUnicodeコードポイントを尊重します。
- String.prototype.codePointAt() を介してコードポイント値を読み取ります。
- String.fromCodePoint() を介してコードポイント値から文字列を作成します。
正規表現:
- 新しいフラグ /u (およびブール値プロパティ unicode) は、サロゲートペアの処理を改善します。

さらに、ES6はUnicodeバージョン5.1.0に基づいていますが、ES5はUnicodeバージョン3.0に基づいています。

26.2 ES6におけるエスケープシーケンス

JavaScriptで文字を表すための、パラメータ化されたエスケープシーケンスが3つあります。

16進エスケープ (正確に2桁の16進数): \xHH
```
  > '\x7A' === 'z'
  true
```
Unicodeエスケープ (正確に4桁の16進数): \uHHHH
```
  > '\u007A' === 'z'
  true
```
Unicodeコードポイントエスケープ (1桁以上の16進数): \u{···}
```
  > '\u{7A}' === 'z'
  true
```

UnicodeコードポイントエスケープはES6の新機能です。これにより、16ビットを超えるコードポイントを指定できます。ECMAScript 5でこれを行う場合は、各コードポイントを2つのUTF-16コードユニット (サロゲートペア) としてエンコードする必要がありました。これらのコードユニットは、Unicodeエスケープを使用して表現できます。たとえば、次のステートメントは、ほとんどのコンソールにロケット (コードポイント0x1F680) を出力します。

console.log('\uD83D\uDE80');

Unicodeコードポイントエスケープを使用すると、16ビットを超えるコードポイントを直接指定できます。

console.log('\u{1F680}');

26.2.1 エスケープシーケンスはどこで使用できるか？

エスケープシーケンスは、次の場所で使うことができます。

	`\uHHHH`	`\u{···}`	`\xHH`
識別子	✔	✔
文字列リテラル	✔	✔	✔
テンプレートリテラル	✔	✔	✔
正規表現リテラル	✔	フラグ `/u` が設定されている場合のみ	✔

識別子

4桁のUnicodeエスケープ \uHHHH は、単一のコードポイントになります。
Unicodeコードポイントエスケープ \u{···} は、単一のコードポイントになります。

> const hello = 123;
> hell\u{6F}
123

文字列リテラル

文字列は内部的にUTF-16コードユニットとして格納されます。
16進エスケープ \xHH は、UTF-16コードユニットを提供します。
4桁のUnicodeエスケープ \uHHHH は、UTF-16コードユニットを提供します。
Unicodeコードポイントエスケープ \u{···} は、そのコードポイントのUTF-16エンコーディング (1つまたは2つのUTF-16コードユニット) を提供します。

テンプレートリテラル

テンプレートリテラルでは、エスケープシーケンスは文字列リテラルと同様に処理されます。
タグ付きテンプレートでは、エスケープシーケンスの解釈方法はタグ関数によって異なります。2つの解釈から選択できます。
- Cooked: エスケープシーケンスは文字列リテラルと同様に処理されます。
- Raw: エスケープシーケンスは文字のシーケンスとして処理されます。

> `hell\u{6F}` // cooked
'hello'
> String.raw`hell\u{6F}` // raw
'hell\\u{6F}'

正規表現

Unicodeコードポイントエスケープは、フラグ /u が設定されている場合にのみ許可されます。設定されていない場合、\u{3} は文字 u が3回繰り返されたものとして解釈されるためです。
```
  > /^\u{3}$/.test('uuu')
  true
```

26.2.2 ES6仕様におけるエスケープシーケンス

さまざまな情報

仕様では、ソースコードをUnicodeコードポイントのシーケンスとして扱います: 「ソーステキスト」
識別子におけるUnicodeエスケープシーケンス: 「名前とキーワード」
文字列は内部的にUTF-16コードユニットのシーケンスとして格納されます: 「文字列リテラル」
文字列 - さまざまなエスケープシーケンスがUTF-16コードユニットに変換される方法: 「静的セマンティクス: SV」
テンプレートリテラル - さまざまなエスケープシーケンスがUTF-16コードユニットに変換される方法: 「静的セマンティクス: TVとTRV」

26.2.2.1 正規表現

仕様では、BMPパターン (フラグ /u が設定されていない) とUnicodeパターン (フラグ /u が設定されている) を区別しています。「パターンのセマンティクス」セクションでは、それらがどのように異なって処理されるかについて説明しています。

参考までに、仕様で文法規則がパラメータ化される方法を以下に示します。

文法規則 R に添え字 [U] がある場合、それはその規則に2つのバージョンがあることを意味します: R と R_U です。
規則の一部は、[?U] を介して添え字を渡すことができます。
規則の一部にプレフィックス [+U] がある場合、添え字 [U] が存在する場合にのみ存在します。
規則の一部にプレフィックス [~U] がある場合、添え字 [U] が存在しない場合にのみ存在します。

このパラメータ化は、「パターン」セクションで確認できます。ここで、添え字 [U] はBMPパターンとUnicodeパターンのための個別の文法を作成します。

IdentityEscape: BMPパターンでは、多くの文字にバックスラッシュを付けることができ、それ自体として解釈されます (例: \u の後に4桁の16進数が続かない場合、u として解釈されます)。Unicodeパターンでは、これは次の文字に対してのみ機能します (これにより、\u がUnicodeコードポイントエスケープに使用できるようになります): ^ $ \ . * + ? ( ) [ ] { } |
RegExpUnicodeEscapeSequence: "\u{" HexDigits "}" は、Unicodeパターンでのみ許可されます。これらのパターンでは、先行サロゲートと後続サロゲートもグループ化されて、UTF-16デコードに役立ちます。

「CharacterEscape」セクションでは、さまざまなエスケープシーケンスが*文字* (おおまかに: コードユニットまたはコードポイント) に変換される方法について説明しています。

次: 27. 末尾呼び出しの最適化