最終更新日 2025-07-22
NormToStandardJapanChar
概要
Unicode文章でよく発生する「文字のゆれ(形が近い異字体等)」を「標準的な文字」へと正規化する機能を提供します。
NFCやNFKCで一括変換といった単純なものではなく、以下のように調整しています。
- 1文字ずつ走査します。
ここでいう「1文字」とは、サロゲートペアなど「複数の文字で1つの文字」を形成している場合、その「複数の文字全体」を1文字として取り扱います。 - 文字がsjisの文字に収まっている場合、それをそのまま採用します。
- 文字がsjisの文字に収まっていない場合、「NFC」でUnicode正規化を試みます。
この変換の結果、「何らかの文字変換が行われた」場合、それを採用します。 - 上では文字の変化が起きなかった場合、該当文字を「NFKC」でUnicode正規化を試みます。 この変換の結果、「元の文字とバイト数が同じか、それ以下の場合のみ」それを採用します。
以上の形で「文字の揺れ」を解消しています。
インストール
使い方
コマンドパレットで「Normalize to standard Japanese characters」を実行する。
- テキストを何も選択していない場合は全文を対象とする。
- テキストを選択している時は、選択している範囲を対処とする。
NormToStandardJapanChar.normalize
がコマンドです。
マーケットプレイス
NormToStandardJapanChar で公開されています。
ライセンス
MITライセンス
リポジトリ
github で公開されています。