このページでは,文字校正に関する事項について整理しています.

目次

  1. 漢字
    1. 3部首許容
    2. 人名用漢字
  2. ローマ字
  3. 約物
    1. 字形の似た約物
  4. 記号との表記揺れ
  5. 互換性
    1. 濁点・半濁点の分離
    2. 環境依存文字

漢字

3部首許容

「3部首許容」とは,3部首(しんにゅう/しめすへん/しょくへん)について,2点/1点しんにゅう,示/ネのしめすへん,下部をはねない/はねるの食とするしょくへんの違いを印刷文字として許容することです.
第22期表外漢字字体表では,それぞれ前者を印刷標準字体としています.

人名用漢字

法務省が子の名に使える漢字を一覧で示し,また,個別にも検索できるようにしています.

ローマ字

ローマ字には表記法が複数あります.
公式なものとして,文化庁の内閣訓令に基づいたローマ字のつづり方が一応ありますが,ヘボン式とは異なります.

ヘボン式にも旧ヘボン式や修正ヘボン式があり,使用場所によって細かい表記方式に分かれがあります.(Wikipediaではパスポート,標識,駅,各地方公共団体,野球選手のユニフォームの例が挙げられています.)

約物

「約物」とは,言語記述記号類の総称で,句読点や括弧,アクセントなどのことです.

字形の似た約物

別の文字と字形が酷似した約物があります.
特に,検索・置換時の見落としに注意が必要です.

  • シャープとナンバーサイン(ハッシュ,井桁)は異なる記号です.(←いずれも全角にしています.)
  • ハイフン-,ダーシ(ダッシュ),マイナス,長音符(音引き)も紛らわしい記号です.
  • 波ダーシと全角チルダも似ています.あるリストで一括置換が効かず,少し悩みました.
  • アルファベットのエックスxは小売業の台帳などで乗算のかける×の入力の手間を省くためにしばしば使われています.
  • プラス+と漢数字のはOCRのエラーで出会ったことがあります.
  • 滅多に見掛けないものの,アスタリスクとそれを横倒しにしたようなスターマークも異なります.

記号との表記揺れ

「kg」等の単位は通常アルファベットで入力されていますが,全角一字の記号で入力されていることもあります.
目視確認では見落としが多くなるので,カタログ等でこの表記揺れが生じていた場合には,表記揺れを指摘修正するために検索置換を必要とします.
一部の例ですが,記号のUnicodeは以下の通りです.

記号 Unicode
U+339D
U+339C
U+33A1
U+33A5
U+338F
U+210A
U+338E
U+2113
U+3396
U+33A7

記号から置換が必要になる他の例として,コピーライトマークを文字化け防止のために「©」としたり,(株)を「株式会社」に統一するといったものもあります.

記号 Unicode
© U+00A9
® U+00AE
U+2122
U+3231

互換性

濁点・半濁点の分離

macOSとWindowsの間でデータをやりとりしている際に,濁点または半濁点が含まれたデータでエラーが起きることがあります.
このトラブルは濁点や半濁点を清音の仮名と分離して扱うか(=「NFD」),濁音の仮名として結合して扱うか(=「NFC」)という文字の取り扱いの違いに由来します.

NFD→NFC変換ツールで分離した濁点・半濁点を結合したものへと修正することができます.

環境依存文字

環境依存文字が問題となる場合のほとんどは,多くの文字を使えるUnicodeとそうではないShift-JISの間で生じます.
この差により,Unicodeで利用可能である一部の漢字や丸囲み数字等がShift-JISでは文字化けします.

さぶみっと!JAPANの機種依存文字チェッカーでは,テキスト中の特殊な漢字や丸囲み数字などを検出することができます.

なお,Shift-JISであっても,Microsoft社による拡張Shift-JIS(「CP932」)であれば,丸囲み数字等は許容されます.
また,WebサイトではUnicodeが使用されることが増えたので,環境依存文字による問題は生じにくいと考えられます.
しかしながら,Officeアプリケーションでの原稿受け渡し中などで文字化けが生じることがあるので,確認が必要となることもあります.