« バイクの燃料計の針が動かないなあ | トップページ | Python 西暦・年号変換(対照)アプリ PyNengou のチェック »

2016年8月 6日 (土)

漢字って難しい、、似て非なる文字

2016-08-06(土)晴れ

 紙の本になってしまえば分からないのですが、電子データの時とか、WEB小説を電子データで読むときに出てくる問題がありました。

 WEB小説は、「ダウンロード用スクリプト PyBookGet」 でまとめてダウンロードしてから、縦書きPDFに変換するサイトでpdf化して読んでいます。このとき、ある小説で、どうしてもおかしくなる部分がありました。あるポイントから一文だけ縦書きにならないのです。ダウンロードしたファイルに文字化けがあるのかとチェックしましたが問題ありません。

 テキストエディタの検索機能やバイナリエディタを使って内容をチェックして判明しました。それが、見た目が同じだが似て非なる文字があったという内容です。

Webpdf02 Webpdf01
 図1                          図2

 図1の上の行がWEBから読んだままのデータ、下の行が変更した後のデータです。これを縦書きPDF化したのが右の図2です。一行目の「都」の文字以降がおかしくなっています。

 
Webpdf03

 フォントサイズを最大にして見ると分かります。上の行(元のデータ)は「者」の中に点がある文字です。Shift JISでのファイルでバイナリデータを見たら上が「FBB7」、下が「9373」でした。
 この小説でも沢山の「都」の文字があるんですが、ここの1文字だけが、この点のある文字でした。日本語入力変換の時になったんでしょうか。
 漢字も、なかなか大変だなあと思った次第です。

  

|

« バイクの燃料計の針が動かないなあ | トップページ | Python 西暦・年号変換(対照)アプリ PyNengou のチェック »

一般」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/513620/64023832

この記事へのトラックバック一覧です: 漢字って難しい、、似て非なる文字:

« バイクの燃料計の針が動かないなあ | トップページ | Python 西暦・年号変換(対照)アプリ PyNengou のチェック »