« あだ名がついたかも、、「体操おじさん」 | トップページ | 段々と、鳥頭(鳥脳)になってきたかな »

2016年2月13日 (土)

Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V101_0

2016-02-13(土)晴れ、のち曇り、暖かい

 つい先日も更新したアプリ「PyBookGet」ですが、また変更を加えました。PyBookGet は、WEB小説のサイト(現在のターゲットは「小説家になろう」サイトです)からWEB小説をダウンロードするスクリプトです。

 前回の記事「Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V100_0

変更内容:
(1)htmlからテキストファイルへ変換時の、特殊記号の変換ミスを修正した。
   ("、&、<、> が全部 「"」になっていた。)
(2)「《》」を「〈〉」に変換するようにした。

 (1)は単なるミスです。"、&、<、> が全部 「"」に変換されていましたので訂正しました。

(2)は特殊な事情があります。 今回から、「《》」を「〈〉」に変換するようにしました。
理由は、「青空文庫を縦書きPDFへ変換するサイト」を利用して縦書きに変換して読むときのためです。「《》」は青空文庫ではルビですが、WEBサイトの小説では、必ずしもルビではありません。単なる強調のため等にも使用されています(WEBサイトでは、ルビは<rb><rt>等のタグで明示的に記入されています)。上記サイトでは、当然青空文庫対応ですから《》をルビと判定します。
 従って、ルビでないものをルビへ変換してしまうのを防止するため、全部をルビ以外の扱いにして、〈〉に変換することにしました。
 ルビで良いものもルビ以外になりますが、WEB小説は青空文庫のルビのルールに従っているわけでもないので、うまく変換されるとは限りません。
 もともとテキストビューワではルビにしないで読んでいたので、それで良いことにしました。

 なお、変換したくない場合は、リスト先頭の Bracket_replace を"0"に設定すれば、変換しないアプリとして動きます。

Bracket00 Bracket01 Bracket02_2  

左は、もともとのテキストファイルを見たところです。
中は、そのままPDF変換した場合です。「の」にルビとしてついてしまいました。
右は〈〉に変換するようにした後です。

 これで、問題ないかなと思います。
------------------------------------------------------------------
 モジュール  「PyBookGet_101_0.zip」   

------------------------------------------------------------------
 

|

« あだ名がついたかも、、「体操おじさん」 | トップページ | 段々と、鳥頭(鳥脳)になってきたかな »

Python」カテゴリの記事

アプリケーション」カテゴリの記事

携帯電話」カテゴリの記事

書籍・雑誌」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/513620/63205575

この記事へのトラックバック一覧です: Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V101_0:

» 携帯電話で撮影した画像が… [広く浅い生活]
先日出かけた時のこと、カメラを車に忘れた。取りに戻るのも面倒なので、何かあれば携帯電話で撮影すればいいかと思い、カメラを取りに戻らなかった。そんな感じで、結局撮影は携帯... [続きを読む]

受信: 2016年2月14日 (日) 17時39分

« あだ名がついたかも、、「体操おじさん」 | トップページ | 段々と、鳥頭(鳥脳)になってきたかな »