Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V101_0
2016-02-13(土)晴れ、のち曇り、暖かい
つい先日も更新したアプリ「PyBookGet」ですが、また変更を加えました。PyBookGet は、WEB小説のサイト(現在のターゲットは「小説家になろう」サイトです)からWEB小説をダウンロードするスクリプトです。
前回の記事「Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V100_0」
変更内容:
(1)htmlからテキストファイルへ変換時の、特殊記号の変換ミスを修正した。
("、&、<、> が全部 「"」になっていた。)
(2)「《》」を「〈〉」に変換するようにした。
(1)は単なるミスです。"、&、<、> が全部 「"」に変換されていましたので訂正しました。
(2)は特殊な事情があります。 今回から、「《》」を「〈〉」に変換するようにしました。
理由は、「青空文庫を縦書きPDFへ変換するサイト」を利用して縦書きに変換して読むときのためです。「《》」は青空文庫ではルビですが、WEBサイトの小説では、必ずしもルビではありません。単なる強調のため等にも使用されています(WEBサイトでは、ルビは<rb><rt>等のタグで明示的に記入されています)。上記サイトでは、当然青空文庫対応ですから《》をルビと判定します。
従って、ルビでないものをルビへ変換してしまうのを防止するため、全部をルビ以外の扱いにして、〈〉に変換することにしました。
ルビで良いものもルビ以外になりますが、WEB小説は青空文庫のルビのルールに従っているわけでもないので、うまく変換されるとは限りません。
もともとテキストビューワではルビにしないで読んでいたので、それで良いことにしました。
なお、変換したくない場合は、リスト先頭の Bracket_replace を"0"に設定すれば、変換しないアプリとして動きます。
左は、もともとのテキストファイルを見たところです。
中は、そのままPDF変換した場合です。「の」にルビとしてついてしまいました。
右は〈〉に変換するようにした後です。
これで、問題ないかなと思います。
------------------------------------------------------------------
モジュール 「PyBookGet_101_0.zip」
------------------------------------------------------------------
| 固定リンク
「Python」カテゴリの記事
- Python: SMS送信スクリプト jSendSMS を作成した(2018.04.21)
- Python 電話帳アプリ jContactsM を更新した jContactsM_202(0)(2018.04.19)
- Python 一部の機種で動かないスクリプトのテストをした(2018.04.15)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_12(0)(2018.04.13)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_11(0)(2018.03.27)
「アプリケーション」カテゴリの記事
- Python: SMS送信スクリプト jSendSMS を作成した(2018.04.21)
- Python 電話帳アプリ jContactsM を更新した jContactsM_202(0)(2018.04.19)
- Python 一部の機種で動かないスクリプトのテストをした(2018.04.15)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_12(0)(2018.04.13)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_11(0)(2018.03.27)
「携帯電話」カテゴリの記事
- Python: SMS送信スクリプト jSendSMS を作成した(2018.04.21)
- Python 電話帳アプリ jContactsM を更新した jContactsM_202(0)(2018.04.19)
- Nokia E52 でファームウエアのupdateチェックをしてみた(2018.04.16)
- Python 一部の機種で動かないスクリプトのテストをした(2018.04.15)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_12(0)(2018.04.13)
「書籍・雑誌」カテゴリの記事
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_12(0)(2018.04.13)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_11(0)(2018.03.27)
- Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_10(0)(2018.03.18)
- Python: WEB小説のデータ取得スクリプト PyBookGet 変更検討(2018.03.17)
- WEB小説雑感 その5(2018.02.26)
コメント