« また急に寒くなった | トップページ | ギターサークルの休日練習に行ってきた »

2017年10月14日 (土)

Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V109_0

2017-10-14(土)雨/曇り、ちょっと寒い

  「小説家になろう」サイトからWEB小説のテキストを纏めてダウンロードするスクリプト「PyBookGet」を更新しました。これも、自分で使っているからと変更を行い、忘れないように記事にしておくものです。

変更内容:
 ・URLがhttpsのサイトのためにPython 2.0.0 を使用したときに、画面の表示更新が
  遅れるのを対策した(メッセージ表示処理にe32.ao_yield() を追加した)。
 ・<div id="novel_a"~</div>および <div id="novel_p"~</div> で記述された作者
  のコメント部分を削除するようにした。

 連載を纏めてダウンロードしたときに、各回毎などに記入されている作者のコメントを手で削除していました。作者の謝辞などが記載されているのですが、連載小説として続けて読んでゆくときには、毎回ごとに記入されていると面倒に感じます。
 ということで、今までは手で削除してましたが、スクリプト内に削除する処理を追加しました。

Webnovelgamen1

 ブラウザで見ると上図の下部の部分のように二重線で区分されているコメントは、実際に二重線が入っているわけではなく "<div " タグで区分されているテキストです。PDF変換して読むためにテキストファイルに変換すると、HTMLタグがなくなるので、本文と区別がつかなくなります。そこで、"<div "タグで記述されたコメントのテキストを削除するようにしました。

 これで、数十個とか二百個にちかい連載部分から一つずつ削除する必要がなくなり楽になりました。
 
----------------------------------------------------
 モジュール
     「PyBookGet_109_0.zip」
 
 参考記事場所 「Python スクリプト雑記」  PyBookGet 
 

|

« また急に寒くなった | トップページ | ギターサークルの休日練習に行ってきた »

パソコン・インターネット」カテゴリの記事

書籍・雑誌」カテゴリの記事

Python」カテゴリの記事

アプリケーション」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V109_0:

« また急に寒くなった | トップページ | ギターサークルの休日練習に行ってきた »