« 水無川沿いの桜も、概ね満開かな | トップページ | 暖かくて、桜の時期が早すぎる?桜祭り »

2018年3月27日 (火)

Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_11(0)

2018-03-27(火)晴れ

  「小説家になろう」サイトからWEB小説のテキストを纏めてダウンロードするスクリプト「PyBookGet」を更新しました。これも、自分で使っているからと変更を行い、忘れないように記事にしておくものです。

変更内容:
・受信したデータから小説本文を切り出すときの、本文最後を検出する正規表現を変更しました(希に再帰制限エラーになることがあるため)。

 WEBから受信したデータには小説本文分以外にも、色々な広告やらのデータが含まれています。ここから小説部分だけを切り出すのですが、その先頭や最後を検出するのに正規表現を使用しています。今までは、対象のパターンを検出するには、、という面からだけ考えて正規表現を作成していました。今まで、それで問題なかったのですが、今回エラーになりました。色々調べて、やっと理解できたことがあります。
 それは、正規表現を考えるときには、先頭パターンが検出されてパターン検出に入ったときに、もし対象のパターンではなかったときに、如何にして短い文字列の範囲で、これは対象のパターンではないぞ、、と検出させるかという点です。ずーっと後ろまで見ていかないと対象パターンではないことがわからないとすると、途中で再帰制限エラーになる事があります。
 ということで、今回の変更となりました。まあ、エラーになるのはごく希なケースなのですが、エラーが出たときに面倒なので修正を入れました。

----------------------------------------------------
 モジュール
   「PyBookGet_111_0.zip」  


 参考記事場所 「Python スクリプト雑記」  PyBookGet 
----------------------------------------------------
 

|

« 水無川沿いの桜も、概ね満開かな | トップページ | 暖かくて、桜の時期が早すぎる?桜祭り »

書籍・雑誌」カテゴリの記事

携帯電話」カテゴリの記事

Python」カテゴリの記事

アプリケーション」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V1_11(0):

« 水無川沿いの桜も、概ね満開かな | トップページ | 暖かくて、桜の時期が早すぎる?桜祭り »