« 落花生の花 | トップページ | 雑談、歩きスマフォとか、、 »

2016年7月21日 (木)

Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V104_2

2016-07-21(木)雨、のち曇り

 また、Nokia携帯電話で使うPythonスクリプトを弄りました。このスクリプトは、WEB小説(今のターゲットは「小説家になろう」のサ イ トですが)をダウンロードして、テキストファイルで格納するものです。動作上は、今までのバージョンと変わらないのですが、一部の文字を変換するように、少しだけ手直ししました。内容を忘れないうちに、記事にしておくものです。
 最初の記事 「Python: WEB小説のデータ取得スクリプト PyBookGet
 前回の記事 「Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V104_1

 ダウンロードしたWEB小説のファイルは、PDF化前に、若干の編集を行います。記号の変換とか、改行のみの行が多いときは少なくするとか、、。今回は、ローマ数字と、ダブルクォーテーション?の文字を変換するようにしました。

変更内容
 ・ローマ数字(Ⅰ~Ⅸ)を通常の数字(1~9)に、一部記号(〝〟)を(“”)に変換
  するようにしました。
   これは、縦書きPDFサイトで変換したときに、上記文字が空白(" ")になって
   しまうため変換することにしました。
  合わせて、リスト先頭に変換有無指定の "Symbol_replace" を追加しました。

Webbooktxt01 Webbookpdf01_2 Webbookpdf02 

 左のようなテキストを、いつも利用させていただいている縦書きPDF変換サイトを通すと、真ん中の画像のようにローマ数字が空白になります。このため、WEBブラウザ小説のテキストをダウンロードしたときにアラビア数字に変換します。これで、一番右側のようになります。
 変換アプリの仕様まで調べる気はないので、こういう内容は、出てきたらそのたびに対処することでいく予定です。

---------------------------------------------------------------
モジュール
   「PyBookGet_104_2.zip」  
---------------------------------------------------------------
 

|

« 落花生の花 | トップページ | 雑談、歩きスマフォとか、、 »

Python」カテゴリの記事

アプリケーション」カテゴリの記事

携帯電話」カテゴリの記事

書籍・雑誌」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/513620/63949510

この記事へのトラックバック一覧です: Python: WEB小説のデータ取得スクリプト PyBookGet 更新 V104_2:

« 落花生の花 | トップページ | 雑談、歩きスマフォとか、、 »