Giter VIP home page Giter VIP logo

wooodhead / work_crawler Goto Github PK

View Code? Open in Web Editor NEW

This project forked from kanasimi/work_crawler

0.0 1.0 0.0 543 KB

小说漫画下载工具:腾讯漫画 大角虫漫画 哦漫画 看漫画 漫画柜 漫画台 汗汗酷漫 网易漫画 快看漫画 733动漫网 动漫之家 动漫屋 動漫屋 古风漫画网 webtoons;アルファポリス カクヨム ハーメルン 小説家になろう 八一中文网 顶点小说 落霞小说网 努努书坊 卡提諾論壇→epub. Download online novels, comics. 小說漫畫下載

JavaScript 98.05% Batchfile 0.24% CSS 1.24% HTML 0.45% Shell 0.03%

work_crawler's Introduction

CeJS 線上小說漫畫下載工具 online novels / comics downloader

  • [en] Download novels → epub and comics with GUI and command-line interface.
  • [TW] 批量下載小說 → epub、漫畫網站的工具。視窗+命令行介面。
  • [CN] 批量下载小说 → epub、漫画网站的网络爬虫。图形+命令行界面。
  • [ja] ウェブ小説 → epub、ウェブ漫画作品を一括ダウンロードツール。グラフィカル+コマンドラインインターフェース。

TOC 快速瀏覽

Features 特點

  • 可自動下載小說封面以及章節中的插圖。
  • 自動檢核下載的圖片是否是否完整。若有破損將重新下載。
  • 採用 CeJS 線上作品爬蟲程式庫來製作 crawler,可自行配置與設定。
  • 對於漫畫,下載完畢後可以章節為單位自動產生壓縮檔,並自動刪除下載目錄原始圖檔/清除暫存檔。每次下載前將自動讀取壓縮檔資料,僅更新有問題的圖檔。(請注意:必須先安裝 7-Zip 18.01 以上的版本

Supported sites 已完成之網站工具

  • For novels, please install 7-Zip command-line version first. 請注意:必須先安裝 7-Zip 18.01 以上的版本,這樣才能製作 .epub 小說電子書、壓縮漫畫章節。
  • 各線上作品網站往往不時改版(更改結構),同時造成本工具無法正常作動;因此若有無法正常運作的情況請見諒,這通常得要更改原始碼方能回復正常。

已撰寫完的各大小說漫畫網站工具包括:

Japanese web fictions / Japanese light novels ライトノベル 日本輕小說 日本のオンライン小説

novel.ja-JP/*.js, web pages → epub

Site Tool file Note
アルファポリス AlphaPolis.js レンタルする話は取得できません
カクヨム kakuyomu.js
ハーメルン Hameln.js
小説を読もう! yomou.js 小説家になろう
ノクターンノベルズ noc.js 小説家になろう男性読者向けの18禁部門サイト

Chinese web fictions / novels **内地小说 **のオンライン小説

novel.cmn-Hans-CN/*.js, web pages → epub

Site Tool file Note
起点中文网 qidian.js 本工具無法下載 VIP章节內容
八一中文网 81xsw.js PTCMS系统
顶点小说 23us.js PTCMS
顶点小说 archive/23us.com.js PTCMS,限制了取得頁面的數量和頻率,暫時放棄。
八八读书网 88dus.js 88读书网(88dushu),PTCMS?
恋上你看书网 630book.js
飘天文学 piaotian.js NOT PTCMS
落霞小说网 luoxia.js WordPress,數量少、速度較慢但品質較高,較少錯字和自我審查。
努努书坊 kanunu.js 有些非流行網路小說的書。
稻草人书屋 daocaoren.js 有些非流行網路小說的書
卡提諾論壇 小說頻道 ck101.js Discuz! X3
  • 中國大陸之小說文字常常會被審查而消失、變造。例如黑名單關鍵字轉為拉丁字母或是打星號,以及數字 0 改成 o、9 改成 q 等等。有時需要多下載幾個網站的文件再做比較。

Chinese webcomics **内地漫画 **のウェブコミック

comic.cmn-Hans-CN/*.js, images → zip

  • 本工具無法下載需VIP付費、已屏蔽或刪除的內容。
Site Tool file Note
腾讯漫画 qq.js 本工具無法下載VIP付費內容 2017/8/15 起取消了今日限免
网易漫画 163.js 2017/7/13 本工具無法下載VIP付費內容
大角虫漫画 dajiaochong.js 2018/6/12 開始永久付費制。
快看漫画 kuaikan.js
看漫画 manhuagui.js 漫画柜爱看漫
漫画台 manhuatai.js
动漫之家 dmzj.js 僅處理漫畫。有時會無法讀取。
动漫屋网 dm5.js 似乎不能並行下載圖片,下載速度較慢。似乎拿來下載日本漫畫的人比較多。
733动漫网 733dm.js 僅處理漫畫。
733漫画网 733mh.js 有時會無法讀取。733mh與733dm其實是一樣的東西...
哦漫画 omanhua.js
汗汗酷漫 hhcool.js 2018/4/27 最後一次存取域名 http://www.hhcool.com/
古风漫画网 gufengmh.js
WEBTOON webtoons.js NAVER WEBTOON 中文官網 韓國漫畫
本工具無法下載有動態效果的漫畫。
热漫吧 archive/remanba.js 自 2016/12/27 14:42 最後一次成功連接後,下午起就持續 404 至 2018/6/11 未復原。
三七阅读 archive/37yue.js 自 2017/6/9 下午最後一次連接後,2017/6/10 9時起就持續 404 至 2018/6/11 未復原。
爱漫画 archive/2manhua.js 許多作品似乎從2017/9/3起就沒有更新。2017/5/16 4:43 最後一次成功連接,至 2018/6/11 未復原。

English webcomics 英語網路漫畫 英語のウェブコミック

comic.en-US/*.js, images → zip

Site Tool file Note
Manga Mew mangamew.js 一些圖片在檔案最後會多加個字元 0A,因此被判別為非正規圖片檔。
Manga New manganew.js

Installation 安裝

若是想要使用圖形介面,您可以 直接下載安裝包,惟 安裝包並非最新的版本,有些網站下載起來會出問題。若是欲採用最新的版本,或者用作研究開發、想要使用命令行介面作批次處理,請採用下列步驟。

Lazy installation 懶人安裝法

為了想趕快嘗鮮的您~

  1. 先安裝 Node.js7-Zip 18.01 以上的版本。(已經安裝過的可以跳過)

  2. 下載本工具壓縮檔並解壓縮,應能得到 work_crawler-master 目錄;這將是本工具將安裝的標的目錄,若有需要亦可將之改名。

  3. 下載 CeJS 安裝檔 _CeL.updater.node.js。(點擊本行可獲得更詳細的說明)

    下載 CeJS 安裝檔 _CeL.updater.node.js,將此檔儲存到前面所提到的,本工具將安裝的標的目錄 work_crawler-master 下。

    本工具安裝的目錄看起來的樣子

  1. 下載 CeJS 程式庫:在命令行介面下執行 _CeL.updater.node.js
    1. 進入命令行介面

      • Windows 10 下,請按下⊞ Windows鍵 + X → 選擇 命令提示字元。(如下圖的示範)
      • Windows 7 下打開命令行介面,請從 開始 → 所有程式 → 附屬應用程式 → 選擇 命令提示字元

      Windows 10 下,進入命令行介面

    2. 進到本工具安裝的目錄

      • 若是您視窗的 背景為藍色,表示您使用的可能是 PowerShell,您應該使用這種形式的指令來切換目錄:cd "本工具安裝的目錄"
      • 若是您視窗的 背景為黑色,表示您使用的可能是 命令行介面,您應該使用這種形式的指令來切換目錄:cd/d "本工具安裝的目錄"cd/d 表示「同時變更工作磁碟機及其工作目錄」的意思)。

      下圖中示範了用命令行介面切換到 I:\work_crawler-master 的情況:

      複製本工具安裝的目錄 進到本工具安裝的目錄

    3. 執行命令以下載 CeJS 程式庫

      node _CeL.updater.node.js

      執行命令以下載 CeJS 程式庫

  1. 然後就能開始試用囉。

    下載 CeJS 程式庫後本工具安裝的目錄看起來的樣子:

    下載 CeJS 程式庫後本工具安裝的目錄看起來的樣子

    以下是在linux下直接操作上述作業時的指令,Windows用戶可以跳過,直接開始試用

    # sample commands to extract work_crawler + cejs
    mkdir work_crawler
    cd work_crawler
    wget --output-document=work_crawler.zip https://github.com/kanasimi/work_crawler/archive/master.zip
    unzip work_crawler.zip
    cd work_crawler-master
    wget --output-document=_CeL.updater.node.js https://raw.githubusercontent.com/kanasimi/CeJS/master/_for%20include/_CeL.updater.node.js
    node _CeL.updater.node.js
  1. 若是您將 CeJS 放置在其他目錄底下,您可以從 _CeL.path.txt 這個檔案來設定放置的路徑。
  2. 您可設定 work_crawler_loder.configuration.js 以指定下載的檔案要放置的標的目錄。 (see work_crawler_loder.js)
  3. 每次要更新到最新 CeJS 程式庫時,只要重新執行一次 CeJS 安裝檔即可。
    node _CeL.updater.node.js
    通常您還需要 重新下載本工具壓縮檔並解壓縮。由於本工具會 cache 作品資訊,更新幅度較大的時候您可能需要刪除作品目錄的 cache,重新下載作品。

Setup GUI 設定視窗型態介面

若是您在作研究開發時,希望使用圖形使用者介面,那麼您還需要安裝 Electron

  1. 請在命令行介面下,進到本工具安裝的目錄,執行命令以安裝 Electron 程式庫:

    npm i -D electron@latest
  2. 在本工具安裝的目錄下,執行 start_gui_electron.shstart_gui_electron.bat

    視窗型態介面

Normal installation 一般正常安裝方法

  1. Please see Node.js usage section at CeJS for detail.
  2. Setup _CeL.path.txt if necessary.
  3. Setup work_crawler_loder.configuration.js (see work_crawler_loder.js). 最後設定好設定檔 work_crawler_loder.configuration.js。例如指定 global.data_directory

Execution 執行

所有操作都必須進到工具檔所在的目錄,在命令行介面下執行。

  1. 確認要下載的網站名與作品名。之後在命令行介面下,執行:(請在作品的名稱外面加上引號)

    node 工具檔名.js "作品名" [option=true] [option=value]
    node 工具檔名.js "l=作品列表檔案名" [option=true] [option=value]

    e.g.,

    cd comic.cmn-Hans-CN && node qq.js "狐妖小红娘" skip_error=true
    cd novel.cmn-Hans-CN && node qidian free && echo 下载 起点中文网限免作品
    cd novel.cmn-Hans-CN && node 23us "斗罗大陆Ⅲ龙王传说"
    cd comic.cmn-Hans-CN && node 2manhua "大主宰" recheck=true
    cd comic.cmn-Hans-CN && node ikanman "l=ikanman.txt" recheck=true
    cd novel.cmn-Hans-CN && echo "via id" && node 630book "267"
    cd novel.ja-JP       && node yomou "転生したらスライムだった件"

    命令行介面下執行命令

  2. 下載的檔案將放在設定檔 work_crawler_loder.configuration.jsglobal.data_directory 所設定的目錄下。若採懶人安裝法,則預設放在解壓縮後工具檔所在的目錄下。

  3. 若是下載出錯,重新執行即可接續下載

Workflow 工作流程

  • 本工具將把所指定的漫畫下載至特定目錄中(預設為工具檔名,如 manhuatai),每套漫畫一個目錄。

    folder

    folder inside work

    folder inside chapter

  • 接續下載時,將從上次的進度(最後下載的章節)接著下載。

    接續下載

  • 若是下載小說,最後將包裝成可匯入 calibre 的 epub。

    小說 → epub list

    小說 → epub

Uninstallation 移除

  • 若是您採用安裝包,請利用系統的移除介面。否族要移除本工具,只需將解壓縮後工具檔所在的目錄整個刪除即可。
  • 作品下載的標的目錄(存放圖片檔與紀錄檔的目錄)需另外手動刪除。

FAQ 常見問題集

如何從某個章節開始下載
  • 若是使用命令列介面,您可以採用 start_chapter 這個參數與 recheck 參數,就可以挑選開始下載的章節。

    範例指令: node qq 作品名 start_chapter=20 recheck

  • 圖形介面在右手邊的 下載選項 應該可以看到有一個 start_chapter: 將開始/接續下載的章節編號。必須要配合 .recheck。 (number)

    請輸入章節的數字,之後指定 start_chapter 上面的 recheck,點擊開始下載就可以接續下載了。

掃毒軟體報錯!
  • 應該是因為使用的 CeJS 函式庫包山包海,裡面有一些專門用於檔案操作的函數、FileSystemObject 物件、WScript 物件,所以掃毒軟體以為有問題。這個程式天天都在測試,漫畫小說下載並不會用到這些功能,您大可放心。

Notes 附注

  • 目前本工具不支援自動更新。
  • 對於本工具已經包含的下載模式,熟練後一般約需2至4小時新增或更新下載工具,以達初步可用狀態。
  • 小說作品採用單線程下載,以避免對網站造成過度的負荷。漫畫作品則以章節為單位多線程下載,每個章節的圖片下載完畢之後,再接著下一個章節。
  • 歡迎熱心友人參與開發,以改進這個工具。

Purpose 公開目的

  • 示範如何使用 CeJS線上作品爬蟲程式庫 (module) 批量下載各線上小說漫畫網站。
  • 展示程式撰寫當時,各線上小說漫畫網站之網站資料結構。
  • 提供離線瀏覽小說漫畫功能,以利個人化閱覽方式。增進閱覽體驗、掌控閱覽環境。
  • 增加對閱讀權的掌控能力,預防暫時無法連接網頁,或者數十年後找不到記憶中閱覽過的作品。

非常歡迎提供使用意見與改善建議

Announce 聲明

  • 本工具僅供同好學習和研究,嚴禁傳播或用於任何商業、非法用途!請小心利用本工具。所下載或備分之內容版權屬原作者所有,請勿公開散布傳播。利用本工具可能引起的任何糾紛或損失損害,本人恕不負責。

work_crawler's People

Contributors

kanasimi avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.