分析淘圖架構

首先，這淘圖的源碼完全不科學，我就只取其架構全部重寫算了。

淘圖的特點就是能基於不同的網站自定義挖圖的方式，也就是說只要懂一點點 html 基本上什麼網站都能挖。

那麼我就基於這個模型再往上歸納一個能搜挖任何資源的蜘蛛好了。

淘圖的架構是基於定義網址，將網頁下載回來，再從其網頁中尋找網址，直至取得圖片位址下載為止。

對淘圖來說，這個模型已經足夠了。也超級簡單的，不過就是寫得不好，所以 item 都沒有 UI virtualization、Array 也沒有定義 Type 來優化、所有東西都儲存在 RAM 裏面處理等等，導致使用是經常當機……想到這是 XP 年代的軟件，我就不追究責任了。

對 wenku8 的蜘蛛來說，不單止要提取文件，還要從文件中提取資源，再從資源分析出小說的章節、目錄，然後包裝再一個 macro 自動取得更新。單以 URL / Find / Download 這三個步驟是做不到的。

於是我苦了幾天，想出一個新模型，讓淘圖 3 跟 wenku8 都能共享個模型去搜挖和分析資源。

然後我就加了兩個東西，這兩個動作做的事會根據不同的項目有所不同：

Marker 標籤

將上一個步驟的取得的列表作標記，供其它步驟使用。

Extractor 提取

( 整合了下載步驟 )
提取前面步驟的資料，wenku8 是整合 Marker 的資料，淘圖3 就是下載這個圖片吧。

不過在此之前我修改了流程的制式；其實蜘蛛要以 1D 直線方向處理我覺得做不到，可是要在界面上做出樹狀表示我又覺得好難做。最後我便將這個樹狀的處理以 1維直線表示了……

首先提取分析這兩種東西一般用戶用不來，不過再說以前淘圖也需要用戶有基本的 html 知識啦～

- 淘圖的架構是，找一堆網址，再從這堆網址中找一堆網址，直至你找到想要的 jpg 地址，然後下載這些 jpg 這樣。
- wenku8 的需求是，找一堆網址，分析內容找出小說標題，再找到目錄的地址，分析目錄找出卷目、章節，再從章節找出內容。

這已經是兩種不同的東西了，wenku8 的蜘蛛明顯更複雜了。

流程圖：

上面的是以日本的「成為小說家吧」網站作為範本建的模型，至於其它的導覽方式，應該也能以 Find / Mark / Extract 這三個組合涵蓋的。

Tag(s): taotu2 wenku8 modeling taotu3

斟酌鵬兄

Mon Jan 04 2016 14:05:53 GMT+0000 (Coordinated Universal Time)

Last modified: Sun Apr 10 2022 08:09:50 GMT+0000 (Coordinated Universal Time)