分析淘圖架構
首先,這淘圖的源碼完全不科學,我就只取其架構全部重寫算了。
淘圖的特點就是能基於不同的網站自定義挖圖的方式,也就是說只要懂一點點 html 基本上什麼網站都能挖。
那麼我就基於這個模型再往上歸納一個能搜挖任何資源的蜘蛛好了。
淘圖的架構是基於定義網址,將網頁下載回來,再從其網頁中尋找網址,直至取得圖片位址下載為止。
對淘圖來說,這個模型已經足夠了。也超級簡單的,不過就是寫得不好,所以 item 都沒有 UI virtualization、Array 也沒有定義 Type 來優化、所有東西都儲存在 RAM 裏面處理等等,導致使用是經常當機……想到這是 XP 年代的軟件,我就不追究責任了。
對 wenku8 的蜘蛛來說,不單止要提取文件,還要從文件中提取資源,再從資源分析出小說的章節、目錄,然後包裝再一個 macro 自動取得更新。單以 URL / Find / Download 這三個步驟是做不到的。
於是我苦了幾天,想出一個新模型,讓 淘圖 3 跟 wenku8 都能共享個模型去搜挖和分析資源。
然後我就加了兩個東西,這兩個動作做的事會根據不同的項目有所不同:
提取前面步驟的資料,wenku8 是整合 Marker 的資料,淘圖3 就是下載這個圖片吧。
不過在此之前我修改了流程的制式;其實蜘蛛要以 1D 直線方向處理我覺得做不到,可是要在界面上做出樹狀表示我又覺得好難做。最後我便將這個樹狀的處理以 1維 直線表示了……
首先提取分析這兩種東西一般用戶用不來,不過再說以前淘圖也需要用戶有基本的 html 知識啦~
- 淘圖的架構是,找一堆網址,再從這堆網址中找一堆網址,直至你找到想要的 jpg 地址,然後下載這些 jpg 這樣。
- wenku8 的需求是,找一堆網址,分析內容找出小說標題,再找到目錄的地址,分析目錄找出卷目、章節,再從章節找出內容。
這已經是兩種不同的東西了,wenku8 的蜘蛛明顯更複雜了。
流程圖:
上面的是以日本的「成為小說家吧」網站作為範本建的模型,至於其它的導覽方式,應該也能以 Find / Mark / Extract 這三個組合涵蓋的。
淘圖的特點就是能基於不同的網站自定義挖圖的方式,也就是說只要懂一點點 html 基本上什麼網站都能挖。
那麼我就基於這個模型再往上歸納一個能搜挖任何資源的蜘蛛好了。
淘圖的架構是基於定義網址,將網頁下載回來,再從其網頁中尋找網址,直至取得圖片位址下載為止。
對淘圖來說,這個模型已經足夠了。也超級簡單的,不過就是寫得不好,所以 item 都沒有 UI virtualization、Array 也沒有定義 Type 來優化、所有東西都儲存在 RAM 裏面處理等等,導致使用是經常當機……想到這是 XP 年代的軟件,我就不追究責任了。
對 wenku8 的蜘蛛來說,不單止要提取文件,還要從文件中提取資源,再從資源分析出小說的章節、目錄,然後包裝再一個 macro 自動取得更新。單以 URL / Find / Download 這三個步驟是做不到的。
於是我苦了幾天,想出一個新模型,讓 淘圖 3 跟 wenku8 都能共享個模型去搜挖和分析資源。
然後我就加了兩個東西,這兩個動作做的事會根據不同的項目有所不同:
Marker 標籤
將上一個步驟的取得的列表作標記,供其它步驟使用。Extractor 提取
( 整合了下載步驟 )提取前面步驟的資料,wenku8 是整合 Marker 的資料,淘圖3 就是下載這個圖片吧。
不過在此之前我修改了流程的制式;其實蜘蛛要以 1D 直線方向處理我覺得做不到,可是要在界面上做出樹狀表示我又覺得好難做。最後我便將這個樹狀的處理以 1維 直線表示了……
首先提取分析這兩種東西一般用戶用不來,不過再說以前淘圖也需要用戶有基本的 html 知識啦~
- 淘圖的架構是,找一堆網址,再從這堆網址中找一堆網址,直至你找到想要的 jpg 地址,然後下載這些 jpg 這樣。
- wenku8 的需求是,找一堆網址,分析內容找出小說標題,再找到目錄的地址,分析目錄找出卷目、章節,再從章節找出內容。
這已經是兩種不同的東西了,wenku8 的蜘蛛明顯更複雜了。
流程圖:
上面的是以日本的「成為小說家吧」網站作為範本建的模型,至於其它的導覽方式,應該也能以 Find / Mark / Extract 這三個組合涵蓋的。
Mon Jan 04 2016 14:05:53 GMT+0000 (Coordinated Universal Time)
Last modified: Sun Apr 10 2022 08:09:50 GMT+0000 (Coordinated Universal Time)
Comments
No comments here.
Do you even comment?
website:
Not a valid website
Invalid email format
Please enter your email
*Name:
Please enter a name
Submit
抱歉,Google Recaptcha 服務被牆掉了,所以不能回覆了