製作區域級腳本

來到這來我假設你已經理解基本蜘蛛製作流程以及列表生成 - 概念了。接下來我會教你怎麼製作區域級蜘蛛的腳本。

請各位不要因為平台上的小説家になろう範例就誤以為區域級的腳本只能製作搜尋用的端口。我寫這個東西的時候根本都沒考慮過可以用來製作搜尋端口，區域級腳本的目的本來就是提取網站上的「最近更新」、「新書一覽」、「周目排行」等列表。再説找小説看跟本就不怎麼會用到搜尋吧，範例的目的是想展示出區域級腳本的潛力，「這種東西也做得到啊」僅些而已。

今次就示範製作「排行榜」的列表好了，網站當然還是小説家になろう，除了這個網站之外我想不到有什麼其它網站可以抓了。反正是範例各位就忍耐一下看不懂的文字吧。

1. 分辨出文章項目

首先當然是下載「排行榜」的頁面吧：
「網址列表」
http://yomou.syosetu.com/rank/genrelist/type/daily_101/

「列表生成」
這裏要取的是 <div class="ranking_list">...</div> 之間的內容。
表達式：<div class="ranking_list">([\s\S]*?)</table>[\s\S]*?</div>
參數： {0}

這時候按「測試」是沒有用的，因為沒有定義子程序，也沒有輸出正確的文章項目。

進入子程序，新増步驟「提取」：

為了測試，先什麼都不要做，隨便在書名上亂打字就好。

退回來按「測試」

這個樣子就算是成功取得內容了。那麼我們回到子程序裏面的「提取」步驟：
「提取」
書名：id="best[\d]+"[^>]+>([^<]+)</a>
書名參數： {1}

( 其它參數也是差不多照著這個樣子做，省略 )

提取做好了之後，雖要取得參數傳遞給文章蜘蛛。
「過濾」
表達式： id="best[\d]+"[^>]*?href="([^"]+)"
格式： {1}

2. 文章蜘蛛

接下來是製作文章蜘蛛，上一個步驟已從子程序中成功取得了參數。

文章蜘蛛其實就是可以獨立運作的蜘蛛。按照基本流程：

「網址列表」
✓ 傳入的參數

「過濾」、「標籤」、「提取」
( 略，請參看基本教程 )

暫時還沒有方法測試文章蜘蛛，直接在區域面板中載入吧！

反饋參數

唔，因為沒有下一頁所以不用做～

基本上這樣就做完了。

Tag(s): spider crafting guide

斟酌鵬兄

Tue Oct 04 2016 04:46:45 GMT+0000 (Coordinated Universal Time)

Last modified: Wed Dec 21 2016 04:40:55 GMT+0000 (Coordinated Universal Time)

目錄

1. 分辨出文章項目

2. 文章蜘蛛

反饋參數