製作區域級腳本
來到這來我假設你已經理解 基本蜘蛛製作流程 以及 列表生成 - 概念 了。 接下來我會教你怎麼製作區域級蜘蛛的腳本。
請各位不要因為平台上的 小説家になろう 範例就誤以為區域級的腳本只能製作搜尋用的端口。我寫這個東西的時候根本都沒考慮過可以用來製作搜尋端口,區域級腳本的目的本來就是提取網站上的「最近更新」、「新書一覽」、「周目排行」等列表。再説找小説看跟本就不怎麼會用到搜尋吧,範例的目的是想展示出區域級腳本的潛力,「這種東西也做得到啊」僅些而已。
今次就示範製作「排行榜」的列表好了,網站當然還是 小説家になろう , 除了這個網站之外我想不到有什麼其它網站可以抓了。反正是範例各位就忍耐一下看不懂的文字吧。
1. 分辨出文章項目
首先當然是下載「排行榜」的頁面吧:
「網址列表」
http://yomou.syosetu.com/rank/genrelist/type/daily_101/
「列表生成」
這裏要取的是 <div class="ranking_list">...</div> 之間的內容。
表達式:<div class="ranking_list">([\s\S]*?)</table>[\s\S]*?</div>
參數: {0}
這時候按「測試」是沒有用的,因為沒有定義子程序,也沒有輸出正確的文章項目。
進入子程序,新増步驟「提取」:
為了測試,先什麼都不要做,隨便在書名上亂打字就好。
退回來按「測試」
這個樣子就算是成功取得內容了。那麼我們回到子程序裏面的「提取」步驟:
「提取」
書名:id="best[\d]+"[^>]+>([^<]+)</a>
書名參數: {1}
( 其它參數也是差不多照著這個樣子做,省略 )
提取做好了之後,雖要取得參數傳遞給文章蜘蛛。
「過濾」
表達式: id="best[\d]+"[^>]*?href="([^"]+)"
格式: {1}
2. 文章蜘蛛
接下來是製作文章蜘蛛,上一個步驟已從子程序中成功取得了參數。文章蜘蛛其實就是可以獨立運作的蜘蛛。按照基本流程:
「網址列表」
✓ 傳入的參數
「過濾」、「標籤」、「提取」
( 略,請參看基本教程 )
暫時還沒有方法測試文章蜘蛛,直接在區域面板中載入吧!
反饋參數
唔,因為沒有下一頁所以不用做~基本上這樣就做完了。
Tue Oct 04 2016 04:46:45 GMT+0000 (Coordinated Universal Time)
Last modified: Wed Dec 21 2016 04:40:55 GMT+0000 (Coordinated Universal Time)
Comments
No comments here.
Do you even comment?
website:
Not a valid website
Invalid email format
Please enter your email
*Name:
Please enter a name
Submit
抱歉,Google Recaptcha 服務被牆掉了,所以不能回覆了