步驟 - 網址生成

目錄


網址生成的作用主要在於整合分頁的內容。

網站有時會將單個章節分成幾頁,又或者將一個目錄分成幾頁,節省流量。如圖:


由於 wen10 並沒有「章節分頁」這種功能 ( 也沒有必要 ),因此我們得先將章節內容整合起來,這裏我們得利用網址生成這個「步驟」。

網址生成:範例

拿我的 blog 來開刀吧,在上一篇文章我只抓了「最新文章」的第一頁,這次我們可以利用網址生成將整個「目錄」整合出來:

也就是説,截掉之前的「網址列表」,取代為「網址生成」:
進入點:
https://blog.astropenguin.net/


當符合指定 URL 時繼續:
表示式:
<a href="([^"]+)">older &gt;

格式:
https://blog.astropenguin.net{1}


格式輸出會作為下一個目標 URL,下載回來後則以此文件為起點迴圈。

緊接之前的腳本,將「網址例表替換成新做好的網址生成:

大公告成!( 拍手拍手

詳細資料:「網址生成」
停止條件
「2」:首次「停止條件」的吻合會被視為無效

假設我們的第一章有 5 頁,「停止條件」是「下一章」這個按鈕,頁面的按鈕分布如下:
- http://www.example.com/page/1 上一頁 / 下一頁 / 上一章 / 下一章
- http://www.example.com/page/2 上一頁 / 下一頁
- http://www.example.com/page/3 上一頁 / 下一頁
- http://www.example.com/page/4 上一頁 / 下一頁
- http://www.example.com/page/5 上一頁 / 下一頁 / 下一章 / 下一章

若條件為「下一章」,那麼由於第 1 頁的條件已經吻合,所以立刻就停止生成了,這時候我們就需要用到「2」這個功能撇除首次吻合。


「×」:撇除不吻合的頁面

假設分佈:

第一章
- http://www.example.com/page/1 上一頁 / 下一頁 / 上一章
- http://www.example.com/page/2 上一頁 / 下一頁
- http://www.example.com/page/3 上一頁 / 下一頁
- http://www.example.com/page/4 上一頁 / 下一頁
第二章
- http://www.example.com/page/5 上一頁 / 下一頁 / 上一章

由於這次的的「停止條件」只能是「上一章」,但停止的訊息只能在第二章的第一頁找到,這樣的話第一章就包含了第二章的第一頁,做成錯誤。

所以「×」的用途就是解決這種情況,將停止點的頁面撇除掉。
Profile picture
斟酌 鵬兄
Tue Sep 20 2016 16:20:48 GMT+0000 (Coordinated Universal Time)
Last modified: Sun Apr 10 2022 10:05:55 GMT+0000 (Coordinated Universal Time)
Comments
No comments here.
Do you even comment?
website: 
Not a valid website
Invalid email format
Please enter your email
*Name: 
Please enter a name
Submit
抱歉,Google Recaptcha 服務被牆掉了,所以不能回覆了