步驟 - 網址生成
網址生成的作用主要在於整合分頁的內容。
網站有時會將單個章節分成幾頁,又或者將一個目錄分成幾頁,節省流量。如圖:
由於 wen10 並沒有「章節分頁」這種功能 ( 也沒有必要 ),因此我們得先將章節內容整合起來,這裏我們得利用網址生成這個「步驟」。
網址生成:範例
拿我的 blog 來開刀吧,在上一篇文章我只抓了「最新文章」的第一頁,這次我們可以利用網址生成將整個「目錄」整合出來:也就是説,截掉之前的「網址列表」,取代為「網址生成」:
進入點:
https://blog.astropenguin.net/當符合指定 URL 時繼續:
表示式:
<a href="([^"]+)">older >格式:
https://blog.astropenguin.net{1}格式輸出會作為下一個目標 URL,下載回來後則以此文件為起點迴圈。
緊接之前的腳本,將「網址例表替換成新做好的網址生成:
大公告成!( 拍手拍手
詳細資料:「網址生成」
停止條件
「2」:首次「停止條件」的吻合會被視為無效
假設我們的第一章有 5 頁,「停止條件」是「下一章」這個按鈕,頁面的按鈕分布如下:
- http://www.example.com/page/1 上一頁 / 下一頁 / 上一章 / 下一章
- http://www.example.com/page/2 上一頁 / 下一頁
- http://www.example.com/page/3 上一頁 / 下一頁
- http://www.example.com/page/4 上一頁 / 下一頁
- http://www.example.com/page/5 上一頁 / 下一頁 / 下一章 / 下一章
若條件為「下一章」,那麼由於第 1 頁的條件已經吻合,所以立刻就停止生成了,這時候我們就需要用到「2」這個功能撇除首次吻合。
「×」:撇除不吻合的頁面
假設分佈:
第一章
- http://www.example.com/page/1 上一頁 / 下一頁 / 上一章
- http://www.example.com/page/2 上一頁 / 下一頁
- http://www.example.com/page/3 上一頁 / 下一頁
- http://www.example.com/page/4 上一頁 / 下一頁
第二章
- http://www.example.com/page/5 上一頁 / 下一頁 / 上一章
由於這次的的「停止條件」只能是「上一章」,但停止的訊息只能在第二章的第一頁找到,這樣的話第一章就包含了第二章的第一頁,做成錯誤。
所以「×」的用途就是解決這種情況,將停止點的頁面撇除掉。
「2」:首次「停止條件」的吻合會被視為無效
假設我們的第一章有 5 頁,「停止條件」是「下一章」這個按鈕,頁面的按鈕分布如下:
- http://www.example.com/page/1 上一頁 / 下一頁 / 上一章 / 下一章
- http://www.example.com/page/2 上一頁 / 下一頁
- http://www.example.com/page/3 上一頁 / 下一頁
- http://www.example.com/page/4 上一頁 / 下一頁
- http://www.example.com/page/5 上一頁 / 下一頁 / 下一章 / 下一章
若條件為「下一章」,那麼由於第 1 頁的條件已經吻合,所以立刻就停止生成了,這時候我們就需要用到「2」這個功能撇除首次吻合。
「×」:撇除不吻合的頁面
假設分佈:
第一章
- http://www.example.com/page/1 上一頁 / 下一頁 / 上一章
- http://www.example.com/page/2 上一頁 / 下一頁
- http://www.example.com/page/3 上一頁 / 下一頁
- http://www.example.com/page/4 上一頁 / 下一頁
第二章
- http://www.example.com/page/5 上一頁 / 下一頁 / 上一章
由於這次的的「停止條件」只能是「上一章」,但停止的訊息只能在第二章的第一頁找到,這樣的話第一章就包含了第二章的第一頁,做成錯誤。
所以「×」的用途就是解決這種情況,將停止點的頁面撇除掉。
Tue Sep 20 2016 16:20:48 GMT+0000 (Coordinated Universal Time)
Last modified: Sun Apr 10 2022 10:05:55 GMT+0000 (Coordinated Universal Time)
Comments
No comments here.
Do you even comment?
website:
Not a valid website
Invalid email format
Please enter your email
*Name:
Please enter a name
Submit
抱歉,Google Recaptcha 服務被牆掉了,所以不能回覆了