當天meetup筆記,感謝9/7當天三位講者的分享。
先前完全沒碰過爬蟲,會的Ruby也只有rails初學者堪用的程度,當天完全跟不上進度。
以下是我為了學習爬蟲,依序臨摹的範例,程式碼在examples
,筆記在wiki
。
這學習筆記完整記錄,我學習爬蟲過程中遇到所有問題與掙扎。
讓我自己教會自己
- 用Nokogiri爬蟲的基本語法,從最初學習使用
xpath
,到現在使用css
。 - 從把網址存到本地端,使用
File.read
讀,進步到使用open-uri
讀網址,到現在使用rest-client
。 - 學會如何使用Pry來設中斷點debug
- 體會臨摹帖子時,只學最少必要的知識量是什麼感覺。
這些之中,最有價值的應該是學會用Pry吧。
- 我學會查Ruby Core時先看Example code,然後把這程式碼用到Pry裡去。
- 這樣的好處是「我先看到程式執行的結果,腦中已經有了畫面,再去看文字的解釋,會讓我學習時更快速理解」
- 透過
binding.pry if ....
給一個判斷式來判斷程式哪裡出錯
- 爬大同大學選課系統
- 原本是打算把Steven的教材:爬大同大學的課表這個範例臨摹完,串好rails才上GitHub。
- 沒想到2016/9/19爬個三次後,大同選課系統的網站就連不上去了...。
ex6
是未完成的屍體,只有等大同的網站弄好後,再來半夜人少時練爬蟲了
-
串rails
-
學習Regex
-
我自己精選,準備臨摹的專案 (把這些練完我應該也轉職成大大了XD)
- Yukaii/DonHuaBooks: 東華出版的爬蟲
- Yukaii/cgu-courses-spider: 寫給長庚的課程爬蟲
- Yukaii/ntnu-courses-spider: 寫給師大的課程爬蟲
- Yukaii/ttu-courses-spider 大同大學的爬蟲
- Yukaii/ntust-courses-spider: 寫給 118 的課程爬蟲
- Yukaii/ntu-courses-spider: 寫給112
- ntust-news-parser : 台科大網站 - 新聞專區的 ruby 爬蟲範例
- Yukaii/GaoLiBooks: 高立出版社的爬蟲
- Yukaii/Fakpy: 目標成為愛情公寓界的新聞小幫手