網路上散落各處又不斷更新變動的資料何其之多,尤其在各處切換、瀏覽更會花上不少時間,
倘若能寫個網路爬蟲來自動抓取特定資訊,想必可以省下許多精神;
然而對於大部份像Norman這樣的外行人,別說處理非結構化資訊的能力,
就連寫出一隻穩定不被ban的爬蟲只怕都很困難…..所幸,我們還有”Kimono“可以依靠!
根據從iThome看到的介紹,”Kimono“是由Ryan Rowe與Pratap Ranade所製作的服務,
只要安裝他們提供的Chrome外掛程式或Javascript書籤工具,
就能進入Kimono提供的編輯頁面,並直接以滑鼠選取要抓的資料範疇、設定更新時距;
待完成後,官方後台甚至還提供了多種程式語言、匯出格式、應用範本以及API Key,
讓我們能輕鬆使用取得資料,而這整個過程…..幾乎無須撰寫任何程式!
(以下內容引述自iThome)
…..Pratap Ranade表示,Kimono最主要解決兩個問題,
第一、幫助開發者方便取得資料,他表示,網路上有無數的資料,
但因為多數為非結構化的形式,導致開發者難取用。
第二、對於不少人來說,他們具有分析資料的能力,卻欠缺取得資料的方法,
或許他們不知道爬蟲程式可以為他們帶來方便,或是不知道該怎麼用程式寫出爬蟲程式,
而Kimono可以幫助簡化這件事,促進資料科學的應用…..
…..使用Kimono爬蟲服務比起自己刻爬蟲程式簡單許多,完全不需要寫程式,也不需要會正規表示式,
只要在想要抓取資料的網頁,使用Kimono的Chrome外掛程式,或是點選Kimono提供的書籤工具,
便會進入Kimono的標記模式,用滑鼠點按想抓取的資料,該資料便會以黃底標記,
並判斷在網頁中有無類似結構的資料,並一併標記出來,標記旁會有「✕」以及「✓」的符號,
供使用者選擇是否留下,最後點選完成就大功告成了…..
…..
官方介紹影片:
看起來非常有趣又簡單,所以Norman也馬上申請了一個帳號試試 ww
只要點開Javascript工具進入編輯頁面後,就能直接選擇資料,
不同層級會用顏色區分,選擇後若要消除可以直接按x或Back圖示.
按Done完成後,接著命名API、關鍵字,並設定抓取頻率,
接著回到官網後台,就可以看到抓取完畢的資料及API相關資訊了!
還提供Curl、jQuery、Node、PHP或Python等語言,
預設應用範本則包括Email Alerts(資料更新時以郵件通知)、Webhooks(抓取更新版資料)、
Mobile App(以App型式在手機顯示資料)等6種服務,
以Embed(用頁框顯示抓取資料)為例,只要輸入標題、尺寸、顏色:
從選取資料到這邊還花不到5分鐘,一個簡易的資料爬蟲就完成了!
個人的Blog因為參雜圖片和超連結,預設狀況下雖然都抓的到,
但顯示上似乎有一點不太美觀…..對像若是車票班次、電影院時間或醫院掛號,
這類相對格式清楚的網頁,或許效果就會好很多呢?
不過車次、電影等資料大部份已經有開放存取,再用這個抓似乎多此一舉,
“Kimono”這項服務或許還是用於未開放API的對象會比較有趣,
例如抓取特定人士發言、政府公報或統計媒體標題內容等…..
可惡,要是這東西早點出來,我大概就來的及再投一個conference了啊 XD
2016/3/19增補─
感謝網友Roadman的提醒,由於Kimono團隊加入了另一間公司Palantir,
所以線上服務已經於2016年2月29日完全中止,
不過相關功能似乎可藉由下載其桌面版本,並匯入API的方式來持續使用,以下為官方公告:
Kimono shut down on February 29th, 2016 and the cloud service has been discontinued.
Your APIs can still be accessed via Kimono for Desktop.
Download the application and import your APIs before March 31, 2016.
If you need you to reset your password, you may do so from here. See the FAQ for more details.
期限似乎只到3月31日,想要繼續使用的還請加快動作囉.
關站了……
原來2月29日之前就把伺服器關掉了…..一直都沒發現,感謝您的通知!
你好
小弟到今天才發現這麼好用的軟件,可惜由於錯過了注冊時間,沒有帳號及密碼,所以每次完成按DONE按鈕,都彈出登入畫面,無法儲存API。請問你有沒有解救方法?
能否借用你的帳戶一用?謝謝
您好,個人由於沒有下載桌面版,所以也不是很清楚解決的方法,
帳號密碼也因久未使用早已忘記(所以才沒有下載桌面版…..),
很抱歉恐怕沒能幫上你的忙.