實作應用

此標籤共有 3 篇文章

爬蟲開發者必學:讓 Python 讀懂「滑動驗證碼」
技術, 實作應用, python

爬蟲開發者必學:讓 Python 讀懂「滑動驗證碼」

動態網頁與靜態網頁最大的不同是資料是在什麼時間點取得的,動態網頁是在瀏覽器已經取得 HTML 後,才透過 JavaScript 在需要時動態地取得資料。因此,爬蟲程式也必須要考慮動態取得資料這件事情,才有辦法正確地找到想要的資料。「滑動驗證碼(Slider Captcha)」是驗證碼機制當中常見的典型,也是防範爬蟲程式中一種難纏的對手。這一篇文章將會利用 Python 、opencv 與 Selenium 三個工具,示範如何拆解和模擬滑動驗證碼。

  • 張維元
從Python到爬蟲,給新手學習地圖與策略
技術, 實作應用, python

從Python到爬蟲,給新手學習地圖與策略

資料爬蟲是資料分析的起手式,必須有好的、可用的資料才得以進行高品質的資料科學專案。而過去的資料來源多半來自於公司內部的資料庫或資料倉儲系統,仰賴於工程師跟 IT 部門的支援。但隨著 Big Data 的技術到位,實務上對於資料的要求更加大量也更加多元。因此,利用程式與資料爬蟲收集資料是目前資料來源的一個重要的管道。

  • 張維元