張維元

ALPHACamp 資料工程師 擅長網站開發與資料科學的雙棲工程師,熟悉的語言是 Python 跟 JavaScript。同時也是程式社群 JSDC 核心成員及 資料科學家的 12 堂心法課 計畫發起人。擁有多次國內大型技術會議講者經驗及獎項,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的分享。

6 篇文章
Website Facebook
爬蟲開發者必學:讓 Python 讀懂「滑動驗證碼」
python

爬蟲開發者必學:讓 Python 讀懂「滑動驗證碼」

動態網頁與靜態網頁最大的不同是資料是在什麼時間點取得的,動態網頁是在瀏覽器已經取得 HTML 後,才透過 JavaScript 在需要時動態地取得資料。因此,爬蟲程式也必須要考慮動態取得資料這件事情,才有辦法正確地找到想要的資料。「滑動驗證碼(Slider Captcha)」是驗證碼機制當中常見的典型,也是防範爬蟲程式中一種難纏的對手。這一篇文章將會利用 Python 、opencv 與 Selenium 三個工具,示範如何拆解和模擬滑動驗證碼。

  • 張維元
從Python到爬蟲,給新手學習地圖與策略
python

從Python到爬蟲,給新手學習地圖與策略

資料爬蟲是資料分析的起手式,必須有好的、可用的資料才得以進行高品質的資料科學專案。而過去的資料來源多半來自於公司內部的資料庫或資料倉儲系統,仰賴於工程師跟 IT 部門的支援。但隨著 Big Data 的技術到位,實務上對於資料的要求更加大量也更加多元。因此,利用程式與資料爬蟲收集資料是目前資料來源的一個重要的管道。

  • 張維元