教程從塞瑪爾特談如何從維基百科中刪除最著名的網站

動態網站使用robots.txt文件來管理和控制任何抓取活動。這些網站受網絡抓取條款和政策,以防止博客作者和營銷人員抓取其網站。對於初學者來說,網絡抓取是從網站和網頁收集數據並保存然後以可讀格式保存的過程。

從動態網站中檢索有用的數據可能是一項繁瑣的任務。為了簡化數據提取過程,網站管理員使用機器人來盡快獲取必要的信息。動態站點由“ allow”和“ disallow”指令組成,這些指令告訴機器人允許在何處進行刮取,而在何處不允許進行刮取。

從Wikipedia上搜尋最著名的網站

本教程涵蓋了一個案例研究,該案例研究是由Brendan Bailey在互聯網上的抓取網站上進行的。 Brendan首先從Wikipedia收集了最有力的網站列表。 Brendan的主要目的是根據robot.txt規則識別可進行Web數據提取的網站。如果您要抓取網站,請考慮訪問該網站的服務條款,以避免侵犯版權。

抓取動態網站的規則

使用網絡數據提取工具,網站抓取只需點擊即可。關於布倫丹·貝利(Brendan Bailey)如何對維基百科站點進行分類的詳細分析以及他使用的標準如下:

混合

根據布倫丹(Brendan)的案例研究,大多數流行的網站都可以歸類為“混合”。在餅圖中,規則混合的網站佔69%。 Google的robots.txt是混合robots.txt的絕佳示例。

完全允許

另一方面,

完成允許標記為8%。在這種情況下,“完全允許”表示網站robots.txt文件使自動程序具有訪問權限以刮取整個網站。 SoundCloud是最好的例子。完全允許網站的其他示例包括:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

未設置

“未設置”的網站佔圖表總數的11%。未設置表示以下兩件事:網站缺少robots.txt文件,或者網站缺少“用戶代理”規則。 robots.txt文件為“未設置”的網站示例包括:

  • Live.com
  • Jd.com
  • Cnzz.com

完全禁用

完全禁止網站禁止自動化程序抓取其網站。鏈接入是完全禁止站點的一個很好的例子。完全禁止網站的其他示例包括:

  • Naver.com
  • Facebook.com
  • Soso.com
  • 淘寶網
  • T.co

網絡抓取是提取數據的最佳解決方案。但是,抓取一些動態網站可能會給您帶來很大麻煩。本教程將幫助您了解有關robots.txt文件的更多信息,並防止將來可能出現的問題。

mass gmail