对来自9000万个域的20亿个链接进行爬网数据分析,可以一窥当今的网络
作者:站群原创• 更新时间:2022-02-01 10:43:11 •阅读:1033
网络不仅对从事数字营销工作的人们至关重要,对于每个人来说都是必不可少的。 我们在这一领域的专业人员需要了解网络如何在我们的日常工作中发挥作用。 我们还知道,优化客户的网站不仅与客户的网站有关,而且还可以改善他们在网络上的存在,该网站通过链接与其他网站相连。
为了获得有关Web信息的整体视图,我们需要数据,大量数据。 我们定期需要它。 有一些组织为此目的提供开放数据,例如Httparchive。 它收集并永久存储网络的数字化内容,并将其作为公共数据集提供。 第二个示例是Common Crawl,这是一个每个月都会对Web进行爬网的组织。 自2011年以来,他们的网络存档一直在收集PB级数据。用他们自己的话说,“ Common Crawl是一个501(c)(3)非营利组织,致力于为互联网研究人员,公司和个人提供互联网副本,研究和分析目的的成本。”
在本文中,将对Common Crawl的近期公共数据和指标进行快速数据分析,以使您了解当今网络上正在发生的事情。
在近9000万台主机的近20亿条边缘上执行了此数据分析。 为了本文的目的,术语“边缘”将用作对链接的引用。 从一个主机(域)到另一主机(域)的边缘仅在从一个主机到另一主机的至少一个链接时才被计数一次。 还要注意,主机的PageRank取决于从其他主机接收的链接数,而不取决于分配给其他主机的数。
分配给主机的链接数与主机的子域数之间也存在依赖性。 考虑到将近9000万个主机中,从最大数量的主机接收链接的主机是“ googleapis.com”,而向最大数量的主机发送链接的主机是“ blogspot.com”,这并不令人感到意外。 拥有最多主机(子域)数量的主机是“ wordpress.com”。
公用Common Crawl数据包括2019年5月,6月和7月的爬网。
对以下三个压缩的Common Crawl文件执行主要数据分析。
- 域顶点[0.61GB]
- 域边缘[7.50 GB]
- 域排名[1.91 GB]
这两个数据集用于有关美国排名前50位的站点的附加数据分析。
三个压缩文件中提供的Common Crawl数据属于它们最近的域级图。 首先,在“域顶点”文件中,有9000万个节点(裸域)。 在“域边缘”文件中,有20亿个边缘(链接)。 最后,文件“域等级”包含裸域的PageRank和谐波中心度排名。
谐波中心性是一种类似PageRank的中心性度量,用于发现图中节点的重要性。 自2017年以来,Common Crawl一直在其爬网策略中使用谐波中心性以通过链接分析确定优先级。 此外,在“领域排名”数据集中,根据领域的谐波中心值而不是根据其PageRank值对领域进行排序。 尽管谐波中心度与最终数据集上的PageRank不相关,但在美国排名前50位的站点数据分析中,它与PageRank相关。 有一段引人入胜的视频“集中度度量的现代视图”,其中Paolo Boldi在好莱坞图表上展示了PageRank和谐波集中度度量的比较。 他指出,谐波中心性比PageRank更好地选择顶部节点。
[本文中使用的所有Common Crawl数据均来自2019年5月,6月和7月。]
预览普通抓取“域顶点”数据集