1. 您的位置:首页 > seo技术 >内容

使用Gephi轻松可视化PageRank和页面组

gephi网络可视化

去年4月,搜索引擎土地撰稿人Paul Shapiro在“计算内部PageRank”上写了一篇精彩的文章。 该帖子概述了一种查看网站内部链接的方法,以确定网站中网页的重要性。

这功能非常强大,但是我认为Paul的概念可能更加人性化。 他使用了R,这是一种用于统计计算的语言和环境,其输出基本上是一堆数字。

我想向您展示如何在Gephi中通过单击几个按钮而不是一堆代码来做同样的事情-再单击几下,您就可以可视化数据,以一种自豪的方式展示给客户。

我将以Gephi如何在您的SEO工作中有用为例,向您展示如何获得此结果。 您将能够看到哪些页面是您网站上最强的页面,确定如何按主题对页面进行分组,并识别一些常见的网站问题,例如抓取错误或内部链接不正确。 然后,我将描述一些将概念带入更高层次的想法的想法。

什么是Gephi?

Gephi是一种免费的开源软件,用于绘制网络图形,通常用于表示计算机网络和社交媒体网络。

这是一个简单的基于Java的桌面程序,可在Windows,Mac或Linux上运行。 尽管Gephi的当前版本是0.9.1,但我还是建议您下载以前的版本0.9.0或更高的版本0.9.2。 这样,您就可以按照这里进行操作,并且可以避免当前版本的错误和麻烦。 (如果您最近没有做过,则可能还需要在计算机上安装Java。)

1.首先抓取您的网站并收集数据

我通常使用Screaming Frog爬行。 由于我们对此处的页面感兴趣,而不是其他文件,因此您需要从爬网数据中排除内容。

为此,拥有付费版软件的您应该执行我将在下面描述的设置。 (如果您使用的是免费版本,那么该版本将限制您收集500个URL,并且不允许您调整许多设置,我将在稍后说明。)

转到“配置”>“蜘蛛”,您将看到类似下面的屏幕快照。 让您的匹配我的以获得最佳结果。 我通常还将。*(png | jpg | jpeg | gif | bmp)$添加到“配置”>“排除”以消除图像,“尖叫蛙”有时会保留在爬网报告中。

尖叫青蛙爬网设置

要开始抓取,请将您网站的URL放在左上方的空间(如下图所示)。 然后单击“开始”,等待爬网完成。

抓取完成后,请转到“批量导出”>“所有链接”。 您需要将“文件类型”更改为“ .csv”并保存文件。

清洁电子表格

  • 删除包含“所有链接”的第一行。
  • 删除第一列“类型”。
  • 将“目标”列重命名为“目标”。
  • 删除“来源”和“目标”之外的所有其他列。
  • 保存编辑后的文件(并再次检查以确保文件类型为.csv)。
尖叫青蛙Excel清理

(可选)如果需要在图形上保留此类数据,则可以保留其他列,例如状态码或锚文本。 我将解释如何使用的主要两个字段是“源”和“目标”。

如果您使用的是免费版本的Screaming Frog,则需要进行大量清理工作以过滤掉图像,CSS和JavaScript文件。

在Excel中,如果转到“插入”并单击“表格”,则会弹出一个窗口。 确保正确定义了数据,单击“我的表有标题”,然后单击“确定”。 现在,选择“目标”列右上方的箭头,然后会出现一个搜索框。 使用它来过滤表,以识别包含不同文件类型(例如.js或.css)扩展名的行。

一旦查看了具有一种有害文件类型的所有表行,请选择并删除这些行的所有信息。 对上述每种文件类型以及任何图像文件类型(例如.jpg,.jpeg,.png,.gif,.bmp或其他任何文件)执行此操作。 完成后,您需要再次将文件另存为.csv。

2.使用Gephi可视化爬网数据

Gephi导入电子表格流程

导入我们的数据

  • 在打开应用程序时出现的弹出屏幕上,单击“新建项目”。
  • 然后选择“文件”>“导入电子表格”。
  • 选择您的.csv文件,并确保将“分隔符”设置为“逗号”并将“按表”设置为“边表”。 如果必须进行大量Excel数据清理,请确保在导入数据之前消除了数据中的所有空白行。
  • 单击“下一步”,并确保在单击“完成”之前选中“创建缺少的节点”。

就我们的目的-可视化内部链接-“边”是内部链接,“节点”是网站上的各个页面。 (注意:如果偶然发现内存错误,可以按照本指南增加在Gephi中分配的内存量。)

如果您有非常大的数据集或要合并多个数据集,则可以将多个文件导入Gephi。

一旦所有数据都在“数据实验室”中,您就可以切换到“概述”。 在这里,您可能会看到一个类似于下面的黑框。 不用担心,我们将在一分钟内使其变得漂亮。

盖菲律师事务所

计算PageRank和模块化

在“统计信息”标签中,运行“ PageRank”和“模块化”。 (如果您没有看到“统计信息”标签,请选择“窗口”和“统计信息”。)

我建议为PageRank使用默认设置,但对于模块化,我将取消选中“使用权重”。 这会将有关页面的数据追加到用于可视化的新列中。

Gephi PageRank和模块化

您可能需要运行几次Modularity才能以所需的方式获得东西。 模块化将彼此之间更多连接的页面分为模块化组或类(每个均由数字表示)。 您将希望形成一组页面,这些页面的大小足够大以至于有意义,但又足够小以至于无法动弹。

毕竟,您是在群集中,因此将所有页面分为两组或三组可能会带来很多不同的东西。 但是,如果最终有200个集群,那么它们也不是那么有用。 如有疑问,请瞄准更多的小组,因为许多小组可能很小,主要小组仍应揭晓。

不用担心,我将在几分钟之内告诉您如何检查和调整组。 (注意:较低的模块化将为您提供更多的组,而较高的模块化将为您提供更少的组。请按小数而不是整数进行调整,因为较小的变化会带来很大的不同。)

调整模块化设置

让我们检查一下我们做了什么。 将选项卡更改为“数据实验室”,然后查看“数据表”。 在那里,您将找到PageRank和Modularity Class的新列。 PageRank编号应该与Paul Shapiro的文章中提到的编号一致,但是您无需进行任何编码即可获得这些编号。 (请记住,这些是内部PageRank号,而不是我们通常所说的“ PageRank”。)

模块化类为每个页面分配一个编号,以便高度互连的页面收到相同的编号。 使用右上角的过滤器功能隔离每个页面组,并关注一些URL以查看它们与相关URL的距离。 如果页面以错误的模块化类结尾,则可能需要重新调整设置,否则可能表明您在链接相关内容方面做得不好。

请记住,您的模块化基于内部链接,而不是页面上的内容,因此它可以识别通常链接在一起的内容,而不是应该链接在一起的内容。

在我的情况下,我选择了一家律师事务所,并且使用默认设置,按模块化排序时,我得到了以下细分,通过一些调整我可能会做得更好:

  • 0级=伤害
  • 第1类=家庭
  • 第2类=几个随机页面
  • 3级=犯罪
  • 4类=交通
  • 5级= DWI
  • 第6类=几个随机页面

您可以返回“概述”标签并继续进行调整,直到对页面组满意为止。 即使使用相同的编号多次运行Modularity,每次也会产生略有不同的结果,因此可能需要花费一些时间才能使您对结果感到满意。

让我们用Layout制作图片

我之前曾向您许诺过可视化,您可能想知道我们何时进入这一部分。 让我们将黑色正方形变成更容易理解的真实可视化。

转到“概述”>“布局”。 在左侧的下拉框中显示“ —选择布局”,选择“ ForceAtlas 2”。

Gephi Layout Force Atlas 2

现在,您只需要使用设置,直到获得适合的可视化效果即可。 (如果您迷路了,请单击图像左侧的小放大镜图像,它将使可视化效果居中并调整大小,以便在屏幕上都可以看到。)对于上方的星型,我设置了“缩放”设置为1000,“重力”设置为0.7,其余均为默认设置。 您可能会使用的主要两个设置是“缩放”和“重力”。

缩放控制着可视化的大小; 设置得越高,图形将越稀疏。 理解重力的最简单方法是将节点视为行星。 当您打开“重力”时,这将使所有部件拉近。 您可以通过选中“更强重力”(Stronger Gravity)框并调整重力数来进行调整。

还有其他一些选项,每个选项的作用都在界面中进行了说明。 不要犹豫,与他们一起玩耍(您随时可以将其切换回去),看看是否有任何有助于使可视化效果更加清晰的内容。

我们想展示什么?

在我们的示例案例中,我们希望同时显示模块化(页面组)和内部PageRank。 我发现最好的方法是根据PageRank调整Node的大小,并根据Modularity调整颜色。 在“外观”窗口中,选择“节点”,“大小”(第二个图标),然后在“排名”选项卡中的“选择属性”下拉列表中,选择“ PageRank”。

选择一些大小,然后单击“应用”,直到可以将更重要的节点与其他节点区分开。 在下面的屏幕截图中,我将最小尺寸设置为100,最大尺寸设置为1,000。 根据PageRank设置Node的大小有助于您轻松识别网站上的重要页面-它们更大。

Gephi节点外观

为了使用模块化可视化页面组,我们仍然希望位于“外观”窗口中,但是这次我们要选择“颜色”(第一个图标),“节点”和“分区”。 在“选择属性”的下拉列表中,选择“模块化类别”。

会填充一些默认颜色,但是如果您要更改它们,“ Palette”会有一个蓝色的链接。 在面板中,如果单击“生成”,则可以基于运行Modularity时获得的组数来指定要显示的颜色数。

就我而言,第2类和第6类并不是很重要,因此我单击它们的颜色并将其更改为黑色。 如果您只想显示一个特定的主题,请仅更改一种Modularity Class的颜色,而将其他主题保留为另一种颜色。

Gephi模块化

更改可视化

您可能希望标记节点,以便我们知道它们代表的页面。 要添加带有URL的标签,我们需要返回“数据实验室”标签并选择数据表。 底部有一个框,用于“将数据**到其他列”,我们希望将“ Id”**到“ Label”以显示URL。 Edges的过程与此类似。 如果您从爬网中保存了锚文本,则可以用锚文本标记每个边缘。

返回“预览”选项卡,您将要选择想要的可视化显示方式。 我通常会在预设下选择“默认弯曲”,但是很多人喜欢“默认直线”。

更改标签的字体大小和比例大小将有助于它们以可读取的不同大小显示。 只需使用“预览”选项卡中的设置进行操作,即可显示所需的方式。

对于下面的可视化,我关闭了节点和边标签,以便不泄露我所使用的特定律师事务所网站的身份。 在大多数情况下,他们在对页面进行分组和内部链接方面做得很好。 如果我从Screaming Frog离开了电子表格中的锚文本列,则本可以显示每个内部链接(线),并以其锚文本作为边缘标签,而从(圆圈)链接的每个页面作为节点标签。

律师事务所预览Gephi

Gephi用于更大的数据集

对于较大的数据集,您仍然可以使用Gephi,尽管您的图形可能看起来更像是星形图。 我绘制了Search Engine Land的内部链接,但是我不得不在ForceAtlas 2设置中将缩放比例调整为5000,将Gravity调整为0.2。

您仍然可以运行PageRank和Modularity的计算,但是您可能需要将节点大小更改为较大的值才能在图形上查看任何数据。 如前所述,您可能还必须向调色板添加更多颜色,因为在此大小的数据集中可能存在更多独特的模块化类。 这就是SEL的图形在着色之前的样子。

搜索引擎Land Gephi

为什么这很重要?

Gephi可用于显示各种问题。 在先前我在SEO的未来文章中发布的一篇文章中,我展示了HTTPS和HTTP之间的分歧。

此外,它可以发现内部不很好链接的部分,这些部分可能被客户认为很重要。 通常,由于引力的作用,这些内容在可视化文件中的位置更远,您可能希望从相关的主题页面上链接更多。

告诉客户您需要更多内部链接是一回事,但向他们表明他们认为重要的页面实际上是非常孤立的要容易得多。 下图是通过简单地更改模块性直到只有两个组而创建的。 这是因为我在爬网中同时具有http和https链接,并且减少了Modularity直到只有两个组,其中最相关的组是HTTP> HTTP页面和HTTPS> HTTPS页面。

http https拆分

这种可视化还有很多其他的线索可以帮助您了解。 自己寻找单个节点。 您可能会发现大量的稀疏页面,甚至是抓取错误。 蜘蛛陷阱可能显示为无限的页面行,而没有正确分组的页面可能意味着您没有从最相关的页面内部链接它们。

一个内部链接良好的网站可能看起来像一个圆圈而不是一个星星,即使颜色并不总是成组排列,我也不认为这是一个问题。 您必须记住,每个网站都是唯一的,每个可视化都是不同的。

很难解释每种可能性,但是如果尝试其中的几种,您将开始看到常见的问题,甚至可能是新的和不同的问题。 这些可视化效果将帮助您帮助客户理解您一直在谈论的问题。 我向您保证,您的客户会喜欢他们。

如果要创建静态图像,Gephi可以为.png,.svg或.pdf提供许多导出选项。 更有趣的是导出以在网页上使用,以便您创建交互式体验。 为此,请检查Gephi插件-特别是SigmaJS导出器和Gexf-JS Web Viewer。

Gephi还可以做什么?

添加有关链接的补充信息

如果您具有可以识别链接位置的搜寻器,则可以根据链接位置来不同地调整“边的权重”。 举例来说,假设我们给每个主要内容链接的价值都比导航或页脚链接的价值高。 这使我们可以根据链接的权重(由链接的位置确定)来更改内部PageRank计算。 这样一来,对于Google如何根据链接的位置来评估链接的价值,就可能显示出更准确的表示。

这使我们可以根据链接的权重(由链接的位置确定)来更改内部PageRank计算。 这样一来,对于Google如何根据链接的位置来评估链接的价值,就可能显示出更准确的表示。

引入第三方指标以获得更全面的视图

到目前为止,我们一直在进行的可视化工作是基于内部PageRank计算,并假设所有页面在开始时均被加权。 我们当然知道,这不是Google看待事物的方式,因为每个页面都有从外部站点转到它们的强度,类型和相关性不同的链接。

为了使可视化更加复杂和有用,我们可以对其进行更改以引入第三方强度指标,而不是内部PageRank。 有许多不同的来源可用于此信息,例如Moz页面授权,Ahrefs URL评级或Majestic Citation Flow或Trust Flow。 这些中的任何一个都可以,所以请选择您喜欢的。 当我们现在考虑页面的强度时,结果应该是在搜索引擎查看网站时更准确地表示网站。

我们可以从上面创建的相同文件开始,以显示Internal PageRank。 在Gephi中,我们将转到“数据实验室”标签,并确保我们位于“节点”标签中。 有一个“导出表”选项,您可以将列导出到您选择的.csv文件。 在Excel中打开该导出文件,并使用所需名称创建新列。 由于我在示例中使用的是“雄伟的引文流”,因此我偶然将其称为“ CF”。

现在,让我们合并第三方数据。 在我从Gephi导出的电子表格中,我**了Majestic的数据,其中“页面”位于第一列,而“引文流”位于第二列。 现在我们需要将这些数据与第一个数据结合起来,您可以使用VLOOKUP公式进行操作。

首先,选择Majestic数据-两列-并将其命名为范围。 为此,请转到“插入”下拉菜单,然后选择“名称”。 从那里,选择“定义”选项,并根据需要命名Majestic数据范围。 对于我们的示例,我们将其称为“雄伟”。

然后返回原始数据集中的“ CF”列。 单击第一个空白单元格,然后键入= VLOOKUP(A2,majestic,2,FALSE),然后按键盘上的“ Enter”。 双击框右下角的小方块,将其**到所有其他“ CF”条目中。 此公式将A列中的数据(URL)用作键,然后将其与Majestic数据中的相同URL进行匹配。 然后,它转到Majestic数据的下一列-我们正在寻找的外部PageRank数据-并将其拉入CF列。

接下来,您将要单击CF列顶部的列字母以选择列中的所有内容。 点击“ CTRL + C”进行**,然后右键单击并在弹出菜单上转到“选择性粘贴”,然后选择“值”。 这是用实际数字代替我们的公式。 现在,我们可以删除包含第三方数据的范围,然后将文件再次另存为.csv。

回到Gephi和“数据实验室”中,我们要单击“导入电子表格”以拉入我们刚才创建的表。 选择创建的.csv文件。 这次,与之前的步骤不同,我们希望将“ as table”更改为“ Nodes table”。 单击“下一步”,并确保未选中“强制将节点创建为新节点”,然后单击“完成”。 这应该将节点数据表替换为包含CF的修改后的表。

在应用程序屏幕的底部,您将看到一个“将数据**到其他列”按钮。 我们只想选择“ CF”,然后在“**到”中选择“ PageRank”。 现在,我们使用的是第三方外部PageRank数据,而不是生成的内部PageRank数据。

返回“概述”选项卡,我们要查看“外观”下方,然后再次单击“应用”。 现在,应根据来自Majestic CF数据的相对强度来确定节点的大小。 在下面的图表中,考虑到外部衡量页面强度的信息,您可以看到哪些页面是网站上最强大的页面。

Excel将引用流添加到节点

您可以从这张图片中看出很多。 打开标签时,您可以看到每个圆圈代表的页面。 颜色指示哪个分组,圆圈大小指示页面的相对强度。

这些点越远,页面内部链接越少。 您可以通过每种颜色的节点数来判断客户端为哪些类别创建了最多的内容,以及哪些类别成功吸引了外部链接。 例如,您可以看到有很多紫色的点,这表明这可能是公司的重要实践领域,并且他们在公司周围创造了很多内容。

问题在于较大的紫色圆点距离中心较远,表明它们内部没有很好地链接。 不用付出太多,我可以告诉您,许多遥远的点都是博客文章。 虽然他们在将博客链接到其他页面方面做得很好,但是在网站上推广博客文章却做得很差。

结论

我希望您喜欢与自己的数据一起玩,并很好地了解了Gephi如何帮助您为自己和客户形象化重要的可行数据。


本文中表达的观点是来宾作者的观点,不一定是Search Engine Land。 工作人员作者在此处列出。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/9765.html