利用Python和Google Cloud从服务器日志数据中提取有意义的SEO见解
作者:站群原创• 更新时间:2022-02-02 04:43:05 •阅读:490
对于我在搜索引擎领域的第一篇文章,我将首先引用Ian Lurie:
日志文件分析是一门失传的艺术。 但这可以节省您的SEO对接!
明智的话。
但是,从服务器日志文件中获取我们需要的数据通常很麻烦:
- 庞大的日志文件需要强大的数据接收管道,可靠的云存储基础架构和可靠的查询系统
- 为了将神秘的原始日志数据转换为清晰的位,还需要细致的数据建模,适用于探索性数据分析和可视化
在这个分为两部分的系列的第一篇文章中,我将向您展示如何轻松地将分析扩展到更大的数据集,以及如何从服务器日志中提取有意义的SEO见解。
所有这些都只需要少量的Python和少量的Google Cloud!
这是我们的详细行动计划:
#1 –首先,我会给您一些背景信息:
- 什么是日志文件以及为什么它们对SEO至关重要
- 如何掌握它们
- 为什么在服务器日志分析方面,仅凭Python不能总是削减它
#2 –然后我们进行设置:
- 创建一个Google Cloud Platform帐户
- 创建一个Google Cloud Storage存储桶以存储我们的日志文件
- 使用命令行将我们的文件转换为兼容格式以进行查询
- 手动和编程将文件传输到Google Cloud Storage
#3 –最后,我们将深入探讨Pythoning的精髓–我们将:
- 在Colab内部使用Bigquery查询我们的日志文件!
- 建立数据模型,使我们的原始日志更加清晰
- 创建分类列,以进一步增强我们的分析能力
- 筛选结果并将其导出到.csv
在本系列的第二部分(将于今年晚些时候提供)中,我们将讨论更高级的Python数据建模技术,以评估:
我还将向您展示如何将日志数据汇总和加入Search Console数据,以及如何使用Plotly Dash创建交互式可视化!
激动吗让我们开始吧!
系统要求
我们将在本文中使用Google Colab。 由于Google Colab位于云端,因此这里没有特定要求或向后兼容性问题。
可下载的文件
- 可在此处访问Colab笔记本
- 日志文件可以在Github上下载-4个样本文件,每个20 MB,跨越4天(每个文件1天)
请放心,笔记本电脑已经以闪电般的速度经过了数百万行的测试,没有任何障碍!
序言:什么是日志文件?
尽管我不想过多地谈论什么是日志文件,但为什么它们对于SEO来说却是无价之宝,等等(哎呀,已经有很多关于该主题的文章了!),这里有一些上下文。
服务器日志文件记录了向Web服务器提出的每个内容请求。
每一个单。 一。
以最原始的形式,日志是无法理解的,例如,这是来自Apache Web服务器的一些原始行: