网络爬行初学者指南

未分类 admin 10个月前 (01-30) 85次浏览

无论你是网站所有者还是SEO专业人士,都必须了解网站爬行,搜索引擎是如何抓取网站和网页的,以及它是如何为某个搜索查询排序(或决定不排序)一个页面的。

网站抓取是一个技术过程,老实说,您不需要了解它背后的技术方面。只有理解了主要的概念和你可以做什么来促进像谷歌这样的搜索引擎的网站爬行,才能帮助你使你的网站更搜索引擎友好,遵循最佳的SEO实践,并在搜索引擎结果页面(serp)排名更高。在这篇文章中,我们将讨论:

什么是网站爬行不同类型的网站爬行在2022年和以后的网站爬行的未来是什么样子的你如何促进网站爬行谷歌

让我们从头开始。什么是网络爬行?网络爬行初学者指南

在我们进一步深入之前,了解什么是web爬行是至关重要的。“爬行”指的是搜索引擎在互联网上发现新的和更新的内容的过程。搜索引擎通过发送爬虫(通常也称为机器人、机器人或蜘蛛)来做到这一点。这些机器人在互联网上“爬行”,看看是否有一个新的页面,它们可以在serp上建立索引。类似地,这些机器人还会查找最近更新了新内容的页面。“内容”的类型可以有所不同——从网页到图像到视频到pdf文件。正如你所想象的那样,获取互联网上的每个网页并抓取其中的新内容是一项艰巨的工作。这是因为互联网上的网页数量之多。此外,每天有成千上万的新页面出现在网上。

这需要大量计算资源,这可能导致可持续性问题。我们将在本文后面详细讨论这一点,这对网络抓取的未来意味着什么,以及这一限制对网站管理员和seo专业人员的潜在影响。现在,您应该了解这些爬行器或爬行器如何通过提高效率来克服这个问题,以及如何利用这一点为您带来好处。爬行蜘蛛通常抓取一些网页,然后爬过去。然后他们根据这些网页上的链接(内部链接和外部链接)找到新的url进行抓取和索引。这有助于爬虫更有效地构建一个庞大的url数据库。这就是为什么在你的网页上添加链接-特别是与上下文相关的到其他页面的内部链接是一种推荐的SEO实践。根据谷歌,有两种类型的网络爬行:

“发现刷新”

“说到爬行,我们有两种类型的爬行。一种是发现爬行,我们试图在你的网站上发现新的页面。另一种是刷新爬行,我们更新已知的现有页面。”谷歌的约翰·穆勒说。爬行的频率——除了爬行的类型之外——也取决于内容在你的网站或网页上更新的频率。例如,如果你的网站主页比其他页面更新得更频繁,你可能会在那个页面上看到更多的抓取活动。正如我们前面所解释的,爬行蜘蛛还会在主页上找到链接,并在它们找到的带有这些链接的页面上爬行。所以,刷新抓取(对于主页,检查是否有任何新内容)也可以导致发现抓取,如果在那里发现了指向新页面的链接。最后一点需要了解的是,Googlebot能够识别模式,并相应地调整刷新爬行。谷歌的John Mueller用以下例子解释了这一点:“例如,如果你有一个新闻网站,你每小时更新一次,那么我们应该知道我们需要每小时抓取一次。而如果是新的如果美国的网站每月更新一次,那么我们应该知道我们不需要每小时都爬一次。

这不是质量的标志,也不是排名的标志,或任何类似的东西。这只是单纯从技术角度来看,我们已经知道我们可以每天,每周爬一次,这是可以的。

谷歌这样做是为了保存爬行资源。正如我们前面提到的,爬行是一项艰巨的工作,可能会日复一日地占用大量计算资源。这是不可持续的,尤其是在互联网持续发展的情况下。这就引出了我们的下一个要点。在最近一期的Search Off The Records播客中,谷歌的搜索关系团队暗示,为了节省计算资源和促进可持续性,谷歌可能会降低网络抓取率。一般来说,计算是不可持续的。我们从2007年左右就实现了无碳,但这并不意味着我们不能减少更多对环境的影响。而爬行就是其中之一,我们可以砍掉一些低垂的果实,”谷歌的加里·伊耶斯说。

他进一步阐述了谷歌如何通过降低刷新抓取率来实现这个可持续性目标。我们做的一件事(我们可能不需要做那么多)是刷新爬取。这意味着,一旦我们发现了一个文档,一个URL,我们就会去抓取它,然后,最终,我们会回去重新访问那个URL。这是一个刷新爬行。

,

,然后每次我们回到那个URL,那总是刷新爬。我们需要多久回到那个URL?

对于网站所有者和seo来说,降低抓取率意味着什么?

网络爬行初学者指南

降低刷新爬行的爬行率可能会减慢更新网页的索引和排名更新。然而,这并不一定意味着搜索引擎排名下降。

Gary Illyes在播客中证实,“如果一个页面被爬的次数越多,它的排名就会越高,这是一种误解”。现在你知道了什么是网络爬行以及网络爬行的未来,让我们简单地看看一些你可以用来提高网站爬行的技巧。经常更新你的内容。如果你每周发布一篇文章——在你的网站上没有其他内容更新——谷歌将识别这种模式,并减慢你的网站的刷新爬行,就像我们之前学到的那样。更新谷歌,一旦你的网站更新,提交网址在谷歌搜索控制台驯鹿。从经常抓取的网站以及网站上经常抓取的网页中建立更多与上下文相关的链接。花时间和精力来提高你网站的加载速度。如果一个网站加载太慢,网站爬虫可能会放弃你的网站。添加一个网站地图并保持更新,以帮助谷歌进行网络爬行。点击这里查看你网站的站点地图。减少你网站上孤立页面的数量。孤立页面是指那些没有指向它们的链接的页面。我们希望你发现这篇网络爬行初学者指南有用。如果你有任何问题或意见,请在下面的评论区告诉我们。

喜欢 (0)