爬行和索引:谷歌如何查看和存储您的页面?

未分类 admin 11个月前 (12-30) 91次浏览

爬行是什么?

爬行是一个允许搜索引擎在互联网上发现新内容的过程。为了做到这一点,他们使用爬行机器人从已知的网页链接到新网页。由于每天都有成千上万的网页被生成或更新,爬行的过程是一个永无休止的机制,一遍又一遍地重复。

Martin Splitt,谷歌网站管理员趋势分析师,非常简单地描述了爬行过程:

“我们从某个地方的一些url开始,然后基本上从上面的链接开始。所以我们基本上是在互联网上(一页一页地)爬行,或多或少。“爬行”是这个过程的第一步。接下来是索引、排序(页面经过各种排序算法),最后是为搜索结果提供服务。

爬行和索引:谷歌如何查看和存储您的页面?

让我们再深入一点,看看爬行是如何工作的。什么是搜索引擎爬虫?

搜索引擎爬虫(也被称为网络蜘蛛或爬行机器人)是一种程序,它抓取网页,扫描其内容并收集数据以建立索引。每当爬虫通过超链接访问一个新网页时,它都会查看其中包含的内容——扫描所有的文本、可视元素、链接、HTML、CSS或JavaScript文件等——然后传递(或获取)这些信息以进行处理和最终的索引。

谷歌是一个搜索引擎,它使用自己的网络爬虫程序Googlebot。有两种主要类型的爬虫:

谷歌机器人智能手机-主要爬虫谷歌机器人桌面-次要爬虫

谷歌机器人更喜欢抓取网站主要作为智能手机浏览器,但它也可以重新抓取每个网页与它的桌面爬虫,以检查网站如何执行和行为从两个角度。新页面的爬行频率由爬行预算决定。“爬行预算”是什么?

爬行预算决定了蜘蛛爬行的数量和频率。换句话说——它决定了有多少页面将被抓取,以及这些页面将被Googlebot重新抓取的频率。

爬行预算由两个主要因素决定:

爬行速率限制-在不超载的情况下,可以在网站上同时爬行的页面数量。抓取需求-需要被Googlebot抓取和/或重新抓取的页面数量。

爬行预算应该主要关注拥有数百万个网页的大型网站,而不是只包含几百个页面的小型网站。此外,拥有大量的抓取预算并不一定会给网站带来任何额外的好处,因为这对搜索引擎来说并不是质量的标志。

什么是索引?

索引是一个分析和存储从爬取的网页内容到数据库(也称为索引)的过程。只有被索引的页面才能被排序并在相关的搜索查询中使用。每当一个网络爬虫发现一个新的网页时,Googlebot就会把它的内容(如文本、图像、视频、元标签、属性等)传递到索引阶段,在索引阶段对内容进行解析,以便更好地理解上下文并存储在索引中。

Martin Splitt解释了索引阶段实际上做了什么:

“一旦我们有了这些页面(…),我们需要理解它们。我们需要弄清楚这些内容是关于什么的,它的目的是什么。这就是第二阶段,也就是索引。为了做到这一点,谷歌使用了所谓的咖啡因索引系统,该系统于2010年引入。咖啡因索引的数据库可以存储数百万千兆字节的网页。这些页面由Googlebot根据它们所包含的内容进行系统的处理和索引(并重新抓取)。

谷歌机器人不仅首先通过移动爬虫访问网站,而且更喜欢索引出现在移动版本上的内容,因为所谓的mobile – first索引更新。什么是移动优先索引?

移动优先索引于2016年首次引入,当时谷歌宣布他们将主要索引和使用网站移动版本上的内容。

谷歌的官方声明说得很清楚:

“在移动优先索引中,我们将只从移动版本获取您的网站的信息,所以要确保Googlebot可以看到那里的全部内容和所有资源。既然现在大多数人都用手机来浏览互联网,谷歌想要像人们一样“以同样的方式”浏览网站是有道理的。这也是对网站所有者的一个明确呼吁,即确保他们的网站具有响应性和移动友好性。注意:重要的是要认识到移动优先索引并不一定意味着谷歌不会用它的桌面代理(Googlebot desktop)抓取网站来比较两个版本的内容。

至此,我们已经从理论角度介绍了爬行和索引的概念。现在,让我们来看看当涉及到网站的爬行和/或索引时,你可以执行的可操作步骤。

如何让谷歌抓取和索引你的网站?当涉及到实际的爬行和索引时,没有“直接命令”可以让搜索引擎索引你的网站。然而,有几种方法可以影响你的网站是否、何时或如何被抓取和索引。所以让我们来检查一下,当涉及到“告诉谷歌你的存在”时,你有什么选择。

1。从技术角度来看,你不需要做任何事情就可以让你的网站被谷歌抓取和索引。你所需要的只是一个来自外部网站的链接,Googlebot最终将开始抓取和索引所有可用的页面。然而,采取“什么都不做”的方法可能会导致爬行和索引你的页面的延迟,因为它可能需要一些时间的网络爬虫发现你的网站。

2。通过URL检查工具

提交网页的方法之一,你可以“安全”爬行和索引个别网页是直接要求谷歌索引(或重新索引)您的网页使用谷歌搜索控制台的URL检查工具。

进一步阅读谷歌搜索控制台:搜索引擎优化初学者的简单指南

当你有一个全新的页面,或者你对现有的页面做了一些实质性的更改,想要尽快索引它时,这个工具就很方便了。这个过程非常简单:

1。转到谷歌搜索控制台,并将您的URL插入顶部的搜索栏。单击enter。

2。搜索控制台将显示页面的状态。如果它没有被索引,你可以请求索引。如果它被索引了,您就不需要做任何事情或再次请求(如果您对页面做了更大的更改)。爬行和索引:谷歌如何查看和存储您的页面?

3。URL检查工具将开始测试URL的实时版本是否可以被索引(这可能需要几秒钟或几分钟)。

4。一旦测试成功完成,将弹出一个通知,确认您的URL已添加到优先级抓取队列中进行索引。索引过程可能需要几分钟到几天的时间。

注意:这种索引方法只推荐用于少数网页;如果您有大量的url要建立索引,请不要滥用此工具。索引请求并不一定保证你的URL会被索引。如果该URL在爬行和/或索引时被阻止,或者有一些与谷歌质量指南相矛盾的质量问题,该URL可能根本不会被索引。

3。

网站地图是一个XML格式的列表或文件,包含所有你想被搜索引擎抓取和索引的网页。

站点地图的主要好处这让搜索引擎更容易抓取你的网站。你可以一次提交大量的url,从而加快你的网站的整体索引过程。

爬行和索引:谷歌如何查看和存储您的页面?

要让谷歌知道您的站点地图,您将再次使用谷歌搜索控制台。注意:为你的WordPress网站创建站点地图最简单的方法是使用Yoast SEO插件,它会自动为你做。查看本指南,了解如何查找站点地图的URL。

然后进入谷歌搜索控制台> Sitemaps,并将您的网站地图的URL粘贴到添加一个新的网站地图:

爬行和索引:谷歌如何查看和存储您的页面?

提交后,谷歌机器人将最终检查您的网站地图,并抓取您提供的每一个列出的网页(假设它们不阻止爬行和索引以任何方式)。

4。一个强大的内部链接结构是一个很好的长期方法,可以让你的网页更容易被抓取。

怎么做?答案是一个扁平的网站架构。换句话说,让所有页面之间的链接少于3个:

爬行和索引:谷歌如何查看和存储您的页面?

一个好的链接架构可以确保你想要被索引的所有网页的爬行,因为网络爬虫可以很容易地访问所有的网页。这种做法对于包含数千个产品页面的大型站点(例如电子商务)尤其重要。提示:内部链接很重要,但你也应该着眼于从权威网站获得强大和相关的外部链接。它可以导致定期的爬行和索引,以及在相关的serp中更高的排名。

如何防止谷歌从爬行和索引您的页面?有很多原因阻止谷歌机器人抓取和/或索引你的网站的部分。例如:

私有内容(例如,不应该出现在搜索结果中的用户信息)重复的网页(例如,具有相同内容的页面,为了节省抓取预算而不应该被抓取和/或出现在搜索结果中多次)空的或错误的页面(例如,不准备被索引和显示在搜索结果中的工作中页面)很少或没有价值的页面(例如,不为搜索查询提供任何高质量内容的用户生成的页面)。

在这一点上,应该很清楚,当涉及到发现新网页时,Googlebot是非常有效的,即使它不是你的意图。正如谷歌所说:“通过不发布链接来保持一个web服务器的秘密几乎是不可能的。让我们来看看我们在防止爬行和/或索引方面的选择。

1。使用robots.txt(防止爬行)

Robots.txt是一个小的文本文件,它包含了网络蜘蛛应该如何抓取你的网站的直接命令。每当网络爬虫访问你的网站,他们首先检查你的网站是否包含robots.txt文件,以及它们的指令是什么。读取文件中的命令后,他们开始按照指示爬行您的网站。通过使用robots.txt文件中的” allow “和” disallow “指令,你可以告诉网络爬虫应该访问和爬行网站的哪些部分,哪些网页应该被保留。

爬行和索引:谷歌如何查看和存储您的页面?

例如,你可以阻止谷歌机器人爬行:

页面的重复内容私有页面url的查询参数页面的薄内容测试页面

没有这个文件的指令,网络爬虫将访问它能找到的每一个网页,包括你想避免被爬行的url。虽然robots.txt是防止谷歌机器人抓取你的页面的好方法,但你不应该依赖这个方法来隐藏内容。

不允许的网页仍然可以被谷歌索引,如果一些其他网站是指向链接到这些url。为了防止网页被索引,还有另一种更有效的方法——Robots Meta directive。

2。使用” noindex “指令(防止索引)机器人元指令(有时称为元标记)是放在网页部分的一小段HTML代码,指导搜索引擎如何索引或抓取该页面。最常见的指令之一是所谓的“noindex”指令(内容属性中带有noindex值的机器人元指令)。它防止搜索引擎索引和显示你的网页在serp。它看起来像这样:

属性表示该命令适用于所有类型的网络爬虫。noindex指令对于那些想让访问者看到但又不想让它们被索引或出现在搜索结果中的页面特别有用。noindex通常与follow或nofollow属性结合,以告诉搜索引擎他们是否应该抓取页面上的链接。重要提示:你不应该同时使用noindex指令和robots.txt文件来阻止网络爬虫访问你的页面。正如谷歌明确指出的:

“为了noindex指令有效,页面不能被robots.txt文件阻塞。如果页面被robots.txt文件阻塞,爬虫将永远不会看到noindex指令,并且页面仍然可以出现在搜索结果中,例如如果其他页面链接到它。

如何检查页面是否被索引? “当涉及到检查网页是否被爬行和索引,或者某个特定的网页是否有一些问题时,有几个选项。

1。检查你的网站是否被索引的最简单的方法是使用site: operator:

爬行和索引:谷歌如何查看和存储您的页面?

如果你的网站被抓取和索引,你应该看到所有被索引的页面以及在” About XY results “部分被索引的页面的大致数量。

如果你想检查一个特定的URL是否被索引,使用URL而不是域名:

爬行和索引:谷歌如何查看和存储您的页面?

进一步阅读最有用的谷歌搜索操作符和如何使用他们为SEO

2。查看索引覆盖状态

要获得索引(或未索引)页面的更详细概述,可以在谷歌搜索控制台中使用索引覆盖报告。索引覆盖率报告中包含详细信息的

爬行和索引:谷歌如何查看和存储您的页面?

图表可以提供有关url状态和爬行和/或索引页面的问题类型的有价值的信息。

3。使用URL检查工具

URL检查工具可以提供关于您的网站内的各个网页从最后一次爬行的信息。您可以检查您的网页:

是否有一些问题(关于它是如何被发现的细节)被抓取,以及最后一次抓取时页面是否被索引并可以出现在搜索结果爬行和索引:谷歌如何查看和存储您的页面?

喜欢 (0)