网站内容是如何被Google搜索引擎提取的

我们在做Google等搜索引擎推广时一定要让Google抓取你的网页内容,这样才能有被搜索到的可能,那么搜索引擎是如何抓取网页内容的呢?

Google等搜索引擎旨在为互联网用户寻找答案。它们组织互联网,使你能立即发现你想要搜索相关的结果。为了让你的网站出现在搜索结果中,你必须让你的网页在搜索引擎中获得排名。这就是为什么搜索引擎优化(SEO)是如此重要。如果你想在搜索引擎结果页面(SERPs)中出现,你需要一流的SEO技术。

网站内容是如何被Google搜索引擎提取的
01
蜘蛛爬虫

想要网页能在Google搜索引擎被用户搜索到首先要让网页被搜索引擎收录,搜索引擎用来爬行和抓取网页内容的程序叫做蜘蛛爬虫,简称为蜘蛛。搜索引擎为了提高质量和速度,它会放很多蜘蛛一起去爬行和抓取网页内容。

蜘蛛访问任何一个网站时,都会先去访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

网站内容是如何被Google搜索引擎提取的
02
跟踪链接

为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。整个互联网是由相互链接的网站及页面组成的。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

最简单的爬行的策略有:深度优先和广度优先。

1、深度链接深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回第一个页面,然后会继续链接再一直往前爬行。

2、广度链接从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

3.吸引蜘蛛蜘蛛程序不可能抓取所有的网页页面的,它只会抓取重要的网页内容,以下几点就是比较重要的内容:

(1) 网站和页面权重:

页面是指网站的所有页面,主页尤为重要,不仅美观,而且质量高。无论哪个页面都有权重,但搜索引擎都会区分页面的权重给页面排名site在网站上,有的域名是首页第一,有的是内页第一,这就是我们所说的页面权重。

(2)页面更新度:

定期更新的网站比很久没有打理的网站流量要高地多!

(3)网站外链:

外链就是指在别的网站导入自己网站的链接。导入链接对于网站优化来说是非常重要的一个过程。导入链接的质量(即导入链接所在页面的权重)间接影响了我们的网站在搜索引擎中的权重。

4.地址库搜索引擎会建立一个地址库,这么做可以很好地避免出现过多抓取或者反复抓取的现象,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

地址库中的URL有以下几个来源:

(1)人工录入的种子网站。

(2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

(3)搜索引擎自带的一种表格提供站长,方便站长提交网址。

由于网站的内容经常在变化,因此搜索引擎爬虫也需要不断地更新其抓取网页的内容,这就需要搜索引擎爬虫按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。

搜索引擎爬虫并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反,对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

一般来说,搜索引擎爬虫在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分网页,只需判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。

本篇文章来源于微信公众号: 加柚外贸圈

原创文章,作者:anleey,如若转载,请注明出处:https://www.gongzichu.com/53342.html

(0)
anleey
上一篇 2023年7月21日 下午10:46
下一篇 2023年7月22日

相关推荐

  • 滴滴专快车司机下载版

    滴滴专快车司机下载版 滴滴司机客户端是每一个加入滴滴快车和专车的司机都必须使用的,也叫滴滴车主app,但是目前只可以通过注册方式进行下载,请扫描文章中二维码,然后通过注册流程后,最…

    2023年7月3日
  • 福山区网络营销推广平台(移动平台网络营销与推广)

    网络营销推广平台有哪些优缺点? (4)服务个性化(5)容易实现5C策略 (6)方便地获取商机和决策信息 (7)多媒体展示(8)丰富的促销手段 (9)具有扩展性 (10)信息透明化 …

    2022年6月29日
  • 小本创业者来讲自主创业的主要原因及对策(图)

    ◆项目名称:〔远大商城网店经营〕创业项目结合远大创业近9年的成功创业辅导经验,〔远大商城〕战略定位为“购物者的天堂,创业者的摇篮,企业家的乐园”,平台定位为“B2M移动电子商务平台,网店经营电子商务平台、资源整合电子商务平台”。学习网店经营,是网店创业者初期必须参与的一项活动(远大商城YY语音频道号:36629090)。〔项目投资与项目辅导〕深圳远大创业投资发展有限公司

    2023年6月25日
  • 如何去推广品牌(如何去推广品牌销售)

    如何去推广品牌 3步做好品牌推广,品牌营销步步为“营” 首先要思考什么是品牌,品牌推广能给企业本身带来什么价值 然后根据公司产品的服务群体、爱好、需求、品牌推广预算等方面,初步制定…

    推广引流 2023年6月28日
  • 我国网络营销的现状(网络营销前景和现状分析)

    我国网络营销的现状(网络营销前景和现状分析) 目录: 目前中国网络营销现状 我国网络营销的发展现状与问题 旅游业网络营销的优势 目前中国网络营销现状 1、一个经典的事例:“某理财平…

    推广引流 2023年4月22日
  • 社群营销指的是(社群营销指的是什么)

    社群营销指的是 社群营销又称为网络社群营销。 它是基于互联网等移动终端把具有共同兴趣、爱好的人聚集在一起,进行营销传播的过程,营销过程中通过引起受众的关注度,汇聚人群达到最终的营销…

    推广引流 2023年6月23日
  • 跨境电商 仓储(跨境电商仓储部工作)

    跨境电商 仓储(跨境电商仓储部工作) 目录: 跨境电商的物流渠道 山东仓储物流公司 跨境物流仓库流程 跨境电商仓储部 跨境电商的物流渠道 1、 近年来,随着“一带一路”倡议和全球经…

    推广引流 2023年4月10日
  • 网站推广优化价格(嘉兴网站推广优化价格)

    百度优化价格怎么收费,多少钱? 一般价格都在3000到几万不等百度优化,一般网络公司都是包年的,3000-8000不等,效果不是太明显,很容易被百度屏蔽,其实您可以考虑百度推广的,…

    2022年6月9日
  • 滴滴无车司机注册成功怎么改

    滴滴无车司机注册成功怎么改 最近很多朋友都在问我怎么注册滴滴车司机?经过小编联系滴滴出行公司客服,并且反复测试,总结了怎么加入滴滴网约车司机等方面的资料,你可以用手机微信扫描文章中…

    2022年6月28日
  • 昆明市“春城创业荟”创业创新大赛报名项目超过500个

    “春城创业荟”列车7月20日,“春城创业荟”地铁专列缓缓驶出车站,载着第五届“春城创业荟”创业创新大赛信息“开进”乘客身边。

    推广引流 2023年7月7日