精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

每個(gè)外鏈查詢工具都會(huì)存儲(chǔ)各種不同的鏈接。

如果你需要對(duì)整個(gè)互聯(lián)網(wǎng)建立索引庫(kù),勢(shì)必會(huì)在爬行、解析、索引上做出許多選擇。有可能索引的內(nèi)容會(huì)有重復(fù)的地方。又因?yàn)槊總€(gè)公司決策的方式不同,所以也會(huì)存在一些差異。

為了保證數(shù)據(jù)的透明性,我們希望讓用戶知道Ahrefs的鏈接是如何索引的。

1.什么是鏈接

2.什么樣的鏈接會(huì)被索引

3.什么樣的域名會(huì)被索引

4.為什么我們看不到所有的鏈接

什么是鏈接?

鏈接會(huì)在單擊時(shí),將用戶從一個(gè)網(wǎng)頁(yè)引導(dǎo)到另一個(gè)網(wǎng)頁(yè)。創(chuàng)建它們的方法有很多,最常見的方法是通過(guò)傳統(tǒng)的 HTML 方式。 其中還包含 href 屬性元素。

鏈接文字

同時(shí),你還可以通過(guò)其他的方式建立鏈接,比如:

lOnclick

lButton

lNg-click

lOption/value

l以及更多…

什么樣的鏈接會(huì)被索引?

在理想的世界中,將任何形式的鏈接都應(yīng)該被儲(chǔ)存。但是現(xiàn)實(shí)世界是谷歌、以及Ahrefs并不會(huì)儲(chǔ)存所有類型的鏈接。原因是,如果你想找到對(duì)用戶有用的鏈接,從而加載所有的鏈接以及頁(yè)面,這樣子效率會(huì)非常的低。

取而代之的是,爬蟲通常會(huì)提取頁(yè)面、盡可能的渲染它們、然后提取并存儲(chǔ)各種類型的鏈接。所有爬蟲的工作方式都不同,下面就讓我們了解下在Ahrefs是如何處理這些連接的。

我們儲(chǔ)存的鏈接

在我們的索引庫(kù)中會(huì)儲(chǔ)存很多類型的鏈接。

外部鏈接

從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站的鏈接。這些鏈接是使用帶有 href 屬性的傳統(tǒng) HTML 的 ?標(biāo)簽進(jìn)行創(chuàng)建的。

內(nèi)部鏈接

從網(wǎng)站上的一頁(yè)鏈接到同一網(wǎng)站上的另一頁(yè)的鏈接。我們的索引庫(kù)中儲(chǔ)存了 22.21 萬(wàn)億個(gè)內(nèi)部鏈接記錄。這比我們的實(shí)時(shí)的外部鏈接數(shù)要廣泛得多。我們是唯一可以不用自己抓取網(wǎng)站就可以訪問此數(shù)據(jù)的SEO工具。我們?cè)诰W(wǎng)址評(píng)分 (URL Rating) 計(jì)算中使用這些數(shù)據(jù),原理類似于谷歌計(jì)算 PageRank 的方法。

如果你要查看我們第一次和最后一次抓取URL的時(shí)間,可以在Site Explorer(網(wǎng)站分析)中查看Best by links(按外鏈數(shù)量排序)報(bào)告。外部鏈接和內(nèi)部鏈接的數(shù)據(jù)都在里面。

我們可能會(huì)儲(chǔ)存的鏈接

下面是我們?cè)诓糠智闆r下存儲(chǔ)的鏈接形式。

用 JavaScript 插入的鏈接

因?yàn)楣雀钑?huì)渲染所有頁(yè)面,所以它們可能會(huì)將 JavaScript 插入但不在 HTML 代碼中的鏈接納入計(jì)算范圍。由于大規(guī)模的渲染比加載頁(yè)面 HTML 需要更多的資源。在 Ahrefs 我們每天渲染約8000萬(wàn)個(gè)頁(yè)面。這就是為什么我們只會(huì)統(tǒng)計(jì)一部分用 JavaScript 插入的一些鏈接,而不是所有鏈接。目前我們唯一個(gè)會(huì)在抓取時(shí)渲染頁(yè)面的 SEO 工具,因此我們擁有一些其他工具所沒有的鏈接數(shù)據(jù)。

但是,僅當(dāng)使用 JavaScript 插入的鏈接為帶 有href 屬性的HTML 元素格式時(shí),我們才對(duì)它們進(jìn)行計(jì)數(shù)。你會(huì)在外鏈報(bào)告中看到這些鏈接標(biāo)記為“ JS”,如下所示:

來(lái)自具有URL參數(shù)的頁(yè)面的鏈接

參數(shù)類似URL的補(bǔ)充,例如這樣:?tag=something。你可能會(huì)在我們的索引數(shù)據(jù)中看到其中一些URL,但是它們通常是顯示不同內(nèi)容的帶參數(shù)URL。在許多情況下,帶有參數(shù)的頁(yè)面可能會(huì)顯示相同的內(nèi)容。我們有許多系統(tǒng)可以將URL合并為規(guī)范版本,不會(huì)讓抓取無(wú)限制的進(jìn)行下去。但那時(shí)其他的工具可能不會(huì)有類似的保護(hù)措施。結(jié)果就是它們可能多次計(jì)算了相同的鏈接。

我們嘗試不存儲(chǔ)的鏈接

以下是我們盡力避免存儲(chǔ)的鏈接類型。

來(lái)自具有URL參數(shù)的頁(yè)面的鏈接

如上所述,參數(shù)有好有壞。我們盡量不存儲(chǔ)重復(fù)的內(nèi)容。

來(lái)自無(wú)限抓取路徑中頁(yè)面的鏈接

這些路徑創(chuàng)建了無(wú)限數(shù)量的的URL。參數(shù)是它們可以形成的一種方式,但過(guò)濾器、動(dòng)態(tài)內(nèi)容、斷開的鏈接、相對(duì)路徑等也會(huì)造成這種狀況。如前所述,我們?yōu)檫@些類型的頁(yè)面上的鏈接提供了很多保護(hù),盡量使它們不出現(xiàn)在我們的報(bào)告中。遵循規(guī)范地址、以及對(duì)抓取頁(yè)面進(jìn)行優(yōu)先級(jí)排序,只是其中的兩項(xiàng)保護(hù)。由于每個(gè)索引數(shù)據(jù)都必須審查是否是來(lái)自無(wú)限抓取路徑的,所以在處理過(guò)程中難免會(huì)有鏈接數(shù)量增加的情況。

我們不存儲(chǔ)的鏈接

下面是是我們從不存儲(chǔ)的鏈接類型。

PDF或其他文檔中的鏈接

谷歌將許多文檔格式轉(zhuǎn)換為HTML,并像對(duì)其他頁(yè)面上一樣對(duì)它們進(jìn)行索引。這意味著谷歌會(huì)計(jì)算這些文檔中的鏈接。我們不認(rèn)為目前有任何SEO工具會(huì)為這些鏈接建立索引,但我們以后可能會(huì)這么做。但同時(shí),我也擔(dān)心為此付出的努力和資源是不值得的。因?yàn)楦鶕?jù)谷歌網(wǎng)站趨勢(shì)分析師 John Mueller 的說(shuō)法,PDF中的鏈接在網(wǎng)絡(luò)搜索中沒有任何實(shí)際作用。

Iframe 中的鏈接

iframe允許另一個(gè)頁(yè)面內(nèi)容顯示在當(dāng)前頁(yè)面內(nèi)部。因此,Ahrefs 不計(jì)算 iframe 中的任何鏈接。但是,它們依然會(huì)向用戶顯示,因此即使內(nèi)容從技術(shù)上來(lái)說(shuō)屬于其他頁(yè)面,其他工具也可能會(huì)將其計(jì)算在內(nèi)。谷歌可能會(huì)、也可能不會(huì)計(jì)算這些鏈接。

來(lái)自未建立索引頁(yè)面的鏈接

我們會(huì)刪除這些鏈接數(shù)據(jù)。谷歌方面不的同人對(duì)待這個(gè)也有不同的意見。同時(shí)不同的工具可能也會(huì)有不同的結(jié)論。

譯: 沒有索引的頁(yè)面永遠(yuǎn)不會(huì)記錄到索引庫(kù)中。但我們會(huì)將這個(gè)記錄為副本并用于諸如鏈接圖計(jì)算之類的。

來(lái)自多個(gè) IP 的相同鏈接

關(guān)于網(wǎng)站的一個(gè)有趣事實(shí)是,站點(diǎn)可能會(huì)通過(guò)多個(gè)IP地址為同一頁(yè)面提供服務(wù)。在這種情況下,部分工具的鏈接索引可能會(huì)多次計(jì)算同一鏈接。但我們不這樣做。我們會(huì)將鏈接與它們所在的頁(yè)面本生相關(guān)聯(lián)。

從單個(gè)頁(yè)面到另一頁(yè)面的多個(gè)鏈接

目前,我們僅在頁(yè)面上記錄鏈接的一種版本。如果你在導(dǎo)航菜單中鏈接到了某個(gè)頁(yè)面,然后又在正文中做了鏈接,則我們將僅計(jì)入其中之一。將來(lái)我們可能會(huì)更改此設(shè)置,以便為用戶提供更多數(shù)據(jù)。谷歌會(huì)計(jì)算所有版本的鏈接來(lái)傳遞 PageRank,但多半只使用一個(gè)版本的錨文本。

其他影響索引鏈接的相關(guān)要素

理解我們?nèi)绾斡?jì)算鏈接數(shù)是一回事,但是許多其他的因素也會(huì)影響到什么樣內(nèi)容沒有被計(jì)算在內(nèi)。

頁(yè)面中存在的鏈接數(shù)量

我認(rèn)為我們對(duì)每頁(yè)鏈接數(shù)并沒有限制,但是我們確實(shí)有頁(yè)面大小限制,這最終可能會(huì)影響我們看到的鏈接數(shù)量。同時(shí)谷歌也建議每頁(yè)鏈接不要超過(guò)幾千個(gè)。

重定向鏈接或規(guī)范化鏈接

在 Ahrefs,我們信任所有重定向的、有規(guī)范標(biāo)簽的鏈接,并會(huì)著重處理這些鏈接。對(duì)于谷歌而言,這更為復(fù)雜,因?yàn)榫W(wǎng)站中有許多規(guī)范標(biāo)簽,通過(guò)它們可以確定哪個(gè)頁(yè)面是作為主導(dǎo)頁(yè)面存在的。我們的處理則相對(duì)比較簡(jiǎn)單,因?yàn)椴豢赡苤拦雀枋侨绾慰创糠N情況,而且如果我們處理規(guī)范化鏈接、重定向鏈接的方式每次都不同的話,會(huì)讓我們的用戶很困惑。

在我們的報(bào)告中,這些鏈接會(huì)被貼上 “301”、“302”、或是 “Canonical” 的標(biāo)注:

什么樣的域名會(huì)被索引?

在Ahrefs中,我們有 Referring domains(反鏈域名)報(bào)告,其中顯示了鏈接到網(wǎng)站或網(wǎng)頁(yè)的所有域名。

但是,我們究竟如何計(jì)算這些域名的?

你會(huì)認(rèn)為這個(gè)問題很容易回答。就是 domain.com,對(duì)不對(duì)?不幸的是,由于有很多計(jì)算域名的方法,因此這個(gè)會(huì)復(fù)雜一些。一種選擇是將每個(gè)注冊(cè)的域名都視為獨(dú)立個(gè)體,這似乎是 Google Search Console 中對(duì)其進(jìn)行匯總的方式。另一個(gè)是將每個(gè)子域都視為一個(gè)獨(dú)立個(gè)體。你也可以匯總網(wǎng)站的某些部分,同時(shí)其他部分區(qū)分處理(比如谷歌就是這么做的),按不同技術(shù)對(duì)每個(gè)部分進(jìn)行計(jì)算,等等。這里就有很多選擇。

在 Ahrefs 中,我們有大約有 1.75 億個(gè)域名經(jīng)過(guò)了審核。審核過(guò)程包括刪除垃圾域、和拆分一些獨(dú)立的子域。在這些子域中,我們確定是由不同的用戶來(lái)控制的。為此,我們使用了一個(gè)自定義列表來(lái)進(jìn)行區(qū)分,在 https://publicsuffix.org/list/ 上也有類似的公共列表可以參考。

要注意,不同的定義方法可能導(dǎo)致 referring domains(反鏈域名)數(shù)據(jù)有巨大變化。以下是一些示例(不是Ahrefs)可以算作單獨(dú)域的示例:

l移動(dòng)端子域名 (m.domain.com, mobile.domain.com 等)

l國(guó)家/語(yǔ)言類子域名(en.domain.com, fr.domain.com, de.domain.com, jp.domain.com 等). 我們的索引中可能有例外,例如 Wikipedia.org,但通常不會(huì)這樣。

l隨機(jī)子域名 (support.domain.com, images.domain.com 等)

外鏈工具的提供者必須做出的另一個(gè)決定是,是否應(yīng)將某些子目錄視為不同的域。例如,我認(rèn)為大多數(shù)工具會(huì)將知名平臺(tái)(例如,user1.blogspot.com,user2.blogspot.com)上的不同博客歸為不同的域,因?yàn)樗鼈冇刹煌挠脩艨刂?。但是,為什么不?duì) medium.com/user1 或github.com/user1 這樣的網(wǎng)站執(zhí)行相同的操作?在 Ahrefs,我們雖然目前不這樣做,但是將來(lái)我們可能會(huì),因?yàn)椴煌娜丝赡軙?huì)控制站點(diǎn)不同的目錄。

這里的要點(diǎn)是,有很多方法可以計(jì)算域名數(shù)量。當(dāng)你查看計(jì)算互聯(lián)網(wǎng)站點(diǎn)的公司的不同數(shù)據(jù)時(shí),這是顯而易見的。根據(jù) Verisign 的數(shù)據(jù),到 2020 年第三季度,所有TLD的注冊(cè)域名中有 3.707億個(gè)站點(diǎn)。根據(jù) Netcraft 的數(shù)據(jù),到 2020 年第三季度,所有 獨(dú)立域名中有 1,229,948,224個(gè)站點(diǎn),活躍站點(diǎn)為 1.938億。根據(jù) Internet Live Stats 的數(shù)據(jù),大約有18 億個(gè)站點(diǎn),當(dāng)前活躍的站點(diǎn)少于 2 億。顯然,每個(gè)公司都有不同的方法來(lái)計(jì)算域。


總結(jié)說(shuō)就是,我們?cè)?Ahrefs 所做的事情就是將我們計(jì)算所知道的域名,同時(shí)剔除垃圾域名、以及非活躍域名。然后也會(huì)記入會(huì)為諸如 blogspot.com 之類的網(wǎng)站的子域名。這樣一來(lái),我們的域名總數(shù)就達(dá)到了 1.75 億。其他工具可能會(huì)以不同的方式執(zhí)行此操作,并得出不同的數(shù)值。

為什么我們看不到所有的鏈接?

我們只會(huì)在允許抓取的網(wǎng)站上抓取鏈接。如果網(wǎng)站所有者在其 robots.txt 文件中阻止了 Ahrefs 的爬蟲,我們將無(wú)法抓取其網(wǎng)站。例如,如果你從 website.com 獲得反向鏈接,而 website.com 阻止了 Ahrefsbot(Ahrefs的爬蟲),則我們將無(wú)法抓取其網(wǎng)站,并且這個(gè)反向鏈接也不會(huì)顯示在Ahrefs 中。IP阻止、來(lái)自服務(wù)器的用戶代理阻止(與robots.txt不同)、服務(wù)器超時(shí)、漫游器保護(hù)以及許多其他因素也會(huì)影響我們對(duì)某些網(wǎng)站進(jìn)行抓取的能力。畢竟大規(guī)模的抓取頁(yè)面并不容易。

我們有多個(gè)鏈接索引庫(kù)

每個(gè)工具都必須做出有關(guān)數(shù)據(jù)存儲(chǔ)和檢索的決策。在Ahrefs,我們會(huì)把數(shù)據(jù)分在多個(gè)索引庫(kù)中。

lLive(現(xiàn)存的) — 當(dāng)前仍然存在于頁(yè)面上的鏈接。這最好地代表了當(dāng)前的數(shù)據(jù)狀態(tài),這也是目前用戶認(rèn)為最有用的數(shù)據(jù)。

lRecent(近期的) — 過(guò)去3–4個(gè)月內(nèi),我們?cè)陧?yè)面上抓取到的鏈接。

lHistorical(歷史的) — 我們見過(guò)的所有鏈接。這將是最全面的列表,但其中包含許多當(dāng)前已經(jīng)不再存在的鏈接。


你可以在 referring domain(反鏈域名)報(bào)告中切換查看這些索引數(shù)據(jù):

其他的工具可能選擇顯示所有他們?cè)?jīng)看到的數(shù)據(jù),雖然這意味著它們可能顯示了很多鏈接,但其中的許多鏈接可能不再存在。

最后

我們希望你——我們的用戶,了解更多關(guān)于我們?nèi)绾嗡饕龜?shù)據(jù)的信息。這樣你就可以做出明智的決定。我們也希望你們能及時(shí)讓我們知道你的建議和意見、以及其原因。


翻譯作品,原作者:Patrick Stox


點(diǎn)贊(3) 打賞

評(píng)論列表 共有 0 條評(píng)論

暫無(wú)評(píng)論

服務(wù)號(hào)

訂閱號(hào)

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長(zhǎng)

發(fā)表
評(píng)論
立即
投稿
返回
頂部