精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

Google 悄悄更新了他們的 Google 搜索中心文檔,指出他們現(xiàn)在正在為 .csv 文件建立索引。這開(kāi)辟了一種新的爬網(wǎng)方式,或者如果發(fā)布商不希望其 .csv 文件被爬網(wǎng),則可能意味著需要更新 robots.txt 以排除這些文件。

CSV

CSV文件是以表格格式保存數(shù)據(jù)的文本文件,可以顯示為電子表格。CSV文件包含純文本數(shù)據(jù),這意味著 CSV 文件不包含字體等樣式元素,也不包含圖像或鏈接。它們對(duì)于執(zhí)行一些操作非常有用,例如上傳 URL 列表以供爬行到 Screaming Frog 等軟件。但它們對(duì)于組織電子表格中的數(shù)據(jù)也很有用。

CSV 文件索引是新功能

Google 索引 CSV 文件的能力是一項(xiàng)新功能,因?yàn)樵?Google 上搜索 CSV 文件的“文件類(lèi)型”當(dāng)前不會(huì)返回 CSV 文件。

目前,如下搜索不會(huì)返回 CSV 文件:

  • Filetype:csv site:.gov

  • Filetype:csv site:.edu

  • Filetype:csv site:.com

Google 已經(jīng)間接使用了 CSV 文件

Google 的數(shù)據(jù)集搜索外觀已經(jīng)使用了 CSV 文件,但顯然僅在使用結(jié)構(gòu)化數(shù)據(jù)進(jìn)行描述時(shí)才使用。Google 舊開(kāi)發(fā)人員文檔中的數(shù)據(jù)集結(jié)構(gòu)化數(shù)據(jù)文檔(可在 Archive.org 上查看)指出,CSV 文件是出現(xiàn)在數(shù)據(jù)集搜索功能中的可接受標(biāo)準(zhǔn)。使用表格數(shù)據(jù)作為搜索外觀可以追溯到 2018 年,當(dāng)時(shí)谷歌宣布,當(dāng)數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)時(shí),他們將在搜索中顯示此類(lèi)數(shù)據(jù)。

根據(jù)原始文檔:

“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats are provided as structured data…“當(dāng)您提供支持信息(例如數(shù)據(jù)集的名稱(chēng)、描述、創(chuàng)建者和分發(fā)格式)作為結(jié)構(gòu)化數(shù)據(jù)提供時(shí),更容易找到數(shù)據(jù)集......

Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:

  • A table or a CSV file with some data包含一些數(shù)據(jù)的表格或 CSV 文件

  • An organized collection of tables有組織的表格集合

  • A file in a proprietary format that contains data包含數(shù)據(jù)的專(zhuān)有格式的文件

  • A collection of files that together constitute some meaningful dataset共同構(gòu)成一些有意義的數(shù)據(jù)集的文件集合

  • A structured object with data in some other format that you might want to load into a special tool for processing包含其他格式數(shù)據(jù)的結(jié)構(gòu)化對(duì)象,您可能希望將其加載到特殊工具中進(jìn)行處理

  • Images capturing data圖像捕獲數(shù)據(jù)

  • Files relating to machine learning, such as trained parameters or neural network structure definitions與機(jī)器學(xué)習(xí)相關(guān)的文件,例如訓(xùn)練參數(shù)或神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)定義

  • Anything that looks like a dataset to you”?任何對(duì)你來(lái)說(shuō)看起來(lái)像數(shù)據(jù)集的東西

Google 在 2022 年更新了上述文檔,并將其重定向到新的搜索中心文檔。更新后的文檔更清楚地表明,Google 依賴(lài)結(jié)構(gòu)化數(shù)據(jù)在其數(shù)據(jù)集搜索外觀中使用 CSV 文件。但這一變化是否意味著 Google 最終將抓取 CSV 文件并將其用于搜索外觀(除了結(jié)構(gòu)化數(shù)據(jù)中標(biāo)注的表格數(shù)據(jù))?

這就是當(dāng)前文檔的解釋?zhuān)?/span>

“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats as structured data.“當(dāng)您以結(jié)構(gòu)化數(shù)據(jù)的形式提供支持信息(例如數(shù)據(jù)集的名稱(chēng)、描述、創(chuàng)建者和分發(fā)格式)時(shí),更容易找到數(shù)據(jù)集。

Google’s approach to dataset discovery makes use of schema.org and other metadata standards that can be added to pages that describe datasets…Google 的數(shù)據(jù)集發(fā)現(xiàn)方法利用了 schema.org 和其他元數(shù)據(jù)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)可以添加到描述數(shù)據(jù)集的頁(yè)面中......

Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:

A table or a CSV file with some data…”包含一些數(shù)據(jù)的表格或 CSV 文件……”

Google 索引 CSV 與最近更新相關(guān)嗎?

核心算法更新的定義是谷歌對(duì)其核心算法進(jìn)行“重大”和“廣泛的改變”。CSV 文件的索引和核心算法的更新幾乎同時(shí)發(fā)生,這可能是一個(gè)巧合。但值得考慮的是,Google 是否改進(jìn)了其抓取引擎,使其能夠索引 CSV。


整理翻譯作品,原作者:Roger Montti



點(diǎn)贊(1) 打賞

評(píng)論列表 共有 0 條評(píng)論

暫無(wú)評(píng)論

服務(wù)號(hào)

訂閱號(hào)

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長(zhǎng)

發(fā)表
評(píng)論
立即
投稿
返回
頂部