Google 悄悄更新了他們的 Google 搜索中心文檔,指出他們現(xiàn)在正在為 .csv 文件建立索引。這開(kāi)辟了一種新的爬網(wǎng)方式,或者如果發(fā)布商不希望其 .csv 文件被爬網(wǎng),則可能意味著需要更新 robots.txt 以排除這些文件。
CSV
CSV文件是以表格格式保存數(shù)據(jù)的文本文件,可以顯示為電子表格。CSV文件包含純文本數(shù)據(jù),這意味著 CSV 文件不包含字體等樣式元素,也不包含圖像或鏈接。它們對(duì)于執(zhí)行一些操作非常有用,例如上傳 URL 列表以供爬行到 Screaming Frog 等軟件。但它們對(duì)于組織電子表格中的數(shù)據(jù)也很有用。
CSV 文件索引是新功能
Google 索引 CSV 文件的能力是一項(xiàng)新功能,因?yàn)樵?Google 上搜索 CSV 文件的“文件類(lèi)型”當(dāng)前不會(huì)返回 CSV 文件。
目前,如下搜索不會(huì)返回 CSV 文件:
Filetype:csv site:.gov
Filetype:csv site:.edu
Filetype:csv site:.com
Google 已經(jīng)間接使用了 CSV 文件
Google 的數(shù)據(jù)集搜索外觀已經(jīng)使用了 CSV 文件,但顯然僅在使用結(jié)構(gòu)化數(shù)據(jù)進(jìn)行描述時(shí)才使用。Google 舊開(kāi)發(fā)人員文檔中的數(shù)據(jù)集結(jié)構(gòu)化數(shù)據(jù)文檔(可在 Archive.org 上查看)指出,CSV 文件是出現(xiàn)在數(shù)據(jù)集搜索功能中的可接受標(biāo)準(zhǔn)。使用表格數(shù)據(jù)作為搜索外觀可以追溯到 2018 年,當(dāng)時(shí)谷歌宣布,當(dāng)數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)時(shí),他們將在搜索中顯示此類(lèi)數(shù)據(jù)。
根據(jù)原始文檔:
“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats are provided as structured data…“當(dāng)您提供支持信息(例如數(shù)據(jù)集的名稱(chēng)、描述、創(chuàng)建者和分發(fā)格式)作為結(jié)構(gòu)化數(shù)據(jù)提供時(shí),更容易找到數(shù)據(jù)集......
Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:
A table or a CSV file with some data包含一些數(shù)據(jù)的表格或 CSV 文件
An organized collection of tables有組織的表格集合
A file in a proprietary format that contains data包含數(shù)據(jù)的專(zhuān)有格式的文件
A collection of files that together constitute some meaningful dataset共同構(gòu)成一些有意義的數(shù)據(jù)集的文件集合
A structured object with data in some other format that you might want to load into a special tool for processing包含其他格式數(shù)據(jù)的結(jié)構(gòu)化對(duì)象,您可能希望將其加載到特殊工具中進(jìn)行處理
Images capturing data圖像捕獲數(shù)據(jù)
Files relating to machine learning, such as trained parameters or neural network structure definitions與機(jī)器學(xué)習(xí)相關(guān)的文件,例如訓(xùn)練參數(shù)或神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)定義
Anything that looks like a dataset to you”?任何對(duì)你來(lái)說(shuō)看起來(lái)像數(shù)據(jù)集的東西”
Google 在 2022 年更新了上述文檔,并將其重定向到新的搜索中心文檔。更新后的文檔更清楚地表明,Google 依賴(lài)結(jié)構(gòu)化數(shù)據(jù)在其數(shù)據(jù)集搜索外觀中使用 CSV 文件。但這一變化是否意味著 Google 最終將抓取 CSV 文件并將其用于搜索外觀(除了結(jié)構(gòu)化數(shù)據(jù)中標(biāo)注的表格數(shù)據(jù))?
這就是當(dāng)前文檔的解釋?zhuān)?/span>
“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats as structured data.“當(dāng)您以結(jié)構(gòu)化數(shù)據(jù)的形式提供支持信息(例如數(shù)據(jù)集的名稱(chēng)、描述、創(chuàng)建者和分發(fā)格式)時(shí),更容易找到數(shù)據(jù)集。
Google’s approach to dataset discovery makes use of schema.org and other metadata standards that can be added to pages that describe datasets…Google 的數(shù)據(jù)集發(fā)現(xiàn)方法利用了 schema.org 和其他元數(shù)據(jù)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)可以添加到描述數(shù)據(jù)集的頁(yè)面中......
Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:
A table or a CSV file with some data…”包含一些數(shù)據(jù)的表格或 CSV 文件……”
Google 索引 CSV 與最近更新相關(guān)嗎?
核心算法更新的定義是谷歌對(duì)其核心算法進(jìn)行“重大”和“廣泛的改變”。CSV 文件的索引和核心算法的更新幾乎同時(shí)發(fā)生,這可能是一個(gè)巧合。但值得考慮的是,Google 是否改進(jìn)了其抓取引擎,使其能夠索引 CSV。
整理翻譯作品,原作者:Roger Montti
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今,離不開(kāi)小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開(kāi)通了獨(dú)立站交流群。
群里有不少運(yùn)營(yíng)大神,不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧,更有一些資源收藏愛(ài)好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣(mài)課!)