摘要:剛剛年滿 20 歲的谷歌又一次在搜索領(lǐng)域擴(kuò)大了自己的狩獵范圍。今日,谷歌推出新的數(shù)據(jù)集搜索(Dataset Search)產(chǎn)品,希望幫助研究人員、記者和其他用戶更輕易地獲得這些數(shù)據(jù)。這一工具還提供以公開標(biāo)準(zhǔn)呈現(xiàn)的數(shù)據(jù),從而幫用戶清楚地了解這...
剛剛年滿 20 歲的谷歌又一次在搜索領(lǐng)域擴(kuò)大了自己的狩獵范圍。
今日,谷歌推出新的數(shù)據(jù)集搜索(Dataset Search)產(chǎn)品,希望幫助研究人員、記者和其他用戶更輕易地獲得這些數(shù)據(jù)。這一工具還提供以公開標(biāo)準(zhǔn)呈現(xiàn)的數(shù)據(jù),從而幫用戶清楚地了解這些信息的創(chuàng)建者、數(shù)據(jù)的收集途徑以及數(shù)據(jù)的用途。此外該工具還支持包括中文在內(nèi)的多種語言進(jìn)行搜索。
網(wǎng)上存在海量的研究數(shù)據(jù),但是對(duì)這些網(wǎng)站進(jìn)行篩選可能非常耗時(shí),且數(shù)據(jù)的格式可能不易解析,因此谷歌推出數(shù)據(jù)集搜索。
谷歌數(shù)據(jù)集搜索地址:
https://toolbox.google.com/datasetsearch
圖丨谷歌數(shù)據(jù)集搜索(圖源:DT 君)
此前,谷歌在今年 7 月推出的數(shù)據(jù)集標(biāo)記架構(gòu),能夠提取用戶搜索結(jié)果中的數(shù)據(jù),讓用戶更直觀的看到經(jīng)過可視化處理的結(jié)果。新的數(shù)據(jù)集搜索正是正是基于這一數(shù)據(jù)集標(biāo)記架構(gòu)。
新的谷歌數(shù)據(jù)集搜索將收錄自然科學(xué)、社會(huì)科學(xué)以及其他學(xué)科的數(shù)據(jù),同時(shí),政府?dāng)?shù)據(jù)以及新聞機(jī)構(gòu)如 ProPublica 的數(shù)據(jù)也會(huì)收錄其中。研究人員、記者等任何需要特定主題數(shù)據(jù)的人都能通過谷歌數(shù)據(jù)集搜索快速找到他們需要的數(shù)據(jù)。
另一方面,數(shù)據(jù)來源是這一搜索項(xiàng)目中的重要部分,谷歌在推出這一搜索功能的同時(shí)也為開發(fā)人員公布了數(shù)據(jù)集的標(biāo)記要求。具體來說,谷歌向數(shù)據(jù)集所有方提供指南和框架,幫助他們描述其數(shù)據(jù)特性,以便谷歌和其他搜索引擎能識(shí)別并提供給搜索用戶。據(jù)介紹,這一框架是基于 Schema.org 標(biāo)準(zhǔn)化詞匯表實(shí)現(xiàn)的。谷歌對(duì)數(shù)據(jù)集的描述包括:數(shù)據(jù)集的創(chuàng)建者、發(fā)布時(shí)間、收集方式,使用條款等。而在用戶搜索時(shí),谷歌基于已有數(shù)據(jù)集信息,向用戶提供最接近他們搜索關(guān)鍵詞的內(nèi)容。
為了讓更多數(shù)據(jù)所有者愿意參與到這一項(xiàng)目中,Google AI 的計(jì)算機(jī)科學(xué)家 Natasha Noy 表示,這一搜索系統(tǒng)以后可能會(huì)變得更復(fù)雜,但目前谷歌目前不會(huì)對(duì)這些搜索結(jié)果中的數(shù)據(jù)集進(jìn)行收集和分析。
(圖源:MIT Technology Review)
全球范圍內(nèi),政府機(jī)構(gòu)、出版商、研究機(jī)構(gòu)甚至個(gè)人維護(hù)著數(shù)千個(gè)開放的數(shù)據(jù)庫,其中包含的數(shù)據(jù)集超過百萬個(gè)。
Natasha Noy 曾向外媒表示:“我們的目標(biāo)是將數(shù)萬個(gè)不同的數(shù)據(jù)集存儲(chǔ)庫統(tǒng)一起來,在不改變其位置的情況下將其提供給需要的人?!?/p>
目前,已經(jīng)上線的谷歌數(shù)據(jù)集搜索還僅是測(cè)試版本。隨著越來越多數(shù)據(jù)集供應(yīng)商標(biāo)記其數(shù)據(jù)集,用戶在搜索中找到數(shù)據(jù)集的數(shù)量和范圍將會(huì)不斷擴(kuò)大。同時(shí),研究人員的搜索和使用數(shù)據(jù)的行為也能為谷歌提供參考,進(jìn)而不斷優(yōu)化搜索結(jié)果。