摘要:2020 年 9 月的某個清晨,美國北加州地區(qū)的民眾一覺醒來,發(fā)現(xiàn)野火濃煙后的西海岸上空一片橙紅。這種像是從《銀翼殺手》電影中走出來的景象,很多人在現(xiàn)實(shí)生活中可能從未見過。圖:LA Times到底發(fā)生了什么?自然而然地,就像國內(nèi)大多數(shù)網(wǎng)民會...
2020 年 9 月的某個清晨,美國北加州地區(qū)的民眾一覺醒來,發(fā)現(xiàn)野火濃煙后的西海岸上空一片橙紅。這種像是從《銀翼殺手》電影中走出來的景象,很多人在現(xiàn)實(shí)生活中可能從未見過。
圖:LA Times
到底發(fā)生了什么?
自然而然地,就像國內(nèi)大多數(shù)網(wǎng)民會打開百度甚至知乎搜索答案一樣,一時間加州人民也紛紛潮涌至 Google,鍵入了類似「為什么天空是橙色的」這樣的搜索關(guān)鍵字 —— 這些在搜索引擎眼里或許有點(diǎn)無厘頭的問題,依然通過信息卡片、精選新聞資訊的方式得到了精準(zhǔn)而及時的解答。
當(dāng)時的 Google 搜索頁面
以上是 Google 不久前 分享的一個案例。當(dāng)我們將 Google 搜索引擎從上面這個事件中剝離出來仔細(xì)審視時,不少人應(yīng)該都會心生疑竇:Google 是如何知道用戶要搜什么的,為什么針對加州地區(qū)的當(dāng)?shù)刭Y訊會排在頁面頂部,其它地區(qū)的人搜索同樣的問題會得到類似的答案嗎,結(jié)果頁面左側(cè)的知識面板在這樣的搜索中發(fā)揮了怎樣的作用……
為了讓你多了解一點(diǎn)這個世界上最受歡迎的搜索引擎,Google自 2018 年以來就開始陸續(xù)在 The Keyword 博客中分享關(guān)于 Google 搜索引擎的各種細(xì)節(jié)與原理。如果你也有上面這些疑問,不妨跟隨本文一起探究 Google 搜索引擎背后的秘密。
每天我們都要和搜索引擎打交道,而每次使用 Google 搜索信息時,鍵入搜索關(guān)鍵字的同時搜索框下方都會不斷「蹦」出各種各樣根據(jù)已輸入詞匯擴(kuò)展而來的搜索建議。是此時的 Google「能掐會算」,早就知道了你心里的那點(diǎn)小心思嗎?
這種「能掐會算」的背后是 Google 的一項(xiàng)名為自動填充(auto complete)的技術(shù)。從我們錄入開始,Google 就開始在搜索框的下方顯示它所猜測的搜索關(guān)鍵字結(jié)果。只要有任意一條「猜測」命中,我們就能快速完成輸入。
這種「猜測」(官方稱為「預(yù)測」)其實(shí)是系統(tǒng)在不斷使用我們鍵入的詞匯進(jìn)行聯(lián)想查詢,我們不斷輸入的同時,搜索框下方提示的文字內(nèi)容也會根據(jù)「猜測」結(jié)果不斷調(diào)整。這其實(shí)也是為什么網(wǎng)絡(luò)環(huán)境不太好的時候搜索建議可能會表現(xiàn)得反應(yīng)遲滯甚至完全不會「蹦」出搜索建議的原因。
為了提高這些搜索建議的命中率,Google 還會進(jìn)一步引入相關(guān)因素來進(jìn)行預(yù)測校準(zhǔn),進(jìn)行搜索的用戶所處的地理位置、當(dāng)下的熱門甚至用戶所使用的設(shè)備……這些都會對自動填充生成的搜索建議產(chǎn)生影響 —— 當(dāng)然了,很多人應(yīng)該也知道,我們在 Google 上保存的搜索歷史和各種搜索設(shè)置同樣也會影響到具體的預(yù)測結(jié)果。
搜索設(shè)置會影響搜索結(jié)果,但只是眾多影響因素的一部分
舉個例子,在 Google 搜索引擎使用率更高的歐美地區(qū),Google 往往會根據(jù)搜索用戶所處的地理位置預(yù)判他們使用的是英式英語還是美式英語,進(jìn)而提供差異化的內(nèi)容顯示 —— 在英式英語的語境下「football」通常會是足球,而在美式英語下往往是橄欖球,Google 也會這么做;與之對應(yīng)的,Google 還會在單詞拼寫上進(jìn)行建議,比如根據(jù)搜索者的所在地區(qū)對「center」和「centre」的寫法進(jìn)行區(qū)分。
注意觀察圖中位置與單詞的拼寫
由此其實(shí)也可以得出一個事實(shí):每個人在 Google 中進(jìn)行的每一次搜索都是高度個性化的,即便我們使用瀏覽器的隱私瀏覽模式排除個人搜索和瀏覽記錄的干擾,實(shí)際搜索結(jié)果還是會根據(jù)其它因素進(jìn)行調(diào)整。
我只是要找個答案而已,并不想點(diǎn)開網(wǎng)頁。
經(jīng)常使用搜索引擎獲取信息的人一定會有類似的想法,讓他們養(yǎng)成這個習(xí)慣的原因之一,很有可能就是 Google 經(jīng)常會在搜索結(jié)果頁面上方直接生成的那個信息卡片 —— 直接、干脆,你問、它答。
這個答案是怎么來的?
首先,這個卡片也有一個特定的名字:精選摘要(featured snippets),套用一句俗話,「生活就像水中的鴨子,表面上從容淡定,其實(shí)水底下在拼命劃水」。精選摘要的來源也是這樣 —— 在我們鍵入、搜索的過程中,Google 表面上只是從容淡定地搜索、跳轉(zhuǎn),背后的零點(diǎn)幾秒時間里,幕后其實(shí)也在「拼命劃水」。搜索系統(tǒng)算法會根據(jù)我們所搜索的問題檢索一些相對具備權(quán)威性的高質(zhì)量網(wǎng)站頁面,然后從這些網(wǎng)站中提取關(guān)鍵內(nèi)容來生成摘要,最后把這份摘要呈送到我們眼前,即上面所說的「精選摘要」。
然而算法畢竟是算法,也會有陰溝翻船的時候,其中最著名的例子莫過于「古羅馬人夜間如何計時」這個問題,最初 Google 給出的答案是:
日晷。羅馬人最初使用日晷來測量時間流逝。通過這種方法他們不僅可以相對準(zhǔn)確地獲取日出、日落和正午時間,還能根據(jù)日影長度估算一天中的其它時刻。日晷這種新工具的引入給了羅馬人一種更好的測量時間的方法……
那么夜間沒有太陽如何用日晷計時呢?Google 的精選摘要那時也不知道。是不是有點(diǎn)你學(xué)生時代答非所問但一定要把試題紙寫滿的味道了……
上面我們已經(jīng)了解了「精選摘要」,也見識了它的「胡說八道」,那當(dāng)我們意識到精選摘要似乎在「亂侃」的時候怎么辦?或者這個搜索頁面根本就沒有精選摘要……
你可能已經(jīng)有這個習(xí)慣了:向右看。頁面右側(cè)可能會出現(xiàn)一個知識面板,它包含了當(dāng)前搜索話題相關(guān)的知識信息,沒準(zhǔn)也能在你的搜索中派上用場。這個知識面板(Knowledge Panel)與早年 Google 精心搭建的知識圖譜(Knowledge Graph)體系密切相關(guān)。
圖片來自于維基百科
簡單來說,知識圖譜是一個由各種不同頁面、不同來源的信息構(gòu)成的小「知識庫」,根據(jù)話題的不同,Google 通過語義算法自動整理、歸納不同內(nèi)容的相關(guān)信息,這些信息同時會隨著原始來源頁面的變化而自動更新。
因此當(dāng)我們在搜索人物、地點(diǎn)、組織等信息的時候,知識面板可以直接將相關(guān)內(nèi)容匯總為一張知識面板放在搜索頁面右側(cè)。目前這個面板中所收納的內(nèi)容已經(jīng)相當(dāng)豐富了,以 Apple 的知識面板為例,我們可以直接在知識面板中找到 Apple 這家公司的基本信息介紹、股價信息、業(yè)務(wù)范圍、售后電話、社交賬戶頁面、熱門產(chǎn)品甚至換電池業(yè)務(wù)頁面……比起跳轉(zhuǎn)到某個互聯(lián)網(wǎng)犄角旮旯里才能找到官網(wǎng)的體驗(yàn)來說這樣的知識面板能夠大幅提高話題信息的檢索效率。
盡管知識面板偏居一隅,但是 Google 對它還挺上心的。按照 Google 的說法,截至 2020 年 5 月,知識面板已經(jīng)收集了約 50 億個實(shí)體、超過 5000 億個名詞實(shí)例,說它是一本藏在 Google 搜索引擎里的「百科全書」不過分吧?
精選摘要也好,知識面板也罷,這些都可以簡單歸納到快速答案范疇內(nèi)。假如把整個搜索過程比作是一頓飽餐,精選摘要、知識面板只不過是餐前甜點(diǎn),頁面主體內(nèi)容里的搜索結(jié)果才是正餐。
所以很多人在瀏覽 Google 搜索結(jié)果的時候,隨著鼠標(biāo)的滾輪不斷滑動、藍(lán)色的搜索鏈接飛速掠過,很自然地就會有一個不成熟的小想法:這么多的搜索結(jié)果是如何排序的,前面這幾個會不會跟某些搜索引擎一樣是收了錢的?
「犯罪嫌疑人」是這樣說的
這個問題就涉及到了搜索排名算法了。
這里最為大眾所熟知的搜索排名算法應(yīng)該就是 PageRank 了。這也是 Google 最早使用的 對網(wǎng)頁進(jìn)行的排名算法。對,就是你的潛意識里的那個名字,拉里·佩奇(Larry Page),這個算法正是用 Google 創(chuàng)始人(之一)的名字命名。
雖然 Google 主要靠廣告掙錢,影響搜索結(jié)果排名的主要還是算法本身,但金無足赤,算法同樣也有問題。PageRank 的缺陷就包括「舊的頁面的排名往往會比新頁面高」,也同樣因此成為了一些人「刷排名」的漏洞。因此 Google 在 2016 年 關(guān)閉了 PageRank 數(shù)據(jù)開放的大門。
誠所謂條條大路通羅馬,盡管時間在變、算法在變,不過 Google 表示保證搜索結(jié)果排名質(zhì)量的初心并沒有變。按照 Google 的說法,目前 Google 搜索引擎的排名系統(tǒng)是以質(zhì)量為導(dǎo)向的,它由一系列算法組成,在搜索過程中,我們搜索的字詞、搜索目標(biāo)網(wǎng)頁的相關(guān)性、可用性、來源專業(yè)程度等等都會影響到算法和頁面的最終排名。用戶搜索話題的性質(zhì)不同也會影響頁面的內(nèi)容排序。
所以從某種程度上來說,Google 搜索引擎現(xiàn)階段的排名算法其實(shí)是有點(diǎn)「黑盒子」,它不像早年 PageRank 那樣公開透明,但依然維持著較高的搜索結(jié)果排名質(zhì)量 —— 當(dāng)然,Google 用來「養(yǎng)家糊口」的廣告往往還是會排在搜索結(jié)果的上面,好在它們和少數(shù)派網(wǎng)站一樣都標(biāo)注得蠻清楚。
沒錯,講了這么多預(yù)測、知識圖譜與算法,保證 Google 搜索結(jié)果質(zhì)量最后一環(huán)的竟然還是人。
就像上面提到的那個「羅馬人夜間用日晷計時」的笑話一樣,搜索結(jié)果詞不達(dá)意甚至答非所問的情況是有的,而算法很難自查。為了減少類似的情況發(fā)生,Google 充分調(diào)動這樣幾波人的智慧:
P.S. 評分員在開始提供評級服務(wù)之前,需要學(xué)習(xí) Google 發(fā)布的《搜索質(zhì)量評分者指南》并且通過相應(yīng)考試。整個評估工作也要遵照該《指南》進(jìn)行。
除了以人之智慧補(bǔ)算法之不足之外,Google 同樣沒有放棄對算法優(yōu)化的努力。以「網(wǎng)頁的相關(guān)性和可用性」而言,Google 擁有多種語言理解系統(tǒng)。這些語言理解系統(tǒng)中既有對應(yīng)拼寫錯誤、同義詞等內(nèi)容系統(tǒng),又有基于 AI 的系統(tǒng)。通過這些系統(tǒng),Google 得以了解與我們搜索最相關(guān)的結(jié)果并進(jìn)行改善。
配合人為主導(dǎo)的并行實(shí)驗(yàn)、實(shí)時流量實(shí)驗(yàn)等一系列的工作,最終 Google 得以保證我們在 Google 搜索引擎中的實(shí)際體驗(yàn)。根據(jù) Google 披露的數(shù)據(jù),2019 年他們與搜索質(zhì)量評分者一共進(jìn)行了 383605 余次搜索質(zhì)量測試、62937 次并行實(shí)驗(yàn)、17523 次實(shí)時流量實(shí)驗(yàn),這些努力幫助 Google 對搜索算法進(jìn)行了 3600 多次改進(jìn)。
修正前與修正后的精選摘要答案對比
一次簡單的搜索行為、一個稀松平常的搜索結(jié)果頁面,背后的算法、原理、構(gòu)成和人力因素其實(shí)都復(fù)雜且精妙。
太陽每天都是新的、互聯(lián)網(wǎng)發(fā)展不斷向前,我們的搜索需求也水漲船高,回首來路,也正是因?yàn)?Google 在「搜索」這件事情上的不斷改進(jìn)和優(yōu)化,才讓它最終成為了不少人心中那個最靠譜的首選。