亚洲高清一区二区三区,亚洲国产精品悠悠久久琪琪,欧美性爱小说二区,羞羞视频精品观看全部免费,国产手机视频在线,亚洲欧洲中日韩在线观看

歐易

歐易(OKX)

國(guó)內(nèi)用戶最喜愛的合約交易所

火幣

火幣(HTX )

全球知名的比特幣交易所

幣安

幣安(Binance)

全球用戶最多的交易所

搜狗王小川CNCC解讀:為什么搜索的未來是人工智能時(shí)代的明珠

2022-09-22 17:35:30 2847

摘要:2016年10月20日,中國(guó)計(jì)算機(jī)大會(huì)(CNCC2016)在太原召開。作為我國(guó)計(jì)算機(jī)領(lǐng)域規(guī)模最大、級(jí)別最高的學(xué)術(shù)會(huì)議,大會(huì)邀請(qǐng)了逾200位國(guó)內(nèi)外計(jì)算機(jī)領(lǐng)域頂尖專家、企業(yè)家等參加。上午壓軸出場(chǎng)的搜狗CEO王小川作為特邀嘉賓,發(fā)表了主題為《搜狗...

2016年10月20日,中國(guó)計(jì)算機(jī)大會(huì)(CNCC2016)在太原召開。作為我國(guó)計(jì)算機(jī)領(lǐng)域規(guī)模最大、級(jí)別最高的學(xué)術(shù)會(huì)議,大會(huì)邀請(qǐng)了逾200位國(guó)內(nèi)外計(jì)算機(jī)領(lǐng)域頂尖專家、企業(yè)家等參加。上午壓軸出場(chǎng)的搜狗CEO王小川作為特邀嘉賓,發(fā)表了主題為《搜狗的人工智能之路》的演講,他指出“搜索的未來是人工智能時(shí)代的明珠;搜索未來將走向問答機(jī)器人,而輸入法也將向自動(dòng)問答和智能回復(fù)發(fā)展?!?/p>

人工智能時(shí)代,搜索向問答機(jī)器人發(fā)展

王小川認(rèn)為,人工智能劃分為識(shí)別、生成和決策三大領(lǐng)域:“在學(xué)術(shù)領(lǐng)域中,識(shí)別與生成是同等重要的;而要讓人工智能產(chǎn)生市場(chǎng)價(jià)值,決策才是讓人工智能變成商業(yè)智能的核心?!痹谒磥恚寵C(jī)器參與幫助人做決策提高效率,由此產(chǎn)生的商業(yè)價(jià)值才是最大的。

而搜索作為一種人工智能,其未來又在哪里呢?王小川說,“目前我們已經(jīng)很好地解決了機(jī)器識(shí)別中語音和圖像的問題,但是在自然語言的處理中,我們目前還進(jìn)展緩慢。今天機(jī)器仍不具有跟人交流的能力,因?yàn)樗鼪]有概念。但是在未來,搜索將走向問答機(jī)器人?!?/p>

他舉例說:“正如觸摸屏正在逐漸代替鼠標(biāo)鍵盤成為主要的機(jī)器操作方式,更自然的交互方式不僅更方便人們使用,也能為機(jī)器提供更多信息。隨著機(jī)器越來越聰明,搜索也會(huì)從簡(jiǎn)單的依靠一個(gè)關(guān)鍵詞返回十條鏈接,轉(zhuǎn)向直接提供問題的答案。這種情況下真正有效的方式是通過自然語言問問題,形成更自然的人機(jī)交互?!彼e了包括《星球大戰(zhàn)》、《星際穿越》《超能陸戰(zhàn)隊(duì)》等科幻電影中問答機(jī)器人的形象。對(duì)于一問一答自然交互方式的研究,王小川表示,這不僅是搜狗的研究方向,谷歌、蘋果、亞馬遜等多家大公司也在做同樣的事情。

輸入法的未來:自動(dòng)問答和智能回復(fù)

搜狗輸入法誕生于十年前,大數(shù)據(jù)、云輸入曾為之帶來快速發(fā)展,如今人工智能又為搜狗輸入法帶來了怎樣的變化?王小川以搜狗輸入法的語音識(shí)別技術(shù)舉例,“用戶可以直接使用語音輸入或者修改,這種更加自然的交互方式也推動(dòng)語音技術(shù)高速發(fā)展?!睋?jù)了解,目前搜狗輸入法日均語音請(qǐng)求接近1.8億次,用戶每天產(chǎn)生的語料規(guī)模超過13萬小時(shí),遠(yuǎn)超國(guó)內(nèi)任何語音公司使用的語料規(guī)模。

“最終,輸入法的未來將會(huì)走向自動(dòng)問答和智能回復(fù)。”王小川表示,輸入法未來不再局限于簡(jiǎn)單工具,借助于人工智能技術(shù)的發(fā)展與海量數(shù)據(jù)積累,除了可以與用戶做更加自然的交互,甚至還能幫助用戶做決策。他現(xiàn)場(chǎng)演示了搜狗輸入法的自動(dòng)問答和智能回復(fù)功能:當(dāng)用戶想要約朋友吃飯時(shí),直接在輸入框輸入餐廳名稱,輸入法就能自主找到餐廳的相關(guān)信息,并能夠快速分享到對(duì)話中;如“你回公司了嗎”“文件什么時(shí)候發(fā)我”此類問題,輸入法甚至能夠直接提供備選答案,用戶直接點(diǎn)選就能快速回復(fù),極大地提升了用戶表達(dá)和獲取信息的效率。

最后王小川總結(jié)道:“搜狗做的工作本身是讓表達(dá)和獲取信息更簡(jiǎn)單,未來時(shí)代里,為了讓人機(jī)交互和自動(dòng)問答做得更好,我認(rèn)為有兩個(gè)核心:一是自然交互,讓人與機(jī)器可以進(jìn)行完整的對(duì)話。二是知識(shí)計(jì)算,為了實(shí)現(xiàn)自然交互,背后核心的是要在自然語言里對(duì)知識(shí)能夠建模,對(duì)知識(shí)能夠計(jì)算?!睋?jù)悉,今年搜狗捐贈(zèng)1.8億給清華,聯(lián)合成立天工研究院,將通過公開更多的數(shù)據(jù),與高校間進(jìn)行聯(lián)合研究,使搜狗搜索、搜狗輸入法在人機(jī)交互方面做出更大突破。

以下為演講全文:

今年大家提人工智能,搜狗公司也在做人工智能。有些媒體朋友說,“你們是要轉(zhuǎn)型做人工智能嗎?”我聽完覺得需要做一點(diǎn)解釋。因?yàn)樽鳛橐粋€(gè)做搜索的公司,本身對(duì)于技術(shù)的使用是蠻多的,不管是從大數(shù)據(jù)、云計(jì)算還是到今天的深度學(xué)習(xí),武裝到牙齒的使用,本身我們的技術(shù)走多遠(yuǎn)我們的業(yè)務(wù)就能走多遠(yuǎn)。不同人對(duì)人工智能有不同的定義方法,我更多希望在技術(shù)之外從產(chǎn)品的角度理解人工智能有什么樣的價(jià)值,我把人工智能分為三個(gè)應(yīng)用領(lǐng)域,這和廣泛的分類方法不一樣:一是識(shí)別,二是生成,三是決策。

這樣一個(gè)分法描述了今天主流發(fā)展中的突破點(diǎn)。比如從2012年ImageNet的發(fā)展上看,圖片的識(shí)別開始有了很大的提升。從這兩天微軟重磅的講語音識(shí)別已經(jīng)真正超過了人,這是一個(gè)識(shí)別領(lǐng)域的進(jìn)展。因此在學(xué)術(shù)領(lǐng)域,我覺得做決策、做識(shí)別和做生成都是同等重要的,我想給大家一個(gè)判斷,在這三個(gè)領(lǐng)域里,如果作為一個(gè)企業(yè),把它變成市場(chǎng)價(jià)值,識(shí)別和生成本身很難背后有一個(gè)強(qiáng)的商業(yè)模式,而只有做決策才能變成商業(yè)智能里一個(gè)核心的過程,這是我想給大家分享的。

投資界有的時(shí)候說,誰做的圖片識(shí)別特別好,做個(gè)語音識(shí)別特別好,就暢想在未來有什么樣的價(jià)值,這是很危險(xiǎn)的事情。所以我們看到很多做圖像和做語音識(shí)別的公司拿了很好的技術(shù)或成果推向市場(chǎng)后,并沒有找到很好的應(yīng)用場(chǎng)景,或者做一個(gè)安防,并不能創(chuàng)造一些直接的價(jià)值,就把它給賣掉了,或者做一些簡(jiǎn)單的to B的 License fee,所以,這里面最重要的一點(diǎn),是機(jī)器能夠幫助我們做決策,這個(gè)事情是三個(gè)里面的商業(yè)價(jià)值是最大的。

剛才我們提到有幾個(gè)明顯的概念,大家已經(jīng)聽到爛熟。像大數(shù)據(jù)、云計(jì)算和人工智能。其實(shí),我們做搜索、做輸入法都會(huì)用到這里面的核心技術(shù),只是很難總結(jié)說這個(gè)事。簡(jiǎn)單講搜狗這樣的狀態(tài),我會(huì)進(jìn)入下面對(duì)未來的思考。從搜狗現(xiàn)在而言,我們已經(jīng)有巨大的用戶規(guī)模,我們的用戶規(guī)模在PC里是在中國(guó)排第一名的。在無線領(lǐng)域里,大家可能想不到搜狗輸入法APP這一款產(chǎn)品是在整個(gè)APP用戶規(guī)模里排第三,排第一第二的是微信和QQ。

為什么提這樣一些概念呢?是因?yàn)槲覀兊挠脩粢?guī)模雖然大,但是輸入法本身不是一個(gè)做決策的機(jī)器。因?yàn)楫?dāng)用戶想輸入什么東西的時(shí)候它就會(huì)給你精確的結(jié)果。如果你輸入騰訊,它一定不會(huì)給你出阿里。你輸入淘寶不會(huì)給你出京東。對(duì)于輸入法而言,它是精確的把用戶的需求做一個(gè)翻譯的過程,所以它不是決策的機(jī)器,所以商業(yè)價(jià)值低。但搜索引擎不是,它本身是根據(jù)你的關(guān)鍵詞或概念后幫你做分析判斷。所以,PC上我們排第三名的位置,在無線里順利達(dá)到了第二,現(xiàn)在有36%的市場(chǎng)份額。

現(xiàn)在大家數(shù)互聯(lián)網(wǎng)上盈利的公司有多少呢?如果我們把游戲公司剖掉就知道有BAT、360、搜狗,再數(shù)出幾家盈利的公司都會(huì)很困難。我們?cè)谌ツ昕克阉饕鎰?chuàng)造了1億多美金的利潤(rùn)。因此,在今天的前提條件講完后,我想說明什么事?搜索本身是商業(yè)模式極好的互聯(lián)網(wǎng)應(yīng)用,最近5月份出了百度這個(gè)事以后,一提搜索廣告大家就有負(fù)面的想法,其實(shí)廣告本身沒有錯(cuò)誤,Google也在廣告上用得很好。所以,既要商業(yè)模式好又要快速盈利,這件事情是搜索重要的意義。

今天我想和大家分享的第一個(gè)觀點(diǎn):搜索的未來就會(huì)成為人工智能未來的明珠,這是我的核心論點(diǎn)。所以,今天的搜索已經(jīng)用了人工智能,未來也是核心,怎么理解這件事情?大家會(huì)問,搜索的未來是什么,人工智能的未來是什么,怎么就明珠了?我們以前講到AlphaGo是有一些智能,但它是偏專項(xiàng)的,而且是和自然語言沒有關(guān)系的。另外我們看到的圖靈測(cè)試是對(duì)智能方面的理解,今天我不給大家展開這樣一個(gè)概念,我更多想說,從難度上人工智能要解決三個(gè)事情:一是語音,二是圖像,三是自然語言的處理。哪個(gè)最難?我們以前發(fā)現(xiàn)發(fā)展的最早的是自然語言的處理,語音和圖像很長(zhǎng)時(shí)間本身的處理很差,所以我們覺得自然語言簡(jiǎn)單一些,特別是符號(hào)主義的情況下,覺得語音圖像更難。但最近幾年人工智能發(fā)展,我們很好的解決了語音和圖像的問題,它的識(shí)別率和生成能力得到了提高,但自然語言的處理發(fā)展的反而更慢。是因?yàn)槲覀兛吹?,深度學(xué)習(xí)帶來的對(duì)一種感性的理解已經(jīng)到了一個(gè)高度,但反過來由于自然語言本身中間對(duì)人的概念符號(hào)怎樣和深度學(xué)習(xí)結(jié)合是更難的事情。因此,這件事情的突破會(huì)比語音和圖像更難。

簡(jiǎn)單講搜索的未來是什么?我先做一個(gè)簡(jiǎn)單的回答,就是問答機(jī)器人。搜索未來是做問答的。怎么看這件事情?今天我們的搜索是從關(guān)鍵詞到10條的搜索結(jié)果。我曾經(jīng)觀察過,在1999年到2000年的時(shí)候,搜索剛剛誕生,這個(gè)時(shí)候大家用搜索的用法不是輸入關(guān)鍵詞的,我當(dāng)時(shí)在chinaRen曾經(jīng)做了一個(gè)孫悟空搜索之后,我找了第一個(gè)用戶來用,我說這是一個(gè)搜索引擎,你試著在這上面提問。他問的第一個(gè)問題,“我今天美嗎?”我立刻就覺得很崩潰。在我心中已經(jīng)覺得它是一個(gè)檢索的系統(tǒng)。所以,經(jīng)過好多年的教育后,今天的用戶已經(jīng)懂得了用關(guān)鍵詞來尋找他需要的答案。有一個(gè)數(shù)據(jù)統(tǒng)計(jì),關(guān)鍵詞之外大家會(huì)加空格把它變成一個(gè)符合的搜索,單關(guān)鍵詞的搜索量占整個(gè)搜索的97%,只有3%的搜索是在關(guān)鍵詞間加了空格,所以在座的各位可能更多是這種高知群體,我們不管對(duì)搜索技術(shù)有多么理解,但是我們自己已經(jīng)懂得怎樣去描述自己的這樣一個(gè)表達(dá),用關(guān)鍵詞+空格的形式來翻譯自己的想法獲得答案。

但這個(gè)系統(tǒng)在今天夠好嗎?還有什么改進(jìn)空間嗎?我和一些朋友聊的時(shí)候,他們也提到說,我們能不能把它做得更個(gè)性化,通過個(gè)性化能夠使搜索品質(zhì)獲得提升?我說這個(gè)答案其實(shí)是不對(duì)的。第一,搜索引擎本身通過關(guān)鍵詞輸入就隱含了個(gè)性化的因素。以前個(gè)性化是首先分男女,但你看關(guān)鍵詞在很大層面上就能看出男女來,當(dāng)你查一個(gè)包包品牌的時(shí)候更有可能是女性,當(dāng)你查一個(gè)足球運(yùn)動(dòng)的時(shí)候更有可能是男性。所以,用搜索引擎的時(shí)候個(gè)性化對(duì)它的幫助是有限的。更重要的一件事情是,即便有了個(gè)性化,我并不認(rèn)為我們就能夠知道用戶在表達(dá)什么。

如果今天大家好奇,你問一個(gè)詞,問搜索引擎王小川?那搜索引擎能夠給你什么答案呢?或者你問我本人“王小川”這三個(gè)字,其實(shí)我不知道你要什么,即便我和你再熟悉,我也不知道你的判斷,我只能告訴你,把我的百科給你,把我的新聞給你,把我最新的一些活動(dòng)的事情給到你,因?yàn)槲也恢滥阆胍裁础;蛘吣銌査压罚易疃嘣侔压倬W(wǎng)給你。這是因?yàn)橥ㄟ^一個(gè)關(guān)鍵詞的檢索,里面的信息量損失是非常大的。我只能通過給你更多的結(jié)果試圖來測(cè)測(cè)你想要什么,因此整個(gè)系統(tǒng)的改進(jìn)空間不是在個(gè)性化或者是在精準(zhǔn)算法上就能得到的,這件事也是因?yàn)槲覀兊妮斎刖褪且粋€(gè)具體的詞不夠。

也有說我們改進(jìn)的時(shí)候是不是通過語音搜索能夠更好?最近語音發(fā)展得很快,在資本市場(chǎng)開始提語音,這其實(shí)也是一個(gè)錯(cuò)誤的理解。如果用文字輸入王小川三個(gè)字或者用語音輸入王小川三個(gè)字本質(zhì)上差不多,最多語音輸入帶一個(gè)口音,一聽你是四川人,能夠知道是我的老鄉(xiāng),給你的結(jié)果能夠不一樣一點(diǎn),但其實(shí)本質(zhì)上是沒有一個(gè)明顯的進(jìn)步的。

真正的進(jìn)步在哪里?我給大家舉個(gè)例子。這個(gè)例子我們是在向喬布斯致敬,以前我們懂得用鼠標(biāo)和機(jī)器做交互,覺得很方便。但做手機(jī)的時(shí)候,當(dāng)喬布斯拿出第一款iPhone的時(shí)候,也不需要鼠標(biāo),也不需要筆,他強(qiáng)調(diào)的就是用你的幾個(gè)手指來和機(jī)器進(jìn)行互動(dòng)。所以,走向了一個(gè)更自然的交互的方式。iPhone這樣一種交互已經(jīng)形成了行業(yè)中一種風(fēng)潮,包括iPad,大家都懂得用手做交互,甚至一個(gè)三歲的小孩都能學(xué)會(huì)。我曾經(jīng)見一個(gè)案例,一個(gè)三歲的小孩子走到電視機(jī)面前,就像用iPad一樣用手劃電視機(jī)的屏幕想去換臺(tái),大家知道會(huì)失敗,所以他說,“媽媽,我們的電視機(jī)壞了”。這時(shí)候大家就知道自然交互能夠帶來多大的魔力,使得三歲的小孩子都能夠?qū)W會(huì),這就是和物理世界和自然世界更相關(guān)的模式。在這種情況下,我們認(rèn)為搜索未來的方向會(huì)走向提問,它的核心問題不是語音,也許語音提問是最方便的,而是讓人用最自然的方式能夠和機(jī)器做交互。所以兩層含義達(dá)到了:第一件事情是我們的人更加自然,第二件事是機(jī)器也獲得更多的信息,幫助它做判斷。你可以問,王小川你今年多大了,你這個(gè)問題提出后,機(jī)器就會(huì)有一個(gè)明確的答案,否則要我猜你,即便我是你肚子里的蛔蟲,我也不知道你要什么。

因此今天搜索的趨勢(shì)就從問題走向更精確的回答。這里是怎樣的思考?在很多年來,如果你不用問題,只用詞我沒有辦法給你好的答案,因?yàn)槲也恢滥阋裁?。但即便你提問題,對(duì)不起,以今天的人類技術(shù)依然沒法給你好的答案,因?yàn)闄C(jī)器聽不懂,不知道你在說什么。這件事情使得機(jī)器本身的這樣一個(gè)技術(shù)的瓶頸把我們推向了左面的關(guān)鍵詞到十個(gè)結(jié)果這樣一個(gè)路徑。我們已經(jīng)看到了一個(gè)苗頭,隨著對(duì)自然語言處理開始加強(qiáng),我們從NLP走向NLU,我們開始有機(jī)會(huì)做問答。所以google也在講,未來的搜索引擎70%的搜索是會(huì)直接給答案,其實(shí)它潛藏了一個(gè)概念,70%的搜索用戶是在提問題。因此在這個(gè)領(lǐng)域里,我們可以看到各家公司已經(jīng)扎進(jìn)去了,最早進(jìn)去的是Siri,之后是微軟的Cortana,然后是亞馬遜的Echo,最后還有g(shù)oogle推的Assistant這樣的系統(tǒng)。所以,我們好奇一件事,為什么不是Google第一個(gè)推這個(gè)系統(tǒng),因?yàn)槲覀儎偛诺睦斫饬?,Google離這件事情是最近的,而變成了蘋果在做。我在里面的思考是兩種可能性:一種原因是因?yàn)樘O果公司的技術(shù)基因不夠,所以它以為這件事情是更快達(dá)到效果所以搶這樣一個(gè)產(chǎn)品的發(fā)布,在發(fā)布后其實(shí)蠻被動(dòng)的。蘋果在發(fā)布后,不斷的收購(gòu)自然語音特別是做問答、做對(duì)話的這些公司,比如像英國(guó)劍橋的公司,一個(gè)叫做VoiceIQ的東西蘋果就收了,收了以后發(fā)現(xiàn)這些人迅速的離職,離職后再創(chuàng)一個(gè)公司,又做自然語言處理,蘋果又收進(jìn)來,不斷的迭代的過程,因?yàn)樗裉斓募夹g(shù)還沒有解決好。第二種原因,我理解是蘋果知道自己的技術(shù)不夠,但喬布斯有他的這樣一個(gè)愿望,是在他的有生之年能夠把這種終極的人機(jī)交互模式給推出來。我們大家記得Siri是什么時(shí)候發(fā)布的嗎?是在蘋果的iPhone 4S發(fā)布的,喬布斯是躺在病床上看現(xiàn)場(chǎng)的直播,他已經(jīng)沒有能力發(fā)布這款產(chǎn)品,這個(gè)產(chǎn)品發(fā)布后的幾天他就過世了。所以在我內(nèi)心的另外一個(gè)感受這是他的遺愿,他知道我們發(fā)明了手機(jī),我們開始懂得了用手指交互后,下一個(gè)人類最重大的事情是用語言的方式去提問,去命令這樣一臺(tái)機(jī)器。所以,由于自己的時(shí)間已經(jīng)不長(zhǎng)了,提前早產(chǎn)把這樣一個(gè)產(chǎn)品發(fā)布向市面,所以我想這是對(duì)問答機(jī)器背后重要性的理解。

事實(shí)上我們?cè)谌舾傻目苹米髌防锒紩?huì)看到我們?cè)诳苹美锩孀顦O致的對(duì)技術(shù)理解,就是在做問答的機(jī)器。從《星球大戰(zhàn)》里的機(jī)器人,再到《超能陸戰(zhàn)隊(duì)》里的大白,再到《星際穿越》里的機(jī)器,里面都強(qiáng)調(diào)一個(gè)很聰明的機(jī)器,人類幻想中無外乎是這樣的智慧。還有一本書我很喜歡,是阿西莫夫?qū)懙?,他寫了很多?jīng)典的小說,包括《基地三部曲》。他有一篇超短篇的小說《最后的問題》,這個(gè)問題描述的是人類竭盡所有的技術(shù)潛力去制造一臺(tái)能回答問題的機(jī)器,當(dāng)我們是一個(gè)國(guó)家的時(shí)候我們集國(guó)家的力量造這臺(tái)機(jī)器,當(dāng)人類已經(jīng)把地球統(tǒng)一了之后,集地球的力量造這臺(tái)機(jī)器,通過光纖做連接,給它輸入大量的能源,把人類全部的知識(shí)給輸入進(jìn)去,當(dāng)我們控制了銀河系之后,我們把銀河系的能力用來造這臺(tái)問答機(jī),當(dāng)人類控制整個(gè)宇宙的時(shí)候造一臺(tái)宇宙的機(jī)器,甚至人類已經(jīng)把宇宙機(jī)器送到異次元的空間里,讓它不斷的做回答。

這個(gè)故事的精妙之處是這臺(tái)機(jī)器一直有一個(gè)問題它回答不了,那就是宇宙會(huì)怎么毀滅和重新起源。因?yàn)榇蠹抑?,如果宇宙能量?huì)守恒,熵值會(huì)單增,最多會(huì)陷入宇宙的無序,無序后宇宙怎樣重新誕生。這個(gè)機(jī)器一直回答不了這個(gè)問題,不管是地球的機(jī)器還是銀河系的機(jī)器,還是宇宙的機(jī)器都回答不了這個(gè)問題。這個(gè)機(jī)器都一直說,對(duì)不起,這個(gè)問題我不知道答案。到最后整個(gè)人類把整個(gè)宇宙的資源都消耗掉后滅亡了,這個(gè)機(jī)器還在宇宙的異次元空間中運(yùn)轉(zhuǎn),有一天這個(gè)機(jī)器突然說,我找到答案了,我知道宇宙是怎么毀滅和怎么誕生的,然后他說了三個(gè)字,“要有光”,就講到《圣經(jīng)》的起源,怎么創(chuàng)造宇宙。所以,這個(gè)故事,我想強(qiáng)調(diào)的一個(gè)核心要點(diǎn),就是人類對(duì)于未來幻想里面最重大的一件事情就是制造一個(gè)能回答問題的機(jī)器。今天在這個(gè)領(lǐng)域里,我依然堅(jiān)信,以Google為代表的搜索引擎會(huì)走在最前面。因?yàn)閺膭?chuàng)新者窘境的角度談,搜索引擎本質(zhì)工作就是在解決用戶提問題,它能夠給你提供信息和答案的這樣一個(gè)商業(yè)模式。所以,我不能指望蘋果和其他公司在這里面有一個(gè)超越,因?yàn)橹灰夹g(shù)走多遠(yuǎn),搜索引擎就會(huì)發(fā)展到多高,這是我想給大家講到人工智能未來的發(fā)展和搜索未來的發(fā)展之間,是在問答領(lǐng)域里會(huì)有重新的合體,這也是我們努力的一個(gè)方向。

搜狗本身在做這個(gè)使命的時(shí)候,一直以來,就定義的是讓表達(dá)和獲取信息更簡(jiǎn)單。獲取信息是我們講的搜索引擎,表達(dá)是我們提到的這樣一個(gè)輸入法。輸入法未來有什么樣的發(fā)展空間呢?其實(shí)輸入法本身也同樣是大數(shù)據(jù)、云計(jì)算、人工智能的產(chǎn)物。搜狗輸入法是2006年誕生的,我們先做搜索后做輸入法。輸入法一面市的時(shí)候就比同時(shí)代的輸入法有巨大的跨越,本質(zhì)原因就是我們利用輸入法,把整個(gè)互聯(lián)網(wǎng)上的中文網(wǎng)頁(yè)都做了檢索,在里面把詞的詞頻和詞的句法關(guān)系做了統(tǒng)計(jì)分析。所以,當(dāng)時(shí)問我們這個(gè)原理的時(shí)候,我們說把整個(gè)互聯(lián)網(wǎng)作為我們的數(shù)據(jù)庫(kù)來做輸入法。到后來我們提到了一個(gè)更簡(jiǎn)單的詞,今天這個(gè)詞可能已經(jīng)過時(shí)——就是大數(shù)據(jù)。其實(shí)輸入法本身是一個(gè)大數(shù)據(jù)的產(chǎn)物,用搜狗輸入法的人在PC、手機(jī)里都會(huì)看到一個(gè)特點(diǎn),有的時(shí)候如果輸詞,結(jié)果結(jié)果執(zhí)行度不高,會(huì)突然出現(xiàn)一個(gè)新的結(jié)果,上面畫了一個(gè)小云的標(biāo)記,這就是用的云計(jì)算。因?yàn)檩斎敕ū旧碓诒镜匚覀冎挥昧?0兆的存儲(chǔ)量,大概裝了40萬個(gè)詞,這是經(jīng)過計(jì)算后,在詞庫(kù)大小和性能中做的平衡。如果本機(jī)解決不好的時(shí)候,我們有執(zhí)行度,如果本機(jī)的詞頻不夠滿意,這時(shí)候就會(huì)把輸入的拼音串提交到服務(wù)器上,服務(wù)器的存儲(chǔ)量和計(jì)算能力是單個(gè)PC的幾十倍上百倍,在這個(gè)平臺(tái)里面能夠用更復(fù)雜的語言模型給你提供更好的結(jié)果,這是云計(jì)算的產(chǎn)物。

今天我們講到人工智能也是給搜狗這樣的機(jī)會(huì)。但用輸入法的時(shí)候,我們提供兩個(gè)能力,也是最近三年來有高速的發(fā)展。一是語音識(shí)別。所以用我們輸入法的時(shí)候,前兩天在錘子的發(fā)布會(huì)上(錘子)和訊飛有一個(gè)合作,談到用語音,現(xiàn)在是一個(gè)主流的輸入方法。我們?cè)谶@里面從2011年到現(xiàn)在也做了五年的時(shí)間,也很簡(jiǎn)單,我們?cè)谶@里面有幾個(gè)得天獨(dú)厚的條件:有最大的數(shù)據(jù)資源和最多用戶的使用,再加上把領(lǐng)先的算法移植到這個(gè)程序里去。今天搜狗輸入法的語音識(shí)別量能夠到一天是1.8億次語音識(shí)別,還在慢慢的上升。一天語音識(shí)別用戶輸入的小時(shí)數(shù),是在57到58萬個(gè)小時(shí)之間,一天用戶的輸入這樣一個(gè)數(shù)據(jù)量就比我們現(xiàn)在全中國(guó)所有公司用來做語音識(shí)別標(biāo)注的這樣一個(gè)數(shù)據(jù)的時(shí)長(zhǎng)都還要長(zhǎng)。所以,搜狗在這個(gè)過程中攢了最多的用戶需求和最好的這樣一個(gè)數(shù)據(jù)的資源,理所當(dāng)然,我們就能把這樣一個(gè)服務(wù)推到一個(gè)高處去。

另外一個(gè)功能大家用的比較少的是OCR,我們講的是圖像處理。你拍一段文字,不管中文還是英文的,一掃描就能作為一個(gè)輸入的源頭。所以當(dāng)我們問搜狗輸入法未來的發(fā)展方向,大家容易去想,往下怎么走,語音輸入和圖像輸入,包括我們內(nèi)部也有系統(tǒng)拍一張照片就能做caption把它的標(biāo)題取出來,我們?cè)谛袠I(yè)里做研究的時(shí)候看到了這樣一些生成文字的方法,但是我想告訴大家,語音輸入和圖像輸入都不是我心中認(rèn)為輸入法最核心的發(fā)展方向。

這個(gè)是視頻里的一張圖片,如果當(dāng)你看一個(gè)圖片,你的女朋友發(fā)一個(gè)圖片給你,問,好看嗎?你怎么回復(fù),你會(huì)回復(fù)說,這個(gè)飛鳥還有夕陽(yáng)真是太好看了,這個(gè)在撩妹上效果就不太好。所以你如果能夠發(fā)給她一段詩(shī)詞,大家會(huì)覺得你特別有文采。所以,在輸入法里面,我們真正讓它對(duì)語言有更多的了解,而不是在拼音或者走語音的方法在做輸入,這是我們?cè)诶砟钌系倪M(jìn)展。

我們做的工作本身是讓表達(dá)和獲取信息更簡(jiǎn)單,未來時(shí)代里,為了實(shí)現(xiàn)讓人機(jī)交互和自動(dòng)問答做得更好,我們認(rèn)為有兩件核心的事:一件事情是自然交互,剛才我們提到了,完整的對(duì)話的語言溝通,這是我們和機(jī)器打交道終極的理想,喬布斯有他的遺愿在,我們一起去實(shí)現(xiàn)這件事情。另外為了實(shí)現(xiàn)自然交互,背后核心的是要在自然語言里對(duì)知識(shí)能夠建模,對(duì)知識(shí)能夠計(jì)算,這是我想提到我們?cè)谧鏊阉骱妥鲚斎敕ɡ锩?,給研究界提供的數(shù)據(jù)和研究的一個(gè)課題。因此,今年我們和清華成立的天工研究院,核心是要公開更多的數(shù)據(jù),今年內(nèi)我們要開始開放一些語音、圖像和文字的數(shù)據(jù),能夠和高校形成更好的聯(lián)合研究,使得我們從搜索、輸入法走向一個(gè)人機(jī)互動(dòng)的未來,也特別希望未來跟各位學(xué)術(shù)界的同仁們有更好的合作,互相的支持。

版權(quán)聲明:本站所有文章皆是來自互聯(lián)網(wǎng),如內(nèi)容侵權(quán)可以聯(lián)系我們( 微信:bisheco )刪除!

相關(guān)推薦

友情鏈接
幣圈社群歐易官網(wǎng)
云南省| 尉氏县| 永修县| 隆昌县| 武隆县| 西青区| 仁怀市| 阿鲁科尔沁旗| 黄骅市| 喜德县| 灵璧县| 沧州市| 吉木乃县| 浦北县| 乌恰县| 长海县| 宽甸| 永城市|