學霸終結者_第五卷 SIRI大戰初音娘第一百五十八章我們究竟在談些什麼_浙東匹夫

第五卷 SIRI大戰初音娘

第一百五十八章我們究竟在談些什麼

第四個、第五個、第六個，又點了百度百科詞條。

顧莫傑意淫著美好前景，簡直要獸血沸騰。

讓葉敏茹去樓下雲咖啡拿了兩個套餐，然後他在辦公室里請嚴磊邊吃邊談他的想法。

十幾億人心中的困惑，有相當大一部分是重合的。同一個問題，可能全國有幾百萬人想問。

嚴磊的話，點撥到這種程度，已經足夠顧莫傑秒懂。

在人工智慧領域，如果非要對比谷歌和百度的優劣勢，只能說：谷歌可以訓練出更精密的機器，但是不如百度那樣容易給機器學會『七情六慾』。

這是最簡單的問答型人工智慧，靠統計數據，來讓機器的回答，更貼近代表所有網民中最大眾的那一群人的意見。

嚴磊細嚼慢咽地吞下一片肥牛，喝了口飲料：

蘋果公司會做出SIRI這個人工智慧語音助手，顧莫傑是知道的。

IPHONE4明年二季度就要上市了，初心2代手機會比IPHONE4更早一兩個月。

歷史上SIRI公司成立於2007年，10年被蘋果收購后，在4S上放出了這個人工智慧產品。

一個新買手機的用戶，和初秘或者SIRI聊天的時候，問到的問題，真的是絕無僅有、從來沒有前人問過的么？

「說說吧，你對『谷歌中國五年來在華搜集的搜索數據』的用法細節，是怎麼看的。」

也就是說，在對人工智慧的遠見卓識上。哪怕拉里佩奇、扎克伯格、喬布斯，這3個大佬的見識，也比不上顧莫傑。

……

這個搜索動作的本和*圖*書質，是什麼？

嚴磊依然保持著四年前認識顧莫傑時的學者氣，不怎麼講究禮貌，就大咧咧坐在顧莫傑對面，一邊用便當，一邊閑聊。

「當然沒問題，就是如此如此，這般這般……」

當然，說句良心話，百度也沒想到。

正因為顧莫傑懂行，因為他自己就懂深度學習演算法，所以，他比別人更能領會嚴磊開出的條件誘惑力。

深度學習演算法，本該是傑夫辛頓教授提出的學說。

初音集團，在搜索上是弱項。

但是，如果按照嚴磊的說法，把谷歌中國過去五年，在中國市場上搜集到的伺服器端歷史記錄數據統統COPY過來，「填鴨式」地塞給「初秘」去學習，那麼初秘在「真正聽懂中國人講話」這個問題上，起碼可以贏得相當於額外獲得兩三年時間鍛煉的效果。

嚴磊口中提到的這個『初秘』項目，是顧莫傑從去年初心1代手機上線后，就丟給初音的人工智慧研究團隊研發的項目。

第二個搜的人，點擊了一條她參加的綜藝節目視頻。

只是在所有當老闆的人裏面，見識排世界第一。不包括和磚家們比。

初音集團在人工智慧方面的步伐，並不比蘋果公司慢。哪怕沒有別的新招，顧莫傑手下的人也能按期完成初秘。

這個思路很不錯！

這樣的大數據，只有搜索引擎服務的提供商，才擁有。或者說，只有那類公司的數據，樣本容量才足夠巨大，足夠客觀，足夠撇掉誤差。

『初秘』的開發，本來已經到了箭www.hetubook.com.com在弦上的衝刺階段。

他眉毛一挑，身子微微前傾。

但是此刻，嚴磊讓顧莫傑看到了一股更高的期待。

顧莫傑要弄的『初秘』，就是一個狙擊SIRI的存在。

恨不得現在就在老朋友拉利佩奇脊梁骨上捅一刀，然後把谷歌中國的數據資源巧取豪奪走。

但是，如果谷歌中國倒下了，這些數據再遮遮掩掩藏著，似乎就沒什麼意義了。

而用百度知道的時候，因為背後是人類在回答，所以大家都遵循了人類語言的語法。

在中國，只有百度和谷歌有這個資本。

第一個搜的人，得到結果列表后，點擊了「權寶兒」的百度百科詞條。

這時候，如果把百度搜索的雲端大數據，接為『初秘』或者SIRI的伺服器端，初秘就會知道：當下一次她的手機主人說出「權寶兒」這三個字的時候，優先把這個詞的百度百科詞條內容推送給主人——當然，是用語音閱讀的方式。

那就是因為，SIRI花了兩三年時間來「學習」、來積累和消化雲端大數據，漸漸統計出人類語言習慣。

「只要做到了這些，然後，我們的初秘肯定可以在『人話識別率』上領先SIRI至少兩年。」

「磊哥，來，好好說說你數據到手之後的詳細使用計劃。我都有點迫不及待了……」

本時空，這個機會被顧莫傑分潤了。

有了百度知道的雲端大數據之後，初秘或者SIRI再聽到手機主人的語音發問時，就可以先搜一搜這個雲端數據，看hｔtｐs://ｗwｗ.heｔubook•ｃｏｍ.ｃｏm看有沒有近似的或者重複的前人提問。

如果谷歌中國不倒下，谷歌在華的那多年數據記錄，肯定是作為商業秘密不會公開的。因為那涉及到其對中國人上網習慣的統計。如果公開了，很有可能被對手拿去，作為優化對手引擎演算法的參照物。

第三個搜的人，點擊了一條關於她的娛樂新聞。

有好演算法，有好的「數據消化效率」，卻沒有足夠的「數據飼料」去餵養這副「消化功能」極強的「胃口」。

因為早年的谷歌，壓根就沒想到去鍛煉其人工智慧的這個方面。

那些買了IPHONE4S以上蘋果手機或者IPAD3以上平板的用戶，可以通過SIRI，對機器發送語音聊天。機器會試圖模擬真人對話，並且給出使用者想搜索的內容、答案、軟體APP應用，或者幫助用戶撥打電話、尋找聯繫人等等。

比如，谷歌的演算法效率假設是10％，而谷歌的日搜索處理量是10億條，所以谷歌的人工智慧每天理論消化的問答是1億條。

要說所有互聯網大佬當中，對深度學習演算法和雲端架構的人工智慧認識程度，恐怕顧莫傑能排世界第一。

假設，因為百度的用戶容量夠大，有10萬人次搜了「權寶兒」這三個字，然後百度根據反饋統計：其中43％的人搜索后，點擊了百科詞條，22％的人，點了某娛樂新聞，17％的人……

如果初音的演算法效率更好，有20％，但初音每天的搜索處理量只有1億條，那麼初音人www.hetubook.com.com工智慧每天理論消化的問答只有2000萬，比谷歌弱了五倍。

比如一個網民，在百度上搜「權寶兒」三個字，然後彈出幾百萬個搜索結果。

「知道」，是一個比搜索更加貼近人類語言習慣的問答產品。在搜索的時候，人只會打幾個關鍵詞，很少會直接長篇大論寫一句話，寫一個用人類正常語法表述的問題。

那就是「百度知道」，以及比百度知道遜色一些的「谷歌問答」。

這一直是初音人工智慧研究院的缺憾，短板。

「你不都已經把『初秘』那個項目交給我做了么，寒假就要和IPHONE4的SIRI掰腕子了，難道就不想讓『初秘』的水平在這個節骨眼上，再上升一個台階？」

用百度，或者谷歌，搜索網頁。

一個企業人工智慧產品的強弱，受制於兩個因素。

他對後世智能手機行業發展那一點僅存的記憶，到2012年底為止。那段歷史上，蘋果公司的手機在IPHONE5這個型號上戛然而止。

剛開始，4S上的SIRI智能程度真的很低，幾乎聽不懂什麼話。還是只能和舊時代的「語音撥號助手」那樣，幫主人翻翻通訊錄、撥打一下電話為主。

一個是演算法的好壞，一個是大數據的規模。

在「知道」這個產品上，谷歌其實走得比百度慢。谷歌的強項，是「谷歌學術」那種專業標準化的問答，而缺少家長里短的日常人工智慧鍛煉。

「百度知道」日後教會了「度秘」比SIRI更能插科打諢，也只是百度發展時一招無心插柳的歪和_圖_書打正著。

如果有，直接把前人提問中的「被採納答案」推送過來、語音閱讀一遍就行了。

恐怕不盡然。

「你是說，給你弄到谷歌中國過去五年在華搜集的搜索數據，就可以幫助你提升初秘的人工智慧程度？」

其實就是一次問答。

只要顧莫傑出一筆看上去挺誠意的價碼，谷歌總部相信就會把這筆數據財富賣給初音。

「當然。問題問答型的人工智慧，本來就是要靠不斷訓練、不斷積累雲端大數據，才會回答地得越來越准、越來越接近真人思維模式。搜索、點擊，本身不就是深度學習演算法架構下，問答智能的最初淵藪么？」

但是用過IPHONE4S的用戶，恐怕都有一種記憶：

這個過程中，機器並不理解「權寶兒」這三字代表了什麼，它只是在演算法上統計了「所有曾經搜過這個詞的人，在搜索後點擊查看了哪條答案」，然後把看過人最多的那條答案，推送給最新問這個問題的人。

但是初音集團，在人工智慧的演算法領域，是強項。

嚴磊一副指點江山狀，對顧莫傑講解了一個鐘頭的技術路線梗概。

顧莫傑本該下班了，但是嚴磊的報告，成功引起了顧莫傑的注意，他決定加夜班。

而且，百度和谷歌除了搜索大數據的歷史記錄足夠龐大、完爆其他搜索服務提供商之外，他們還有一個獨門之秘，在2009年只有他們兩家形成了規模。

至於讓SIRI真的近似於人一樣和主人聊天，似乎是2012～2013年的事情了，那時候的SIRI才漸漸說話像人話。

學霸終結者

第五卷 SIRI大戰初音娘

第一百五十八章 我們究竟在談些什麼

第一百五十八章我們究竟在談些什麼