退出閱讀

學霸終結者

作者:浙東匹夫
學霸終結者 手機閱讀請點擊或掃描二維碼
手機閱讀請點擊或掃描二維碼
0%
第五卷 SIRI大戰初音娘 第一百五十八章 我們究竟在談些什麼

第五卷 SIRI大戰初音娘

第一百五十八章 我們究竟在談些什麼

第四個、第五個、第六個,又點了百度百科詞條。
顧莫傑意淫著美好前景,簡直要獸血沸騰。
讓葉敏茹去樓下雲咖啡拿了兩個套餐,然後他在辦公室里請嚴磊邊吃邊談他的想法。
十幾億人心中的困惑,有相當大一部分是重合的。同一個問題,可能全國有幾百萬人想問。
嚴磊的話,點撥到這種程度,已經足夠顧莫傑秒懂。
在人工智慧領域,如果非要對比谷歌和百度的優劣勢,只能說:谷歌可以訓練出更精密的機器,但是不如百度那樣容易給機器學會『七情六慾』。
這是最簡單的問答型人工智慧,靠統計數據,來讓機器的回答,更貼近代表所有網民中最大眾的那一群人的意見。
嚴磊細嚼慢咽地吞下一片肥牛,喝了口飲料:
蘋果公司會做出SIRI這個人工智慧語音助手,顧莫傑是知道的。
IPHONE4明年二季度就要上市了,初心2代手機會比IPHONE4更早一兩個月。
歷史上SIRI公司成立於2007年,10年被蘋果收購后,在4S上放出了這個人工智慧產品。
一個新買手機的用戶,和初秘或者SIRI聊天的時候,問到的問題,真的是絕無僅有、從來沒有前人問過的么?
「說說吧,你對『谷歌中國五年來在華搜集的搜索數據』的用法細節,是怎麼看的。」
也就是說,在對人工智慧的遠見卓識上。哪怕拉里佩奇、扎克伯格、喬布斯,這3個大佬的見識,也比不上顧莫傑。
……
這個搜索動作的本和*圖*書質,是什麼?
嚴磊依然保持著四年前認識顧莫傑時的學者氣,不怎麼講究禮貌,就大咧咧坐在顧莫傑對面,一邊用便當,一邊閑聊。
「當然沒問題,就是如此如此,這般這般……」
當然,說句良心話,百度也沒想到。
正因為顧莫傑懂行,因為他自己就懂深度學習演算法,所以,他比別人更能領會嚴磊開出的條件誘惑力。
深度學習演算法,本該是傑夫辛頓教授提出的學說。
初音集團,在搜索上是弱項。
但是,如果按照嚴磊的說法,把谷歌中國過去五年,在中國市場上搜集到的伺服器端歷史記錄數據統統COPY過來,「填鴨式」地塞給「初秘」去學習,那麼初秘在「真正聽懂中國人講話」這個問題上,起碼可以贏得相當於額外獲得兩三年時間鍛煉的效果。
嚴磊口中提到的這個『初秘』項目,是顧莫傑從去年初心1代手機上線后,就丟給初音的人工智慧研究團隊研發的項目。
第二個搜的人,點擊了一條她參加的綜藝節目視頻。
只是在所有當老闆的人裏面,見識排世界第一。不包括和磚家們比。
初音集團在人工智慧方面的步伐,並不比蘋果公司慢。哪怕沒有別的新招,顧莫傑手下的人也能按期完成初秘。
這個思路很不錯!
這樣的大數據,只有搜索引擎服務的提供商,才擁有。或者說,只有那類公司的數據,樣本容量才足夠巨大,足夠客觀,足夠撇掉誤差。
『初秘』的開發,本來已經到了箭在弦上https://m.hetubook.com.com的衝刺階段。
他眉毛一挑,身子微微前傾。
但是此刻,嚴磊讓顧莫傑看到了一股更高的期待。
顧莫傑要弄的『初秘』,就是一個狙擊SIRI的存在。
恨不得現在就在老朋友拉利佩奇脊梁骨上捅一刀,然後把谷歌中國的數據資源巧取豪奪走。
但是,如果谷歌中國倒下了,這些數據再遮遮掩掩藏著,似乎就沒什麼意義了。
而用百度知道的時候,因為背後是人類在回答,所以大家都遵循了人類語言的語法。
在中國,只有百度和谷歌有這個資本。
第一個搜的人,得到結果列表后,點擊了「權寶兒」的百度百科詞條。
這時候,如果把百度搜索的雲端大數據,接為『初秘』或者SIRI的伺服器端,初秘就會知道:當下一次她的手機主人說出「權寶兒」這三個字的時候,優先把這個詞的百度百科詞條內容推送給主人——當然,是用語音閱讀的方式。
那就是因為,SIRI花了兩三年時間來「學習」、來積累和消化雲端大數據,漸漸統計出人類語言習慣。
「只要做到了這些,然後,我們的初秘肯定可以在『人話識別率』上領先SIRI至少兩年。」
「磊哥,來,好好說說你數據到手之後的詳細使用計劃。我都有點迫不及待了……」
本時空,這個機會被顧莫傑分潤了。
有了百度知道的雲端大數據之後,初秘或者SIRI再聽到手機主人的語音發問時,就可以先搜一搜這個雲端www.hetubook•com•com數據,看看有沒有近似的或者重複的前人提問。
如果谷歌中國不倒下,谷歌在華的那多年數據記錄,肯定是作為商業秘密不會公開的。因為那涉及到其對中國人上網習慣的統計。如果公開了,很有可能被對手拿去,作為優化對手引擎演算法的參照物。
第三個搜的人,點擊了一條關於她的娛樂新聞。
有好演算法,有好的「數據消化效率」,卻沒有足夠的「數據飼料」去餵養這副「消化功能」極強的「胃口」。
因為早年的谷歌,壓根就沒想到去鍛煉其人工智慧的這個方面。
那些買了IPHONE4S以上蘋果手機或者IPAD3以上平板的用戶,可以通過SIRI,對機器發送語音聊天。機器會試圖模擬真人對話,並且給出使用者想搜索的內容、答案、軟體APP應用,或者幫助用戶撥打電話、尋找聯繫人等等。
比如,谷歌的演算法效率假設是10%,而谷歌的日搜索處理量是10億條,所以谷歌的人工智慧每天理論消化的問答是1億條。
要說所有互聯網大佬當中,對深度學習演算法和雲端架構的人工智慧認識程度,恐怕顧莫傑能排世界第一。
假設,因為百度的用戶容量夠大,有10萬人次搜了「權寶兒」這三個字,然後百度根據反饋統計:其中43%的人搜索后,點擊了百科詞條,22%的人,點了某娛樂新聞,17%的人……
如果初音的演算法效率更好,有20%,但初音每天的搜索處理量只有1億條,那麼初音hetubook•com.com人工智慧每天理論消化的問答只有2000萬,比谷歌弱了五倍。
比如一個網民,在百度上搜「權寶兒」三個字,然後彈出幾百萬個搜索結果。
「知道」,是一個比搜索更加貼近人類語言習慣的問答產品。在搜索的時候,人只會打幾個關鍵詞,很少會直接長篇大論寫一句話,寫一個用人類正常語法表述的問題。
那就是「百度知道」,以及比百度知道遜色一些的「谷歌問答」。
這一直是初音人工智慧研究院的缺憾,短板。
「你不都已經把『初秘』那個項目交給我做了么,寒假就要和IPHONE4的SIRI掰腕子了,難道就不想讓『初秘』的水平在這個節骨眼上,再上升一個台階?」
用百度,或者谷歌,搜索網頁。
一個企業人工智慧產品的強弱,受制於兩個因素。
他對後世智能手機行業發展那一點僅存的記憶,到2012年底為止。那段歷史上,蘋果公司的手機在IPHONE5這個型號上戛然而止。
剛開始,4S上的SIRI智能程度真的很低,幾乎聽不懂什麼話。還是只能和舊時代的「語音撥號助手」那樣,幫主人翻翻通訊錄、撥打一下電話為主。
一個是演算法的好壞,一個是大數據的規模。
在「知道」這個產品上,谷歌其實走得比百度慢。谷歌的強項,是「谷歌學術」那種專業標準化的問答,而缺少家長里短的日常人工智慧鍛煉。
「百度知道」日後教會了「度秘」比SIRI更能插科打諢,也只是百度發展時一招無心插柳的歪和-圖-書打正著。
如果有,直接把前人提問中的「被採納答案」推送過來、語音閱讀一遍就行了。
恐怕不盡然。
「你是說,給你弄到谷歌中國過去五年在華搜集的搜索數據,就可以幫助你提升初秘的人工智慧程度?」
其實就是一次問答。
只要顧莫傑出一筆看上去挺誠意的價碼,谷歌總部相信就會把這筆數據財富賣給初音。
「當然。問題問答型的人工智慧,本來就是要靠不斷訓練、不斷積累雲端大數據,才會回答地得越來越准、越來越接近真人思維模式。搜索、點擊,本身不就是深度學習演算法架構下,問答智能的最初淵藪么?」
但是用過IPHONE4S的用戶,恐怕都有一種記憶:
這個過程中,機器並不理解「權寶兒」這三字代表了什麼,它只是在演算法上統計了「所有曾經搜過這個詞的人,在搜索後點擊查看了哪條答案」,然後把看過人最多的那條答案,推送給最新問這個問題的人。
但是初音集團,在人工智慧的演算法領域,是強項。
嚴磊一副指點江山狀,對顧莫傑講解了一個鐘頭的技術路線梗概。
顧莫傑本該下班了,但是嚴磊的報告,成功引起了顧莫傑的注意,他決定加夜班。
而且,百度和谷歌除了搜索大數據的歷史記錄足夠龐大、完爆其他搜索服務提供商之外,他們還有一個獨門之秘,在2009年只有他們兩家形成了規模。
至於讓SIRI真的近似於人一樣和主人聊天,似乎是2012~2013年的事情了,那時候的SIRI才漸漸說話像人話。
  • 字號
    A+
    A-
  • 間距
     
     
     
  • 模式
    白天
    夜間
    護眼
  • 背景
     
     
     
     
     
書簽