科技入侵現(xiàn)代_第67章你們能比我更懂機(jī)器翻譯(5k)影書
:yingsx第67章你們能比我更懂機(jī)器翻譯(5k)第67章你們能比我更懂機(jī)器翻譯(5k):
“教授,你不是做語(yǔ)言翻譯的,語(yǔ)言是規(guī)則的游戲,概率這太不靠譜了。”保羅·加爾文還想再掙扎一下。
當(dāng)然他確實(shí)也不信翻譯和統(tǒng)計(jì)學(xué)能扯上什么關(guān)系。
詞語(yǔ)之間一一對(duì)應(yīng)。
英文單詞和俄語(yǔ)單詞一一對(duì)應(yīng),直接直譯,擴(kuò)充語(yǔ)料庫(kù)。
在當(dāng)時(shí)的思維里,這才是正道。
也就是所謂窮舉法。
把所有的詞語(yǔ)做好一一對(duì)應(yīng)之后,自動(dòng)翻譯也就實(shí)現(xiàn)了。
統(tǒng)計(jì)學(xué),概率游戲,不談如果林燃是對(duì)的,他們的無(wú)能會(huì)暴露無(wú)遺,光是林燃提到的改進(jìn)原理從直覺(jué)上來(lái)說(shuō)就是錯(cuò)誤的。
簡(jiǎn)單來(lái)說(shuō),反直覺(jué)。
就像在GPT大模型出來(lái)之前,大家都覺(jué)得算法最重要。
GPT出來(lái)之后,大家開(kāi)始都一窩蜂力大飛磚。
等到deepseek的時(shí)候,好像算法有點(diǎn)用。
哪怕是頂級(jí)的研究人員,也會(huì)有盲從的問(wèn)題,會(huì)有迷茫、找不到方向、走不出來(lái)的情況。
在這個(gè)計(jì)算機(jī)的混沌年代,會(huì)這樣再正常不過(guò)了。
“精確?精確意味著出錯(cuò),現(xiàn)在的計(jì)算機(jī)遠(yuǎn)遠(yuǎn)達(dá)不到精確這一點(diǎn)。
你們難道不清楚,你們?cè)?4年之所以演示出了良好的效果,是因?yàn)槟切┒碚Z(yǔ)句子是你們精挑細(xì)選出來(lái)的。
實(shí)際自然語(yǔ)言的復(fù)雜性要遠(yuǎn)超你們預(yù)期。
你們只做了語(yǔ)料庫(kù)的擴(kuò)展,規(guī)則覆蓋都沒(méi)有做,上下文依賴處理也沒(méi)有。
你們能比我更懂機(jī)器翻譯?”
林燃怒吼道:“你們做了九年都沒(méi)有進(jìn)展,現(xiàn)在立刻馬上按照我說(shuō)的去做!”
林燃的地位、實(shí)力和權(quán)力擺在這,他們根本沒(méi)有拒絕的選擇。
沃森會(huì)信林燃就不說(shuō)了,畢竟深藍(lán)項(xiàng)目才結(jié)束,國(guó)防部的麥克納馬拉那更是林燃說(shuō)什么就是什么。
你們這幫搞計(jì)算機(jī)的能比數(shù)學(xué)大師更懂計(jì)算機(jī)?
林燃在博弈論和統(tǒng)計(jì)學(xué)上展現(xiàn)出來(lái)的風(fēng)采,麥克納馬拉還沒(méi)忘呢。
IBM的CEO支持林燃,國(guó)防部部長(zhǎng)支持林燃,喬治敦大學(xué)的研究團(tuán)隊(duì)只能被按在地上摩擦。
“我們要做的一共五點(diǎn),優(yōu)化算法和規(guī)則設(shè)計(jì),擴(kuò)充語(yǔ)料和詞匯,改進(jìn)數(shù)據(jù)處理的效率,引入統(tǒng)計(jì)方法和硬件最大化利用。
其中改進(jìn)數(shù)據(jù)處理效率和硬件最大化利用由IBM方面負(fù)責(zé)。
另外三點(diǎn)則由喬治敦大學(xué)的成員們負(fù)責(zé)。
我們先來(lái)談優(yōu)化算法和規(guī)則設(shè)計(jì)。
你們一直的問(wèn)題在于,你們對(duì)于規(guī)則集的擴(kuò)張沒(méi)有引入更加細(xì)化的句法規(guī)則。
因?yàn)榇鎯?chǔ)有限,你們覺(jué)得擴(kuò)充對(duì)照詞匯庫(kù)就夠了。
實(shí)際上句法規(guī)則顯得更加重要。
你們需要做到,引進(jìn)常見(jiàn)的高頻句型。
對(duì)上下文進(jìn)行依賴處理。使詞匯翻譯考慮前后詞,通過(guò)有限的上下文窗口來(lái)減少歧義。
比如свет同時(shí)有光和世界的意思。
這個(gè)完全可以根據(jù)前詞判斷是光還是世界。”
沃森弱弱提醒道:“教授,你還會(huì)俄語(yǔ)啊?”
林燃一副理所當(dāng)然的樣子:“當(dāng)然,我都和科羅廖夫見(jiàn)了兩面,我不會(huì)俄語(yǔ)怎么和他交流的?
我同時(shí)會(huì)俄語(yǔ)、德語(yǔ)、英語(yǔ)和漢語(yǔ)。”
多語(yǔ)言大師的身份,給林燃的理論增添了幾分可信度。
在這個(gè)時(shí)代,科學(xué)家們會(huì)幾門語(yǔ)言并不奇怪。
當(dāng)然一些敏感部門會(huì)提高對(duì)你的懷疑。
以前面提到的約翰·麥卡錫為例,他就精通俄語(yǔ),從小接受俄語(yǔ)教育長(zhǎng)大,盡管他出生在阿美莉卡。
“另外翻譯過(guò)程,應(yīng)該是模塊化設(shè)計(jì),而不是簡(jiǎn)單的映射關(guān)系。
它應(yīng)該分成預(yù)處理、翻譯、后處理三部分。
預(yù)處理包括了分詞和詞形還原,翻譯才是詞典的映射,后處理是對(duì)語(yǔ)序進(jìn)行調(diào)整。
這樣來(lái)降低單次計(jì)算的復(fù)雜度,提高規(guī)則的復(fù)用率!”
林燃的話給了在座研究團(tuán)隊(duì)的成員們非常多的靈感。
就好像之前一直陷在百越的叢林里找不到出路,而現(xiàn)在天上出現(xiàn)一道光指引他們?cè)趺礃硬拍茏叱鰠擦置詫m。
大家都有點(diǎn)迫不及待去嘗試了。
所有研究人員都瘋狂在筆記本上記錄下林燃所說(shuō)的。
雖然不確定教授的方法是否管用,但有路總比之前沒(méi)有好。
再者,如果你不好好記下來(lái),到時(shí)候被開(kāi)除只是教授一句話的事。
“好了剛才我們講了一些簡(jiǎn)單的內(nèi)容,現(xiàn)在才是最難的。
因?yàn)镮BM的機(jī)器不是那么強(qiáng)大,我們只能引入一些比較簡(jiǎn)單的統(tǒng)計(jì)學(xué)方法來(lái)提高我們翻譯的準(zhǔn)確度。
我把它叫做基于頻率的詞對(duì)齊。
這也是我們引入統(tǒng)計(jì)模型的核。
我們先要手動(dòng)分析平行句子,標(biāo)注俄語(yǔ)詞或短語(yǔ)與英語(yǔ)翻譯的對(duì)應(yīng)關(guān)系。
俄語(yǔ)句子Мыговоримомире
英語(yǔ)翻譯:“Wespeakaboutpeace
對(duì)齊結(jié)果:“мы”對(duì)應(yīng)“we”
“говорим”對(duì)應(yīng)“speak”
“о”對(duì)應(yīng)“about”
“мире”對(duì)應(yīng)“peace”
然后我們需要對(duì)這種對(duì)齊的頻率進(jìn)行統(tǒng)計(jì)。
統(tǒng)計(jì)每個(gè)俄語(yǔ)詞或短語(yǔ)在英語(yǔ)中的對(duì)應(yīng)翻譯出現(xiàn)的頻率。
例如,在語(yǔ)料中,“говорим”在80的句子中翻譯為“speak”,20翻譯為“talk”。
這樣對(duì)于我們就可以構(gòu)建概率表了。
將這些概率整理成表格,供機(jī)器進(jìn)行查詢。由于內(nèi)存空間有限,我們暫時(shí)只存儲(chǔ)高頻詞對(duì),像出現(xiàn)次數(shù)前1000的詞對(duì),忽略低頻情況。
當(dāng)翻譯某個(gè)詞的時(shí)候出現(xiàn)多個(gè)選擇,就參考概率表選擇最可能的翻譯。
另外就是統(tǒng)計(jì)相鄰詞的共現(xiàn)頻率。мы經(jīng)常與говорим一起出現(xiàn),對(duì)應(yīng)Wespeak,機(jī)器在翻譯的時(shí)候則優(yōu)先選擇這個(gè)組合。
通過(guò)規(guī)則優(yōu)先處理和統(tǒng)計(jì)方法處理模糊情況的方式,來(lái)彌補(bǔ)規(guī)則的不足!”
林燃從統(tǒng)計(jì)學(xué)的角度給他們好好上了一課。
不過(guò)這只是一個(gè)開(kāi)始。
在座的研究團(tuán)隊(duì)們知道了林燃優(yōu)化策略的輪廓,具體實(shí)踐過(guò)程中還有大量的細(xì)節(jié)要進(jìn)行調(diào)整、嘗試和優(yōu)化。
不過(guò)光是現(xiàn)在所說(shuō)的引進(jìn)概率,這一點(diǎn),在座喬治敦翻譯機(jī)器的資深研究員們都有種恍然大悟的感覺(jué)。
前面講的優(yōu)化算法和規(guī)則設(shè)計(jì)什么的,他們感覺(jué)有道理,但判斷不了具體實(shí)踐是不是真的管用。
但這統(tǒng)計(jì)學(xué)方法的引入,光靠想象就知道,能夠顯著提升喬治敦翻譯機(jī)器的效果。
當(dāng)天的工作結(jié)束后,紅石基地周邊的小餐館里,加爾文和多斯特爾特坐在角落,面前是兩杯當(dāng)?shù)靥厣钠【啤?
加爾文放下筆記本,嘆了口氣說(shuō):“利昂,我們真的是蠢貨嗎?”
今天聽(tīng)完之后,加爾文都要懷疑人生了。
林燃提出了一整套的解決方案,這套解決方案里完整也就算了,其中很多點(diǎn)他們都想到過(guò),但想不到要如何實(shí)現(xiàn),另外就是一些他們連想都沒(méi)有想到的點(diǎn)。
一整個(gè)團(tuán)隊(duì)差不多快十年的研發(fā)思路,不如林燃一下午的干貨多。
加爾文已經(jīng)懷疑人生了。
“教授的想法不是超前,而是太實(shí)際了。
你會(huì)感覺(jué)天馬行空,但實(shí)際上結(jié)合在一起想想,又會(huì)覺(jué)得無(wú)比的實(shí)際。
哪怕現(xiàn)在還沒(méi)開(kāi)始,光是從教授提出的框架,我都能想到,采用這套完整方案對(duì)喬治敦翻譯機(jī)器升級(jí)后,它的效果會(huì)有多好。”加爾文接著感慨道。
現(xiàn)在他終于知道為什么NASA的研究人員和工程師能容忍林燃的毒舌了,差距太大,心服口服。
尤其統(tǒng)計(jì)相鄰詞匯共現(xiàn)頻率,這并不難想到,但他們就是想不到。
而用統(tǒng)計(jì)方法處理歧義場(chǎng)景,增加統(tǒng)計(jì)學(xué)算法,這個(gè)就他們連想都想不到。
多斯特爾特轉(zhuǎn)過(guò)頭,微微苦笑道:“我也一直在琢磨。他提出的統(tǒng)計(jì)方法,聽(tīng)起來(lái)像是天方夜譚,但結(jié)果擺在眼前。
我估計(jì)了一下,喬治敦翻譯系統(tǒng)在教授的指導(dǎo)下,質(zhì)量至少能提升一大截。
我們不需要精心準(zhǔn)備短句,它可以應(yīng)用在更廣泛的場(chǎng)景,而不是局限在軍事領(lǐng)域。”
加爾文點(diǎn)點(diǎn)頭:“是啊,我一開(kāi)始還不信,語(yǔ)言這種東西明明是規(guī)則驅(qū)動(dòng)的,怎么能靠統(tǒng)計(jì)解決?可他用事實(shí)讓我閉嘴了。
不愧是教授,教授對(duì)于本質(zhì)的洞察力是跨越領(lǐng)域的。”
多斯特爾特沉思片刻:“你說(shuō)的沒(méi)錯(cuò),感覺(jué)就好像他能看穿機(jī)器翻譯的本質(zhì)。
也許這是數(shù)學(xué)訓(xùn)練帶來(lái)的好處,我怕自己再和教授多呆一段時(shí)間,我都想去念一個(gè)數(shù)學(xué)博士了。”
加爾文驚訝地看了他一眼:“數(shù)學(xué)博士?別開(kāi)玩笑。”
多斯特爾特認(rèn)真地說(shuō):“我沒(méi)開(kāi)玩笑。
如果數(shù)學(xué)真的能夠幫助我們更好的洞察本質(zhì),我覺(jué)得去念一個(gè)統(tǒng)計(jì)學(xué)的博士未嘗不可。”
加爾文沉默了一會(huì)兒,笑道:“如果你去,我也去。”
多斯特爾特舉起啤酒都要溢出的酒杯:“為教授干杯!教授將給我們帶來(lái)勝利!”
加爾文笑著回應(yīng):“干杯!不過(guò)教授的脾氣,如果教授能溫和一點(diǎn)就好了。”
另一邊,IBM的兩位工程師卡斯伯特·赫德和彼得·謝里丹也對(duì)林燃佩服的五體投地。
卡斯伯特揉了揉太陽(yáng)穴,問(wèn):“彼得,你覺(jué)得教授的統(tǒng)計(jì)模型真能行嗎?”
彼得放下筆,笑著說(shuō):“卡斯伯特,我得坦白,一開(kāi)始我完全不看好他,可現(xiàn)在我徹底服了。教授提出的方法不但讓IBM7090的性能發(fā)揮到了極致,而且能讓翻譯從混亂的狀態(tài)至少有了概率做支撐”
卡斯伯特點(diǎn)頭:“我看喬治敦大學(xué)的那幫家伙也這么認(rèn)為的,你沒(méi)看到加爾文的態(tài)度從一開(kāi)始的質(zhì)疑到后來(lái)聽(tīng)的無(wú)比認(rèn)真。
教授的算法優(yōu)化得太完美了。”
彼得苦笑:“魔法嗎?作為這個(gè)時(shí)代最厲害的數(shù)學(xué)家之一,也許沒(méi)有之一,統(tǒng)計(jì)學(xué)對(duì)教授而言也許只是簡(jiǎn)單的數(shù)獨(dú)游戲罷了。
只是我沒(méi)想到教授能把概率論和語(yǔ)言學(xué)結(jié)合得如此巧妙,我以前從沒(méi)想過(guò)機(jī)器翻譯還能這么玩。”
卡斯伯特好奇地問(wèn):“你說(shuō)教授精通俄語(yǔ),他今天那幾句俄語(yǔ),可是標(biāo)準(zhǔn)的不能再標(biāo)準(zhǔn)了。
同時(shí)還橫跨多個(gè)領(lǐng)域,別說(shuō)IBM,整個(gè)阿美莉卡恐怕也沒(méi)有人能搞出這樣的方案。
教授會(huì)不會(huì)和蘇俄有關(guān)?”
彼得無(wú)語(yǔ)道:“蘇俄人會(huì)讓教授呆在阿美莉卡?
要是我是尼基塔,我不可能讓教授這樣的人才呆在白宮。
哪怕能從NASA獲得技術(shù)機(jī)密,但無(wú)論獲得多少技術(shù)機(jī)密,恐怕都不如教授本身有價(jià)值吧。
而且你有沒(méi)有想過(guò),如果教授沒(méi)有在NASA,而是在莫斯科和科羅廖夫聯(lián)手,你能想象這個(gè)場(chǎng)景下,阿美莉卡能贏得太空競(jìng)賽嗎?”
卡斯伯特只是想了想,就馬上搖頭:“絕對(duì)不可能。”
“所以,如果教授和蘇俄有關(guān)系,怎么可能呆在阿美莉卡。
他需要做的第一件事恐怕就是在莫斯科主導(dǎo)載人登月。”彼得笑道。
科學(xué)家通俄有可能,但擁有影響平衡能力的科學(xué)家通俄又不太可能。
如果說(shuō)他們只是佩服于林燃的學(xué)術(shù)造詣,那沃森就是全方位的佩服了。
和約翰·摩根類似。
不過(guò)沃森佩服的點(diǎn)和約翰·摩根又有所不同。
“教授,你是如何想到要通過(guò)展覽館的方式來(lái)打造企業(yè)形象呢?”沃森舉起紅酒杯,面帶微笑。
時(shí)代廣場(chǎng)邊的深藍(lán)展覽館給IBM贏得了巨大的聲望。
本來(lái)時(shí)代廣場(chǎng)一直以來(lái)都是紐約地標(biāo)式的建筑,幾乎每個(gè)到紐約的游客必打卡的景點(diǎn)。
而深藍(lán)展覽館以一種不屬于這個(gè)時(shí)代的風(fēng)格吸引了所有人的眼球。
結(jié)合里面全球僅此一份的人工智能國(guó)際象棋,能夠自動(dòng)和人對(duì)弈。
給當(dāng)下民眾的震撼是前所未有的。
阿美莉卡企業(yè)通過(guò)公開(kāi)展出的方式展示自身科技實(shí)力、宣傳自家科技產(chǎn)品的傳統(tǒng)由來(lái)已久,這樣的傳統(tǒng)可以一直追溯到英格蘭時(shí)期。
無(wú)論是最早斯蒂芬的火車還是后來(lái)的輪船,英格蘭人都是召集民眾,在報(bào)紙上大肆宣傳。
而阿美莉卡最早最成功的應(yīng)該是愛(ài)迪生的燈泡,后來(lái)貝爾的電話也是經(jīng)典案例。
但他們都只是瞬間的,只有那一個(gè)時(shí)刻,給民眾留下的印象要隨著產(chǎn)品進(jìn)入人們?nèi)粘I睿麄儾艜?huì)對(duì)企業(yè)、對(duì)品牌有一個(gè)更深的認(rèn)知。
而深藍(lán)展覽館的存在,每一個(gè)去過(guò)的民眾都會(huì)對(duì)那深藍(lán)和黑色線條組成的場(chǎng)館印象深刻。
IBM人工智能高科技的印象刻在了每一個(gè)參觀過(guò)的民眾的心里。
這對(duì)IBM都不僅僅是企業(yè)形象和人工智能捆綁這一點(diǎn)好處,這幾乎已經(jīng)奠定了,后續(xù)只要白宮下定決心要在人工智能領(lǐng)域和蘇俄爭(zhēng)個(gè)高下。
那供應(yīng)商將沒(méi)有別的選擇,只有IBM。
等于林燃的建議給IBM憑空送來(lái)一個(gè)全球最大客戶,還是動(dòng)輒數(shù)十年打底的長(zhǎng)期訂單。
約翰·摩根旗下的通用航天從NASA手里拿到訂單,好歹還給了林燃股份,沃森這可是什么都沒(méi)付出。
別說(shuō)林燃內(nèi)涵他是蠢貨,就算林燃直接指著他的鼻子這么說(shuō),他也只會(huì)說(shuō)是是是,我是蠢貨。
包廂內(nèi),服務(wù)員悄然退出,留下安靜的交談空間。
“因?yàn)槲矣X(jué)得像深藍(lán)這樣的人工智能,應(yīng)該給大眾留下足夠深刻的印象。
而不只在IBM內(nèi)部展示。
至于為什么要找藝術(shù)家來(lái)負(fù)責(zé)設(shè)計(jì),一個(gè)普通的劇院怎么配得上深藍(lán)呢?”
沃森微笑著點(diǎn)頭:“你說(shuō)的太有道理了。
我第一次看到技術(shù)方舟建成的時(shí)候,我有一種它不屬于這個(gè)時(shí)代的感覺(jué),正是有了你,才有了深藍(lán)和技術(shù)方舟的誕生。
教授,我必須敬你一杯。”
別說(shuō)什么霍金來(lái)了都得敬酒。
在林燃面前,你沃森也得給我敬酒。
沃森接著道:“教授,我代表IBM公司,向你致以最誠(chéng)摯的謝意。
不僅是深藍(lán),在喬治敦IBM項(xiàng)目中你做出的貢獻(xiàn)令人嘆為觀止。你的創(chuàng)新方法將會(huì)讓我們的機(jī)器翻譯系統(tǒng)取得了突破性的進(jìn)展。”
雖然現(xiàn)在還談不上突破性進(jìn)展,但沃森已經(jīng)有充分的信心了。
林燃點(diǎn)了點(diǎn)頭,說(shuō):“這是應(yīng)該的,另外沃森,我想無(wú)論是深藍(lán)還是喬治敦翻譯機(jī)器,我為IBM做出的貢獻(xiàn)不是金錢所能衡量的。”
林燃絲毫不謙虛。
這也讓沃森臉上的笑容僵硬住了:“教授,我們會(huì)給你一份足夠豐厚的金錢作為報(bào)酬的。”
林燃搖了搖頭:“我對(duì)金錢不感興趣。”
沃森想想也是,確實(shí)從來(lái)沒(méi)聽(tīng)說(shuō)過(guò)對(duì)方對(duì)金錢感興趣。
不過(guò)開(kāi)口就想要股份,沃森還是有些猶豫。
“教授。”還沒(méi)等沃森說(shuō)完。
林燃接著說(shuō)道:“我需要你滿足我一點(diǎn)小小的條件。
如果你無(wú)法滿足我的條件,也許我要認(rèn)真考慮和通用電氣合作的可能性了。”
通用電氣,要素察覺(jué)。
林燃和摩根家族的關(guān)系不用多說(shuō)。
沃森再清楚不過(guò)了。
而通用電氣也做計(jì)算機(jī)。
雖然通用不做大型計(jì)算機(jī),但通用的GE225系列,作為一款基于晶體管的計(jì)算機(jī),用于處理工資單、庫(kù)存管理和會(huì)計(jì)等任務(wù)。
通用電氣有這個(gè)能力,更有這個(gè)資本。
要是再加上林燃,和林燃作為大師的號(hào)召力,確實(shí)能對(duì)IBM造成巨大的威脅。
沃森的語(yǔ)氣一下就軟了下來(lái):“教授,你想要什么?”
“《MIT輻射實(shí)驗(yàn)室系列》”
?>