国产精品丝袜肉丝出水好看到停不下来,久久精品福利中文字幕

首頁>即刻 > 正文

在網(wǎng)易有道做語音算法工程師是一種怎樣的體驗？

發(fā)布時間：2023-03-12 08:14:56 來源：騰訊云

魚羊發(fā)自凹非寺量子位報道 | 公眾號 QbitAI

一個成立不到兩年的團隊，兩個初入職場的新人，殺入頂會挑戰(zhàn)賽能拿下怎樣的成績？

時限是，10天。

近日，全球語音頂會INTERSPEECH 2020「口音英語語音識別挑戰(zhàn)賽」結(jié)果公布，一支名叫「大耳朵圖圖喵喵喵」的團隊摘下了兩大賽道的第二名和第三名。

(資料圖片僅供參考)

參賽選手是這位：

△大耳朵圖圖本喵

啊不，其實來自他們當中。

說起網(wǎng)易有道與AI語音技術(shù)相關(guān)的產(chǎn)品，大家或許都不陌生，比如丁磊多次安利、上市都帶著的有道詞典筆……

相比在市場上取得的認可，許多人可能不會想到，有道AI語音背后的團隊非常年輕：成立不到兩年，大部分都是應屆生，來自知名語音實驗室，或者海外高校深造項目。

「參賽其實是驗證技術(shù)方案」

此次拿獎的時來和Harry Wu（均為花名），就是今年7月剛剛加入網(wǎng)易有道的應屆生。

事實上，打這場比賽，對于他們而言更像是一次對工作成果的「突擊測驗」：被通知要參賽時，距離提交測試結(jié)果的截至日期只剩下10天了。

時間緊迫，兩人臨時組隊，又是代表團隊第一次出征算法賽事，但在心態(tài)上他們倒還真一點也不慌。

用有道之前積累的技術(shù)去參賽，10天也足夠了。攻堅克難了這么久，是時候拿出來檢驗一下了。

INTERSPEECH 2020「口音英語語音識別挑戰(zhàn)賽」由中國計算機學會、西北工業(yè)大學、上海交通大學、新加坡南洋理工大學等多家重量級機構(gòu)聯(lián)合舉辦，共分為兩個賽道：

Track1是口音種類識別，參賽者需要使用官方提供的各種口音英語訓練數(shù)據(jù)，訓練語種分類模型。

Track2則是口音英語語音識別，參賽者需要使用規(guī)則限定的訓練數(shù)據(jù)，訓練語音識別模型。

簡單來說，一方面是要做英語口音的分類，另一方面是要做語音識別，把帶口音的英語語音轉(zhuǎn)成文字。

時來和Harry的工位就挨在一起，兩人當即一合計，覺得在語音識別方面，基本可以原封不動地用上現(xiàn)成的技術(shù)——有道詞典、精品課、云筆記等一系列產(chǎn)品里都有ASR技術(shù)的身影，平時的研發(fā)工作中，早已經(jīng)考慮到了復雜口音的情況，識別準確率和響應速度都是經(jīng)過實戰(zhàn)檢驗的。

而在口音分類這個比較新穎的任務上，他們正在研究中的多語種技術(shù)方案正好能夠派上用場：

原來會覺得相關(guān)的技術(shù)方案還處在實驗室階段，要實際應用起來還需要學術(shù)界進一步驗證。但既然比賽有這個機會，正好可以拿這個方法試驗一下。

程序員打比賽，就是直接開干，效率拉滿——就在工位上隨時討論。而事后兩人回想起來，印象最深的不是時間有多緊、加了多少班，恰恰是設(shè)計算法、測試結(jié)果的這個過程：

一開始，在口音分類這個全新的任務上，兩人想到這會跟說話人的特征有比較強的相關(guān)性。而在引入這一信息之后，他們的方案還真在開發(fā)集上取得了令人驚喜的效果。

但在測試集開放之后，進一步的驗證結(jié)果卻差強人意。直到比賽結(jié)束，測試集公布，他們才發(fā)現(xiàn)測試集里說話人的數(shù)目，是訓練集和開發(fā)集加起來的差不多10倍，即一個說話人非常復雜的場景。

雖說碰上了這樣那樣的小波折，但其實對于兩位語音算法工程師而言，這反而更加堅定了他們攻關(guān)AI語音技術(shù)的決心：語音領(lǐng)域技術(shù)相對成熟，但遠沒有到「做完了」的程度，現(xiàn)實的復雜場景、各種各樣的噪音、方言口音，都仍有值得鉆研之處。

至于最后的結(jié)果，其實可以說是「兩全其美」。

雖然準備還是有些倉促，沒能拿下冠軍，但對初出茅廬的網(wǎng)易有道語音團隊而言，面對強勁的業(yè)內(nèi)對手，首次「出擊」能拿到頂會挑戰(zhàn)賽的二等獎，還是證明了現(xiàn)有技術(shù)方案可行、新的設(shè)想值得進一步推動。

另一方面，團隊組長孫艷慶也坦承，參與比賽對整個語音團隊來說，學習到了行業(yè)中新的想法和技術(shù)，打開了后續(xù)開發(fā)的新思路。

「秘訣」：技術(shù)以落地為導向

其實比起單純?nèi)ゴ虮荣?、發(fā)論文，如果和一線的開發(fā)者們多聊聊，就能明顯地感覺到，網(wǎng)易有道的這支語音團隊是非常務實的——以技術(shù)落地為導向，以用戶反饋為指標。

孫艷慶談到，在內(nèi)部，技術(shù)方案的推動一般有兩種途徑。

一種是來自業(yè)務端的需求。技術(shù)團隊要做的，是去評估現(xiàn)有的技術(shù)是否能夠解決問題，并真正落地到產(chǎn)品中，給用戶帶來優(yōu)質(zhì)的體驗。

另一種則來自于工程師們對新技術(shù)、新用戶需求的敏感度。如果判斷一種新技術(shù)會被大規(guī)模地應用，技術(shù)團隊也會提前進行相應的布局。

而評價成果的指標則更為直接：用戶體驗。

這種腳踏實地的作風，也給時來、Harry這樣的職場新人留下了深刻的印象。

我們大部分的技術(shù)，最終都會聚焦到非常具體的產(chǎn)品上面。不會去做在將來一段時間看來，意義不是很大的一些事情。技術(shù)如果只是停留在學術(shù)層面上，就沒辦法真正流行、發(fā)展起來。落地對于技術(shù)而言是一個非常非常核心的點。

解決用戶切實的問題，解決產(chǎn)品中的痛點，或許正是在這樣的導向之下，雖然團隊僅成立了不到兩年的時間，但在產(chǎn)品層面，網(wǎng)易有道在語音方面的許多技術(shù)點已經(jīng)躋身行業(yè)前列。

比如語音識別（ASR）。以網(wǎng)易有道詞典為例，對話翻譯、發(fā)音指導，各種功能的實現(xiàn)都離不開精準的語音識別。而經(jīng)過測試，有道語音識別技術(shù)在一些場景上識別準確率超過98%，并且，不止支持中文、英文，還支持日、韓、法、德等多種語言。

在語音合成（TTS）方面，有道語音合成引擎音色逼近真人，同樣支持中、英、日、韓、葡等多種語言。在過硬的技術(shù)基礎(chǔ)之上，今年9月，有道詞典還用TTS技術(shù)實現(xiàn)了王源明星語音的上線，效果受到了用戶的廣泛好評。

并且，為了更好地服務于產(chǎn)品，這支規(guī)模并不算大的團隊，覆蓋的技術(shù)點卻很全面：從錄音、拾音環(huán)節(jié)開始，到中間的語義理解，再到語音識別合成，都有涉及?？梢哉f，在技術(shù)上已經(jīng)形成了比較完整的鏈條。

把「腳踏實地」寫進價值觀的團隊

事實上，能以一支小而精的團隊支撐起復雜業(yè)務背后的核心算法，團隊內(nèi)部的氛圍是技術(shù)實力之外的另一個重要影響因素。

如果你問有道語音團隊的工程師們這支團隊的特點是什么，就能獲得這樣幾個關(guān)鍵詞：年輕、活潑、腳踏實地。

因為年輕、活潑，即使是新人融入起來也完全沒有壓力，不管是技術(shù)的交流還是平時的相處，都可以暢所欲言。

另一方面，雖然團隊成員們普遍年紀不大，卻個個「身懷絕技」。作為組長，孫艷慶認為，一個腳踏實地的團隊，應該給每個人充分的才華施展空間，而在這個空間之下，大家潛心鉆研技術(shù)，在專注于自己側(cè)重點的情況下，去突破個人的局限。

腳踏實地的價值觀延續(xù)在整個有道AI團隊。不僅是在語音方面，有道的AI能力還覆蓋神經(jīng)網(wǎng)絡翻譯（NMT）、圖像識別（OCR）和自適應教育等等。

并且，其發(fā)力深耕的這些AI技術(shù)，都切切實實落在了產(chǎn)品上，讓C端用戶有了最直觀的體驗：

NMT翻譯準確率行業(yè)領(lǐng)先，支持12種語言的中文互譯，9種語言的英文互譯。

OCR可以幫助實現(xiàn)線下學習資料在線化。對中文文本的識別準確度達到97.5％，對英語文字的識別準確度為95.3％，對中英文混合文本的識別準確度為96.2％，已經(jīng)支持102種主流語言文字識別。

AI行業(yè)已經(jīng)過了“風口飛豬”的時代，愈加務實的市場更加看重技術(shù)的落地。當泡沫散去，唯有腳踏實地的團隊才能在一代代產(chǎn)品的穩(wěn)定推出中，扎實生根。

也正是因為這樣的氛圍，在畢業(yè)之際，時來、Harry等人毫不猶豫地拒絕了其他offer，選擇加入網(wǎng)易有道。

~~嗯，一定不是因為這里經(jīng)常聚眾吸貓。~~

— 完—

本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【量子位】原創(chuàng)內(nèi)容，未經(jīng)賬號授權(quán)，禁止隨意轉(zhuǎn)載。

量子位QbitAI · 頭條號簽約作者

?"?" ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)

喜歡就點「在看」吧 !

關(guān)鍵詞：

每日必讀

熱點 精選

12.07期貨今日重點關(guān)注品種每日速訊

鋅：布局空頭的盈虧比及勝率更大。...[詳細]

穿戴式跳d放在里面逛超市的_av无码网站在线_国产午夜亚洲欧美家园美丽_久久无码一二三四_精品久久香蕉国产线看观看亚洲

在網(wǎng)易有道做語音算法工程師是一種怎樣的體驗？

魚羊發(fā)自凹非寺量子位報道 | 公眾號 QbitAI

△大耳朵圖圖本喵

「參賽其實是驗證技術(shù)方案」

「秘訣」：技術(shù)以落地為導向

把「腳踏實地」寫進價值觀的團隊

相關(guān)新聞

延伸閱讀

每日必讀

熱點 精選

12.07期貨今日重點關(guān)注品種每日速訊

12.07期貨今日重點關(guān)注品種每日速訊

穿戴式跳d放在里面逛超市的_av无码网站在线_国产午夜亚洲欧美家园美丽_久久无码一二三四_精品久久香蕉国产线看观看亚洲

在網(wǎng)易有道做語音算法工程師是一種怎樣的體驗？

魚羊 發(fā)自 凹非寺 量子位 報道 | 公眾號 QbitAI

△大耳朵圖圖本喵

「參賽其實是驗證技術(shù)方案」

「秘訣」：技術(shù)以落地為導向

把「腳踏實地」寫進價值觀的團隊

相關(guān)新聞

延伸閱讀

每日必讀

熱點精選

12.07期貨今日重點關(guān)注品種 每日速訊

12.07期貨今日重點關(guān)注品種 每日速訊

在網(wǎng)易有道做語音算法工程師是一種怎樣的體驗？

魚羊發(fā)自凹非寺量子位報道 | 公眾號 QbitAI

12.07期貨今日重點關(guān)注品種每日速訊

12.07期貨今日重點關(guān)注品種每日速訊