個人消費(fèi)類電子

您當(dāng)前所在位置：首頁 >> 新聞資訊 >> 博客文章 >> 個人消費(fèi)類電子

智能音箱方案開發(fā)

智能音箱是現(xiàn)代科技產(chǎn)物，是基于語音識別技術(shù)的音箱的衍生物。智能音箱在家庭用途十分廣泛，涉及生活許多方面，可以說智能音箱已經(jīng)進(jìn)入日常生活。智能音箱有多種功能，基本滿足了人們?nèi)粘Ｉ罘?wù)。目前的家庭智能音箱可以實現(xiàn)設(shè)置鬧鐘，點(diǎn)播音樂等功能，鏈接網(wǎng)絡(luò)后可實現(xiàn)了解未來天氣、上網(wǎng)購物、打電話等功能，另外可以連接第三方軟件，也可實現(xiàn)對家用智能電器的控制，而智能服務(wù)僅需說一句話即可實現(xiàn)叫外賣、叫服務(wù)、打車、訂餐等多種功能。對于不同年齡段的人，智能音箱也可以通過設(shè)置不同模式來實現(xiàn)較為人性化的回答，例如，智能音箱中兒童模式下語氣會更加親切，讓兒童更有親切感。

一、智能音箱的簡介

自2014年亞馬遜推出首款智能音箱Echo后，智能音箱如雨后春筍般涌現(xiàn)。在國外，亞馬遜、谷歌、微軟以及蘋果先后發(fā)布了自家的智能音箱；在國內(nèi)，百度、阿里、騰訊以及小米等企業(yè)紛紛涉足此領(lǐng)域并相繼發(fā)布自己的產(chǎn)品。不同音箱廠商的產(chǎn)品同質(zhì)化明顯，但又有所側(cè)重。京東、阿里巴巴致力于完善商業(yè)生態(tài)布局；小米致力于打造智能家居產(chǎn)業(yè)鏈；喜馬拉雅致力于音頻內(nèi)容、質(zhì)量的提高。然而，在用戶使用體驗和互動娛樂方面還有待提高。智能音箱隨著技術(shù)的發(fā)展，不論是在商業(yè)生態(tài)鏈方面，還是在智能家居產(chǎn)業(yè)鏈方面，或者在有聲資源方面，都有著良好的發(fā)展前景。

深圳智能音箱方案設(shè)計公司

二、智能音箱方案的主要技術(shù)

智能音箱的流程為語音喚醒，之后內(nèi)部處理，最后找到對應(yīng)內(nèi)容輸出，其中主要包括前端信號處理、語音喚醒、語音交互等技術(shù)。

1、前端信號處理

前端信號處理是在喚醒前進(jìn)行準(zhǔn)備工作，音箱工作時，麥列處于拾音狀態(tài)，當(dāng)接收到聲音時，對聲音進(jìn)行處理，包括語音檢測、降噪、聲源定位和波束形成四個方面。

語音檢測用來檢測出音頻信號語音段的起始位置，并過濾不相干的非語音信號，達(dá)到分離語音段和非語音段信號的目的。降噪即減少噪音對智能音箱識別的影響，包含聲學(xué)回聲消除和去混響。實際環(huán)境中存在各種各樣的噪聲，采取降噪來降低噪聲干擾，提高信噪比。由于室內(nèi)語音會被墻壁等多次反射，采集到的聲音較混雜，采用去混響來處理。聲源定位是根據(jù)麥列，確定使用者的位置?？梢杂脕碚故痉轿粺?，增強(qiáng)交互效果，也可作為波束形成的前導(dǎo)任務(wù)，確定空間濾波參數(shù)。波束形成通過利用空間濾波，將多路信號整合為一路，達(dá)到增強(qiáng)原始語音信號和抑制旁路信號的目的。

2、語音喚醒

語音喚醒又稱關(guān)鍵詞檢測，即在連續(xù)不斷的語音中將目標(biāo)關(guān)鍵詞檢測出來，一般目標(biāo)關(guān)鍵詞的個數(shù)較少。語音喚醒性能取決于喚醒率和誤喚醒率。喚醒率指將連續(xù)語流中存在的喚醒詞檢測出來的概率。語音喚醒常用的實現(xiàn)方式是dnn+hmm（深度神經(jīng)網(wǎng)絡(luò)+隱馬爾科夫模型）和lstm+ctc（長短時記憶網(wǎng)絡(luò)+全連接時序分類模型）。目前開源的喚醒方案可提供SDK，實現(xiàn)喚醒功能一般分為在線和離線版本。國內(nèi)主要以科大訊飛為代表。網(wǎng)上也有多種開源的小型語音識別引擎，可實現(xiàn)單獨(dú)的語音喚醒功能，性能參差不齊。

3、語音交互

語音交互包括語音識別、自然語言理解、對話管理、自然語言生成和語音合成。

語音識別技術(shù)也稱為自動語音識別，可將語音信息轉(zhuǎn)為文字信息。用戶發(fā)出的指令為語音，然而語音并不能直接拿來分析，需要轉(zhuǎn)化為文字。隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用、大數(shù)據(jù)的使用和云計算的普及，語音技術(shù)已經(jīng)進(jìn)入人們的日常生活，如科大訊飛、阿里巴巴的AliGenie、喜馬拉雅的小雅等。

自然語言理解的目的是將自然語言轉(zhuǎn)化為計算機(jī)易處理的形式，即接收到指令后，識別出用戶命令的所屬領(lǐng)域，之后再相應(yīng)領(lǐng)域識別用戶的意圖，最后進(jìn)行實體抽取，確定意圖的參數(shù)。目前，自然語言處理使用的NPL算法是基于機(jī)器學(xué)習(xí)的，擁有各類語言處理的數(shù)據(jù)集，其中包括中文分詞、詞性標(biāo)注、實體識別、句法分析以及自動文本分類等功能。

對話管理對連續(xù)對話的交互極為重要，一般的解決辦法是將上輪對話解析的參數(shù)作為全局變量，帶入到下一輪對話，根據(jù)當(dāng)輪對話和一定條件來判斷是否保持在上一輪的領(lǐng)域，或是清空上下文。

自然語言生成是使計算機(jī)具有人一樣的表達(dá)和寫作的功能，即能根據(jù)一些關(guān)鍵信息及其在機(jī)器內(nèi)部的表達(dá)形式，經(jīng)過一個規(guī)劃過程，自動生成一段高質(zhì)量的自然語言文本。語音合成又叫文語轉(zhuǎn)換，能使智能音箱像人一樣朗讀任意給定的文本。主要合成方法有參數(shù)合成和拼接合成，其中參數(shù)合成計算量小，部署靈活，但自然度較差。拼接合成接近真人發(fā)音，存儲和計算資源高，一般只能在線合成。

4、其他關(guān)鍵技術(shù)

除上述關(guān)鍵技術(shù)，還有相對成熟但沒有被廣泛應(yīng)用于智能音箱的技術(shù)，如聲紋識別、人臉檢測和人臉識別。聲紋識別用于付款，根據(jù)語音波形反應(yīng)人的聲音和行為特征的語音參數(shù)。人臉識別與聲紋識別類似，但還可用來確認(rèn)用戶身份。人臉檢測是建立在音箱配置有攝像頭的基礎(chǔ)上，確定用戶位置，帶來更好的交互設(shè)計以及輔助聲源定位。

智能音箱方案開發(fā)商

三、智能音箱的語音識別技術(shù)

目前大多數(shù)互聯(lián)網(wǎng)企業(yè)都有推出自己的智能音箱，這使得智能音箱市場越來越大，競爭越來越激烈。現(xiàn)在的智能音箱在外觀上并無太大區(qū)別，所以用戶更加注重的是智能音箱本身性能。智能音箱的性能主要從他的語言交互能力，反應(yīng)速度，準(zhǔn)確度來體現(xiàn)。

為了實現(xiàn)智能音箱的多種功能，智能往往需要多種技術(shù)。當(dāng)用戶發(fā)出的一段語言信號時，智能音箱首先要去接受該信號，這里運(yùn)用了麥克風(fēng)列陣技術(shù)，一般的音箱內(nèi)置7～8個麥克風(fēng)，這使得智能音箱能夠從多個方向正確的接收語音信號以及消除回音和雜音帶來的影響，得到語音信號后需要對信號加工處理使機(jī)器“理解”自然語言，則用到自然語言處理和語言識別技術(shù)。最后智能音箱所計算出的結(jié)果需要重新合成語音信號，這用到了語音合成技術(shù)。在這眾多技術(shù)中，最核心就是語音識別技術(shù)。

智能音箱中語音識別技術(shù)十分復(fù)雜，它綜合了心理學(xué)，語言學(xué)，統(tǒng)計學(xué)等多門學(xué)科，若要研究語音識別技術(shù)，需要從語音識別技術(shù)中各個重要步驟入手，這里主要研究其預(yù)處理、特征提取、訓(xùn)練識別3部分。

（1）預(yù)處理

一段語音信號往往伴隨著環(huán)境雜音，這雜音對語音識別影響巨大。因此首先要去除這些環(huán)境雜音。一段語音信號的頻率基本穩(wěn)定在一個區(qū)間內(nèi)，通過抗混疊濾波將信號頻譜上的雜音區(qū)段與目標(biāo)語音信號區(qū)別來并獲得目標(biāo)信號，同時完成模擬信號向數(shù)字信號的轉(zhuǎn)變。

另外，由于語音信號中的目標(biāo)信號功率小，而雜音的功率大，雜音占了輸入的大部分區(qū)域。由此，對目標(biāo)信號進(jìn)行預(yù)加重處理來提高目標(biāo)信號的能量。根本上說是提高振幅，方便區(qū)分雜音。

端點(diǎn)檢測也是預(yù)處理中重要的一部分。環(huán)境雜音任何時候都存在，而語音信號只存在一段，端點(diǎn)檢測旨在確定語音信號的起始位置，避免非語音時段噪音混入。短時平均幅度與短時平均過零率是兩種端點(diǎn)檢測常用方法。

另外，目前語音識別軟件分為兩種模式，一種是手動截取語音，例如蘋果手機(jī)中的Siri，用戶需按住特定按鍵完成語音信號的采集。另一種是自動截取語音，市場大多數(shù)智能音箱都采取這種模式，但精度相對較差，一般都是用戶輸入特定的語音信號后才開始語音采集，例如使用小愛同學(xué)時，命令格式是“小愛同學(xué)+你提出的問題”總體上講，預(yù)處理部分的目的是消除雜音，為后面計算機(jī)理解自然語言奠定基礎(chǔ)。

（2）特征提取

采集到語音信號后做的第一個步驟就是特征提取，它將一段語音信號分為多個區(qū)段，并將其中含有實際意義的特征參數(shù)提取出來，并加以統(tǒng)計。這一段特征提取就可以代表這一段信號了，因為舍去不必要的區(qū)段，特征提取也是一種數(shù)據(jù)壓縮，這一定程度上可以簡化之后的計算。特征提取是建立在隱馬爾科夫模型上，該模型中含有不可見的未知參數(shù)，特征提取中這些未知參數(shù)指信號中所含有的語義，但語義很大影響語音信號，所以通過語音信號的變化逆向推測不可見的語義并非不可能。

（3）訓(xùn)練及識別

目前智能音箱中語音識別精度高，但這是依靠大量數(shù)據(jù)與訓(xùn)練才完成的。訓(xùn)練識別網(wǎng)絡(luò)相當(dāng)于訓(xùn)練計算機(jī)，而每一位用戶都相當(dāng)于一位訓(xùn)練師，大量的訓(xùn)練和統(tǒng)計后計算會得出令用戶普遍滿意的答案。這樣，計算機(jī)無需真正理解自然語言也可以完成人與機(jī)器之間的正常交互。

深度學(xué)習(xí)是訓(xùn)練識別網(wǎng)絡(luò)中重要的一部分，它是人工智能自我學(xué)習(xí)的關(guān)鍵。深度學(xué)習(xí)一大特點(diǎn)就是多層次運(yùn)算，多層次處理信息。深度學(xué)習(xí)中每一層所得到的結(jié)果將作為下一層的輸入使用，這樣就達(dá)到了“深度”的效果。但在實際運(yùn)用中，這還需要對深度學(xué)習(xí)的層數(shù)進(jìn)行把控，如果層數(shù)不足，人工智能自我學(xué)習(xí)效果會差，但層數(shù)過多會導(dǎo)致計算繁瑣并且效率低下。深度學(xué)習(xí)在語音識別中主要是學(xué)習(xí)語音信號的特征，之后需要與訓(xùn)練識別網(wǎng)絡(luò)的數(shù)據(jù)比較最后得出計算結(jié)果。

深圳智能音箱電路板廠家

四、語音識別技術(shù)的不足與改進(jìn)

1、現(xiàn)階段語音識別技術(shù)的缺陷

雖然語音識別技術(shù)已廣泛應(yīng)用，但其還存在許多缺陷，主要為以下幾點(diǎn)。

1）自然語言的不確定性。自然語言由語義，語境等組成。因此自然語言有很大的不確定性。現(xiàn)有的人工智能基本是自上而下的人工智能，也就是說程序員先制定好計算機(jī)理解語言的規(guī)則才理解自然語言。一旦程序員編程出現(xiàn)缺陷，那會導(dǎo)致計算機(jī)對自然語言的誤解。雖然將所有語法規(guī)則寫入程序中也許能讓計算機(jī)理解語言但語法規(guī)則眾多，將這些規(guī)則全部寫入程序中幾乎不可能實現(xiàn)。

另外，自然語言信息量大，在不同情景下，一個詞語可能成褒義，可能是貶義，并且上下句對一個句子實際意義影響巨大，例如“幫忙下?！边@句話省略了主語和賓語。但如果有前后句做鋪墊，那這句話對人并不難理解。但是應(yīng)用語音識別，那么機(jī)器將不能理解特殊句子，自然語言的不確定性很大阻礙了語音識別的進(jìn)步。

2）環(huán)境干擾。公共場合中的環(huán)境雜音和噪音對識別影響巨大，在這種環(huán)境中計算器很難接受到合適的語音信號，這很大地限制了語音識別的使用范圍。

3）讀音不標(biāo)準(zhǔn)問題。現(xiàn)在的詞匯數(shù)量逐漸增加，讀音相似是正常的事，但機(jī)器很難區(qū)別這種讀音。特別是一些字詞會連帶這上個字詞讀音，如果語速果快，計算機(jī)也很難識別。

2、語音識別技術(shù)的改進(jìn)方向

綜上所述，本文認(rèn)為語音識別的重要改進(jìn)方向如下。

1）針對專一領(lǐng)域。自然語言十分復(fù)雜，因此想要建立全面的語音識別是十分困難，但通過研究發(fā)現(xiàn)，某些詞匯在特定的領(lǐng)域出現(xiàn)頻率十分之高，而且相對固定。所以通過建立某個專一領(lǐng)域建立語音識別系統(tǒng)是目前實用性和價值都相對較高的方法，最后將各個語音識別系統(tǒng)結(jié)合在一起，以建立相對完備的系統(tǒng)。

2）動態(tài)語義分析。目前的語音識別僅僅特定的一句話進(jìn)行分析，而無法聯(lián)系用戶前后之間的問題進(jìn)行動態(tài)分析。未來的語音識別能在與用戶問答過程中不同語境，實現(xiàn)新的分析，并預(yù)測語音信號中所含的語義。這樣的改進(jìn)可以使計算機(jī)從語言的接受方真正成為語言使用方，使人機(jī)之間的交流更加的自然。

智能音箱PCBA價格

五、智能音箱的發(fā)展方向

迄今，市場上的智能音箱種類豐富，技術(shù)也日趨成熟，然而還面臨著一些制約發(fā)展的因素，如盡管智能音箱在智能家居行業(yè)不斷顯現(xiàn)其用武之地，但通過智能音箱只能控制擁有授權(quán)的智能音箱品牌，極大限制了消費(fèi)者的購買意愿。此外，智能音箱提供的技能因未得到很好的開發(fā)或接入的第三方服務(wù)平臺過少，還遠(yuǎn)遠(yuǎn)不能滿足人們的實際需求。

未來，隨著物聯(lián)網(wǎng)的發(fā)展，智能音箱將在硬件、軟件以及平臺等方面得到全面發(fā)展。硬件上致力于打造智能家居，形成一個產(chǎn)業(yè)鏈；軟件上挖掘各種個性化需求，將產(chǎn)品的功能擴(kuò)充，從娛樂到購物、家居、社交等各個方面覆蓋人們的生活；各種第三方服務(wù)等接入智能音箱，把服務(wù)嫁接到生活的不同場景，滿足人們的日常生活需求。此外，在技術(shù)上還應(yīng)改善音質(zhì)、提高語音識別的準(zhǔn)確率，優(yōu)化人機(jī)交互的用戶體驗，打造完整的產(chǎn)業(yè)鏈。

總結(jié)

現(xiàn)在的語言識別技術(shù)尚未完全，但以語音識別技術(shù)為核心的智能音箱是足夠滿足人們的需求的。各項技術(shù)的不斷完善和人們對智能產(chǎn)品日益增長的需求為語音識別技術(shù)的發(fā)展指明了方向，由于市場擴(kuò)大，各個企業(yè)勢必會加快對于語音識別的競爭，從而加快語音識別技術(shù)的發(fā)展。在迭代更新中，智能音箱會更加注重用戶的體驗，成為家庭生活中必不可少的重要設(shè)備。

目前，智能音箱還處于發(fā)展階段，隨著技術(shù)的發(fā)展，將會打造商業(yè)生態(tài)鏈、智能家居生態(tài)鏈以及豐富的有聲資源，提出更多個性化服務(wù)。智能音箱將滲入到人們生活的各方各面，給生活帶來更多的便捷和樂趣。

以上就是我們深圳市組創(chuàng)微電子有限公司為您介紹的智能音箱方案詳情。如果您有語音音箱的電子功能開發(fā)需求，可以放心交給我們，我們有豐富的電子產(chǎn)品定制開發(fā)經(jīng)驗，可以盡快評估開發(fā)周期與IC價格，也可以核算PCBA報價。我們是多家國內(nèi)外芯片代理商，有MCU、語音IC、藍(lán)牙IC與模塊、wifi模塊。我們的開發(fā)能力涵蓋了PCB設(shè)計、單片機(jī)開發(fā)、軟件定制開發(fā)、APP定制開發(fā)、微信公眾號開發(fā)等軟硬件設(shè)計。還可以承接智能電子產(chǎn)品研發(fā)、家用電器方案設(shè)計、美容儀器開發(fā)、物聯(lián)網(wǎng)應(yīng)用開發(fā)、智能家居方案設(shè)計、TWS方案開發(fā)、藍(lán)牙音頻開發(fā)、兒童玩具方案開發(fā)、電子教育產(chǎn)品研發(fā)。

上一篇：可穿戴設(shè)備方案開發(fā)

下一篇：TWS耳機(jī)方案開發(fā)

精選方案推薦

亚洲国产中文字母_2023年免费b站视频_飘雪影院午夜理论片_欧美中文字幕第一_制服丝袜中文字幕丝袜专区_露脸真实国语乱在线观看_69xxⅹ色视频免费看_天堂在线最新版资源www_成人精品国产一区_亚洲一区视频免费在线观看