基于VS1003B的語音通信方法研究

作者：時間：2016-10-10 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在通指裝備模擬訓練器材研發中，經常會遇到需要模擬實現語音通話功能的情況。常規的解決方案是在計算機上通過高級語言編程實現對聲音的采集和播放，并通過局域網進行傳輸。考慮到語音通信的模塊化和可控性，文中以STM32F107VCT6作為核心處理器，采用VS1003B作為語音采集和播放器件，通過CAN總線實現語音和信令傳輸，設計實現了一種低成本、高質量的語音通信方法。

本文引用地址：http://www.j9360.com/article/201610/306190.htm

1 VS1003B解碼芯片介紹

VS1003B是由芬蘭VLSI公司出品的一款單芯片的MP3/WMA/MIDI音頻解碼和ADPCM編碼芯片，其內部電路如圖1所示。由圖可見，VS1003B包含一個高性能、具有自主產權的低功耗DSP處理器內核VSDSP，工作數據存儲器為用戶應用提供5 kB的指令RAM和0.5 kB的數據RAM，串行的控制和數據接口，4個常規用途的I/O口，一個UART，一個高品質可變采樣率的ADC和立體聲DAC，還有一個耳機放大器和地線緩沖器。

VS1003B通過一個串行輸入總線來接收輸入的比特流，它可以作為一個系統的從機。輸入的比特流被解碼，然后通過一個數字音量控制器到達一個18位過采樣多位ε-△DAC。解碼過程通過一個串行控制總線來控制實現。除了基本的解碼，在用戶RAM中它還可以做其他特殊應用，例如DSP音效處理。

2 設計原理

以半雙工語音通信為例，其工作原理如圖2所示。當一方需要講話時，會按下PTT鍵，該信號被STM32微處理器檢測到后，一方面向對方發送“PTT已按下”的消息，另一方面控制已方VS1003B進入錄音模式，VS1003B將采集到的音頻數據編碼后緩存給STM32，再通過CAN總線發送到對方。對方在收到“PTT已按下”消息后，會控制己方VS1003B開啟語音播放模式，將對方傳來的音頻數據傳輸給VS1003B進行解碼，并根據需要調節音量，供耳機播放。

VS1003B電路原理圖如圖3所示。J1為麥克風輸入插座，用于連接麥克風。J2為外部聲音輸入插座，連接音源。J3為耳機輸出插座，連接耳機，由于內部具有耳機驅動器，VS1003B輸出信號不需經過任何功放電路，從而簡化了硬件電路。VS1003B各部分的供電電壓不同，IOVDD(I/O電壓)為3.3 V，CVDD(數字電路電壓)為2.5 V，AVDD(模擬電路電壓)為2.8 V。最大的采樣率XTAL1/256，決定了能以正確的速度播放的音頻采樣率。例如，如果要播放48 kHz采樣率的音頻，XTAL1至少為12.288 MHz才能獲得正確的播放速度。

對于STM32微處理器來說，總共需要7個IO口與VS1003B連接。SO(串行輸出)、SI(串行輸入)與SCLK(串行總線時鐘)分別接STM32的PB14、PB15和PB13，即接到STM32的SPI2上，VS1003B通過SPI接口輸出IMA ADPCM編碼的音頻數據。其余的四根線中，DREQ(數據請求)連接到PC3，XCS(命令片選)連接到PC10，XDCS(數據片選)連接到PC11，XRESET(復位)連接到STM32的14管腳(NRST)，當STM32復位時，VS1003B同時復位。操作時，只有當DREQ為高(準備好)時才能讀寫VS1003B。

3 VS1003B程序設計

3.1 初始化VS1003B

在設計中，STM32F103VET6通過SPI總線對VS1003B進行控制，也就是通過VS1003B的串行數據接口SDI和串行控制接口SCI實現STM32F107 VCT6與VS1003B的通信。VS1003B初始化流程如圖4所示。其中，DREQ為高時可判斷為硬件復位或軟件復位結束。

3.2 語音信號的采集

語音信號的采集就是把模擬的語音信號轉化為可控制的數字信號。在這一處理過程中，主要是對模擬音頻信號進行采樣、量化和編碼。

目前常見的音頻信號的頻率范圍大致如下：電話為200Hz～3.4 kHz，調幅廣播為50 Hz～7 kHz，調頻廣播為20Hz～15 kHz，高保真音頻信號為20 Hz～20 kHz。因此音頻取樣頻率一般定在8～48 kHz范圍內。

量化是利用預先規定的有限個電平來表示每一模擬采樣值的過程。量化的精度與其用來表示采樣值的二進制位數有關，例如4位可表示24=16個量化等級，8位可表示28=256個量化等級。明顯地，位數越多，量化值越接近采樣值，其精度也就越高，但相應的所需的存儲量也越大(見表1)。

鑒于STM32F107VCT6主頻最高為72 MHz，在保證聲音質量的前提下，應盡量減少數據量，因此本文對聲音的采樣頻率為8 kHz，量化精度為8 bit，此時數據碼率為64 kbit/s。

語音壓縮編碼需要在保持可懂度、音質、限制碼率及降低編碼過程的計算代價這幾個方面進行折衷。VS1003B提供了IMA ADPCM編碼，這是由互動多媒體協會(IMA)制定的標準，屬于波形編碼的一種，采用麥克風和線入兩種輸入方式，可支持的音頻文件格式包括MP3、MP3+V、WMA、WAV、MIDI和SP-MIDI。IMA ADPCM適用于8～44.1 kHz采樣頻率，并且能在CPU占用率低和內存空間需求少的條件下保證較好的音質，在Windows和MAC操作系統中有廣泛的應用。IMA ADPCM錄音模式需要在SCI_MODE中對SM_RESET和SM_ADPCM進行置位來啟動。在啟動ADPCM錄音前，必須分別向SCI_AICTRL0和SCI_AICTRL1寫入時鐘分割值(據此可得到采樣率)和增益值。錄音流程如圖5所示。記錄的語音數據以512字節為單位進行存儲，并由STM32處理器通過CAN總線向對方轉發。

3.3 CAN通信

CAN總線作為一種總線式串行通信網絡，與一般的通信總線相比，具有突出的可靠性、實時性和靈活性等特點。考慮到模擬訓練器材對語音傳輸距離的要求不高，且STM32自帶bxCAN，即基本擴展CAN，它支持CAN協議2.0A和2.0B，支持報文發送的優先級要求，支持時間觸發通信，距離40 m內波特率可達1Mbit/s。因此，設計上采用CAN總線來實現語音數據傳輸，由STM32F107VCT6內嵌的2路CAN控制器與外圍器件SN65HVD230 (也標識為VP230)收發器組成2路CAN收發電路，其中一路CAN組成信令網，實現控制信令的傳輸;另一路CAN組成語音網，將ADPCM壓縮編碼后的數據，由STM32處理為CAN報文格式，發送到總線上，并對CAN過濾器進行設置，使之僅在收到給自己的報文時引起中斷。

3.4 語音信號的播放

播放前將對方傳來的語音數據存放到STM32的緩沖區，緩沖區的大小設置為512字節，一般一次讀一個扇區，然后將數據發往VS1003B。由于VS1003B有32字節的數據緩沖區，一次可以發32個字節的數據，然后檢測DREQ，當DREQ為高時送下一個32字節的數據，直到發完為止。 DREQ為高表明VS1003B可以接受新的數據，如果不考慮DREQ而直接連續的給VS1003B發音頻數據，將會出現聲音斷斷續續的情況。語音播放流程如圖6所示，考慮到實際語音通信時，本地PTT鍵抬起時，對方會無法聽到語音，因此流程圖中采用判斷對方PTT鍵的狀態來處理是否播放。