廣播電視音頻監(jiān)測技術(shù)研究

2013年09月16日未知瀏覽量：0

廣播電視的不問斷和安全播出始終是廣播電視機構(gòu)要完成的首要任務(wù)。隨著基于電子管、晶體管等設(shè)備的退役和計算機軟硬件技術(shù)、微電子技術(shù)和數(shù)字化技術(shù)的應(yīng)用普及，廣播電視設(shè)備的故障率已經(jīng)降到了非常低的水平，在節(jié)目播出過程中由于設(shè)備故障造成的停播、錯播現(xiàn)象已很少發(fā)生。近年來，信號的安全播出問題，尤其是信號的被干擾、被破壞和被插播的現(xiàn)象屢見不鮮。廣播電視的安全監(jiān)測技術(shù)逐漸成為廣播電視制播技術(shù)的研究焦點。本文將針對以上問題加以探討，并對解決問題所用到的關(guān)鍵技術(shù)和算法進(jìn)行簡要的分析和論述。

1監(jiān)測業(yè)務(wù)和技術(shù)的現(xiàn)狀及分類

目前國內(nèi)大多數(shù)廣播電視臺站的自動監(jiān)測系統(tǒng)都只針對音頻信號的質(zhì)量好壞和信號的有無進(jìn)行監(jiān)測，而對于音頻信號的來源及內(nèi)容等安全方面的監(jiān)測任務(wù)則更多地采用循環(huán)播放、人工監(jiān)聽的方式…。人工方式不僅效率低，而且不及時。應(yīng)州于廣播電視安全監(jiān)測系統(tǒng)的音頻信號監(jiān)測技術(shù)從業(yè)務(wù)層面上可分為音頻的內(nèi)容監(jiān)測和音頻的質(zhì)量監(jiān)測。音頻的內(nèi)容監(jiān)測主要是對采集的信息的收集、整理、解析和應(yīng)用等過程中所出現(xiàn)的錯誤、疏漏、不當(dāng)及不和諧、敏感信息的檢查和把關(guān)，它關(guān)注的是音頻所表述的具體內(nèi)容。音頻的質(zhì)量監(jiān)測主要是對已經(jīng)制作完成的廣播電視節(jié)目在音頻信號的生成、處理、傳輸和收發(fā)過程中出現(xiàn)的干擾、噪聲、電平過低、中斷和信源突變等狀況所進(jìn)行的實時監(jiān)控和更正，它注重的是音頻信號的質(zhì)量及來源的正確性。二者雖然針對的業(yè)務(wù)層面不同，卻彼此依賴相互聯(lián)系。音頻內(nèi)容的好壞會直接影響到音頻質(zhì)量的高低，音頻質(zhì)量的高低也會直接影響終端聽眾對信息內(nèi)容的獲取量和正確率?？傊?，對音頻內(nèi)容和質(zhì)量的監(jiān)測都是為了保證聽眾能收到正確、優(yōu)質(zhì)和不間斷的音頻信號。目前，可應(yīng)用于音頻信號監(jiān)測任務(wù)的技術(shù)可分為音頻比對技術(shù)、音頻識別技術(shù)、數(shù)字水印技術(shù)這三大類。

2音頻比對技術(shù)

音頻比對技術(shù)是利用數(shù)字音頻的時域或頻域特征或?qū)傩詠矸治鰞啥我纛l序列的相似度，再相似度的大小來判斷這兩段音頻序列播放的是否是相同或相似的內(nèi)容。其大概流程如圖1所示。首先，將要處理的2路音頻序列通過多路音頻采集卡采集到設(shè)備中，并進(jìn)行濾波、增益補償?shù)忍幚恚黄浯?，將得到?路音頻信號進(jìn)行模數(shù)轉(zhuǎn)換，再對得到的數(shù)字信號進(jìn)行壓縮處理；然后，提取2路信號的特征參數(shù)或者屬性；最后，比較提取出來的參數(shù)或者屬性，得出2路音頻信號的相似度，再由相似度來判斷2路信號是否相同或者相似。濾波和增益補償?shù)阮A(yù)處理是為了濾除音頻中的噪盧、干擾脈沖及平衡音頻的電平差等。

壓縮處理是為了減少音頻中相關(guān)性較低和不相關(guān)的參數(shù)，減少后續(xù)工作量，提高處理的實時性(目前比較流行的壓縮算法是利用小波函數(shù)壓縮)。參數(shù)和屬性的提取是從音頻流中以幀為單位提取出2路音頻的質(zhì)心、均方根、Mel倒譜系數(shù)以及音高、振幅、帶寬、能量等。音頻比對是利用上一步提取的參數(shù)或?qū)傩赃M(jìn)行計算和比較，將比較結(jié)果同預(yù)先設(shè)定的閾值進(jìn)行對比，得出最終結(jié)果。音頻比對技術(shù)在實現(xiàn)時不考慮音頻的具體內(nèi)容，它只注重音頻序列的關(guān)鍵參數(shù)和屬性的相似度。目前對音頻技術(shù)的應(yīng)用需求更多的還是涉及到音頻的語意和具體內(nèi)容方面，這項技術(shù)的適用領(lǐng)域相對來說比較小，但是它基本上能滿足廣播電視的質(zhì)量監(jiān)測的任務(wù)需求。

3音頻識別技術(shù)

音頻識別技術(shù)主要以語音為研究對象，許多資料亦稱之為語音識別技術(shù)。它是指讓系統(tǒng)依據(jù)語音和人聲的特性、事先建立好的語音模板庫或人類的大腦神經(jīng)系統(tǒng)的活動原理對人們發(fā)出的聲音或者保存的語音數(shù)據(jù)進(jìn)行逐字逐句識別并轉(zhuǎn)化為文本、對語音的特征語意進(jìn)行判斷和響應(yīng)或者執(zhí)行特定的命令任務(wù)的技術(shù)。從說話者異同方面，可以將語音識別系統(tǒng)分為特定人語音識別系統(tǒng)、非特定人語音識別系統(tǒng)和多人語音識別系統(tǒng)。從語音的產(chǎn)生和輸入的方式，可以將語音識別系統(tǒng)分為孤立詞語音識別系統(tǒng)、連接詞語音識別系統(tǒng)和連續(xù)語音識別系統(tǒng)。

從語音包含的詞匯量大小，可以將語音識別系統(tǒng)分為小詞匯量語音識別系統(tǒng)、中等詞匯量語音識別系統(tǒng)和大詞匯量語音識別系統(tǒng)。語音識別技術(shù)從方法和實現(xiàn)層面總體可以分為三種：基于語音基元的共有特性和聲學(xué)屬性的方法，基于模板的建立和匹配的方法，基于人工神經(jīng)網(wǎng)絡(luò)的方法。聲學(xué)屬性的方法又細(xì)分為基于動態(tài)時間規(guī)整方法(DTW)的語音識別技術(shù)、基于隱馬爾可夫理論(HMM)的語音識別技術(shù)和基于矢量量化算法(VQ)的語音識別技術(shù)等。基于模板匹配的語音識別技術(shù)大致流程如圖2所示。其中自“參數(shù)屬性提取”之前的處理過程與上文介紹的音頻比對技術(shù)的過程基本相同，此處不再贅述。提取參數(shù)之后需要先使用一定的訓(xùn)練算法對提取出來的參數(shù)進(jìn)行訓(xùn)練以建立聲學(xué)模板庫，有了聲學(xué)模板庫就可以對輸入的語音數(shù)據(jù)進(jìn)行識別了。識別的過程就是將輸人的語音的特征或參數(shù)同模板庫進(jìn)行計算和比較，得出最終結(jié)果。現(xiàn)在人們研究和使用的較多的語音識別的主流技術(shù)是基于隱馬爾可夫理論(HMM)的語音識別技術(shù)，它可以勝任大詞匯量、非特定人和連續(xù)的語音識別任務(wù)，并且識別準(zhǔn)確率已基本達(dá)到了實用水平。相比之下，基于人工神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)的應(yīng)用前景則更被人們看好，但它是一門尚處于實驗探索階段的新興技術(shù)。音頻識別技術(shù)更注重于音頻的語義和內(nèi)容，所以它基本上能滿足廣播電視的內(nèi)容監(jiān)測的任務(wù)需求。

4數(shù)字水印技術(shù)

數(shù)字水印技術(shù)是指在不影響質(zhì)量和不易被發(fā)覺和篡改并且可以被授權(quán)者識別出來的要求下將水印(防偽)信息嵌入到圖像和音視頻等的原始數(shù)字?jǐn)?shù)據(jù)中，以實現(xiàn)數(shù)字作品的版權(quán)確認(rèn)和保護(hù)。數(shù)字水印技術(shù)隸屬于信息隱藏學(xué)，早期主要用于圖像處理技術(shù)，后來擴(kuò)展到了文本和視頻領(lǐng)域，最近人們又開始研究將其應(yīng)用到音頻信號中。數(shù)字水印技術(shù)一般包含嵌人過程和提取驗證過程，其大概的流程如圖3和圖4所示。數(shù)字水印在技術(shù)實現(xiàn)上通常分為可見水印(明文水印)技術(shù)和不可見水印(盲水印)技術(shù)。由于容易被察覺和受到攻擊，可見水印技術(shù)目前已經(jīng)不再被人們看好。不可見水印技術(shù)有著不影響原始數(shù)據(jù)的質(zhì)量和不易被察覺等的優(yōu)點，正逐漸成為人們研究的熱點。不可見水印技術(shù)的實現(xiàn)方法大體可以分為在空間域中實現(xiàn)的方法和在變換域中實現(xiàn)的方法兩種。

在空間域中實現(xiàn)的方法是在時域內(nèi)直接對信號的值進(jìn)行修改并嵌入水印信息，這種方法有著計算簡單、計算量小和兼容有損壓縮的信號和濾波的信號等優(yōu)點，但為了保持水印的隱蔽性，它能嵌入的水印的信息量極為有限。在變換域中實現(xiàn)的方法是先將信號進(jìn)行一定的變換，如快速傅里葉變換、離散小波變換、Z變換和離散余弦變換等，然后再將水印嵌入變換后的信號中。與在空間域中實現(xiàn)的方法相比，這種方法有著隱蔽性強、容易結(jié)合、可嵌入的水印信息量大和兼容壓縮數(shù)據(jù)等優(yōu)點；不足之處是計算復(fù)雜而且計算量大，不適用于大數(shù)據(jù)量和對實時性要求高的系統(tǒng)。

5小結(jié)

要實現(xiàn)廣播電視音頻的誤播、錯播和停播等緊急情況的及時響應(yīng)處理，一個高效的方法是借助于計算機技術(shù)和數(shù)字音頻處理技術(shù)來實現(xiàn)。與人工方式相比，計算機處理具有高效率、高精度、及時性和速度快等優(yōu)點?？蓱?yīng)用于廣播電視安全監(jiān)測系統(tǒng)的音頻信號監(jiān)測的技術(shù)大致分為三類。從以上的分析可以看出，音頻比對技術(shù)更適用于廣播電視音頻的質(zhì)量監(jiān)測，數(shù)字水印技術(shù)和語音識別技術(shù)更適用于廣播電視音頻的內(nèi)容監(jiān)測。目前，音頻水印技術(shù)尚未完全成熟，語音識別技術(shù)中也只有基于模板的建立和匹配這一類方法進(jìn)入了實用階段。一個適合于當(dāng)前廣播電視音頻內(nèi)容和質(zhì)量監(jiān)測系統(tǒng)的技術(shù)組合應(yīng)該是音頻比對技術(shù)和語音識別技術(shù)中的基于模板的建立和匹配技術(shù)。