當(dāng)前位置 > 首頁 > 技術(shù)文章 > 大腦從聲音中感知人物特征的時(shí)間進(jìn)程

選型 | 市場 | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

大腦從聲音中感知人物特征的時(shí)間進(jìn)程

瀏覽次數(shù)：145　發(fā)布日期：2025-3-31　來源：瀚翔腦科學(xué)官網(wǎng)

紐約大學(xué)發(fā)表在PNAS（IF = 9.4）的最新研究“The time course of person perception from voices in the brain” ，揭示了人物特征的神經(jīng)表征在大腦中何時(shí)、如何被感知和解碼。

一、引言

我們在聽到一個(gè)聲音后的大約80毫秒時(shí)，就開始形成對說話者的多方面印象，包括身體特征（如性別、年齡、健康狀況），還包括性格特征（如吸引力、支配力、可信度）和社會(huì)特征（如教育水平、職業(yè)素養(yǎng)）。本研究使用腦電和表征相似性分析（RSA）來描述這些來自聲音的多維印象是如何隨著時(shí)間的推移在不同的抽象水平上出現(xiàn)的。研究發(fā)現(xiàn)，這些印象并非同時(shí)形成，而是逐步出現(xiàn)：關(guān)于身體特征（如性別、年齡）的印象較早就形成，大約在120毫秒時(shí)就能出現(xiàn)；而關(guān)于個(gè)性特征和社會(huì)特征（如吸引力、教育水平等）的印象則稍晚一些，大約在360毫秒之后才開始形成。

二、研究方法

實(shí)驗(yàn)共采集32名被試信息。共完成兩個(gè)測試階段（EEG測試和行為評分測試）。如圖1：

圖1：實(shí)驗(yàn)流程說明

1、EEG測試階段：

被試聽取96個(gè)元音錄音樣本（96個(gè)元音錄音樣本，每段重復(fù)40次，共3840個(gè)試次），每段錄音的時(shí)長為400毫秒。分為6個(gè)區(qū)塊完成，刺激間隔ISI為400~600ms。大約9%的試次中，計(jì)算機(jī)屏幕會(huì)提示完成1-back警覺任務(wù)（由26種警覺刺激重復(fù)16次，共384個(gè)警覺試次），判斷兩個(gè)相鄰的錄音片段是否相同（元音因素或發(fā)聲者是否相同）。警覺任務(wù)的試次在每個(gè)區(qū)塊內(nèi)均勻分布，既不會(huì)出現(xiàn)在區(qū)塊的開始，也不會(huì)緊接在上一個(gè)警覺試次之后。相同的錄音對條件下，警覺試次呈現(xiàn)兩次相同的語音刺激；不同的錄音對條件下，警覺試次先呈現(xiàn)一個(gè)隨機(jī)的測試刺激（由26種測試刺激重復(fù)呈現(xiàn)8次，共198個(gè)試次），隨后再呈現(xiàn)一個(gè)警覺刺激。

2、行為評分階段：

在行為評分階段，被試再次聽取所有EEG記錄中用到的錄音片段，并給出他們對這些聲音的主觀評分。評分的內(nèi)容包括：

身體特征：性別、年齡、健康感、吸引力。

性格特征：主導(dǎo)性、可信賴性、教育程度、專業(yè)性。

3、腦電記錄：

使用Brain Products的32導(dǎo)主動(dòng)電極和BrainAmp放大器（國內(nèi)均由瀚翔腦科學(xué)總代理），參考電極貼在鼻尖。

4、聲學(xué)處理：

使用PRAAT軟件從每個(gè)語音錄音中提取LTAS（長時(shí)平均聲譜），分析語音錄音之間的頻率分布差異。此外，提取了多項(xiàng)聲學(xué)指標(biāo)：F0均值（基頻的平均值）、前四個(gè)共振峰（F1、F2、F3、F4）均值、共振峰散布度（DF）；諧波源與非諧波源；諧波噪聲比（HNR）等。

三、研究結(jié)果：

聲音的主觀感知特征

考慮到人物特征之間的高度相關(guān)性，研究者對每個(gè)聲音錄音的平均評分進(jìn)行了主成分分析（PCA，oblimin 旋轉(zhuǎn)），對聲音錄音的評分?jǐn)?shù)據(jù)進(jìn)行降維。相關(guān)性分析和PCA進(jìn)一步確定了不同的人的特征不是彼此獨(dú)立的，而是高度相互依賴的。

大腦對聲音解碼表征的時(shí)間進(jìn)程

研究對EEG和行為數(shù)據(jù)進(jìn)行了時(shí)間分辨率的RSA表征相似性分析（見圖2）：計(jì)算每個(gè)錄音的平均EEG響應(yīng)（選取刺激前100毫秒到刺激呈現(xiàn)后700毫秒時(shí)間段）。在每個(gè)時(shí)間點(diǎn)，使用支持向量機(jī)（SVM）分類，并通過五折交叉驗(yàn)證來測試該分類模型的準(zhǔn)確度。最終生成96x96的神經(jīng)表征不相似性矩陣（RDM），其中每個(gè)元素表示每個(gè)被試和每個(gè)時(shí)間點(diǎn)的解碼準(zhǔn)確度。

圖2：RSA的分析方法。

(A)作為RSA的基礎(chǔ)，我們創(chuàng)建了來自神經(jīng)和行為數(shù)據(jù)的RDM。

(B)神經(jīng)和行為RDM通過部分秩相關(guān)性關(guān)聯(lián)，從神經(jīng)數(shù)據(jù)中解碼不同人物特征表征的時(shí)間軸。

(C)神經(jīng)、行為和聲學(xué)RDM示例

在66毫秒內(nèi)，大腦就能分辨出不同的聲音

對所有被試的神經(jīng)RDM的上三角形（不包括對角線）每個(gè)時(shí)間點(diǎn)的所有成對解碼準(zhǔn)確度取平均值。結(jié)果顯示，在刺激開始后66 ms至700 ms之間，大腦能夠有效地區(qū)分不同的聲音記錄，并且在154毫秒時(shí)達(dá)到了最高的解碼準(zhǔn)確度峰值（平均準(zhǔn)確度為53.1%，圖3，灰線）。

圖3：關(guān)于人物特征（性別、年齡、健康、主導(dǎo)性、吸引力、可信度、教育程度、和專業(yè)性）感知時(shí)間過程不同模型的比較；

最后一張圖為每個(gè)聲音可以從神經(jīng)數(shù)據(jù)中解碼出來的平均配對解碼準(zhǔn)確率

表1：不同的人的特征表征可以從神經(jīng)數(shù)據(jù)中解碼的顯著簇和時(shí)間點(diǎn)

人物特征在大腦中表征的時(shí)間過程進(jìn)程

通過計(jì)算和比較三種不同類型的RDM（神經(jīng)、行為和聲學(xué)）將EEG數(shù)據(jù)與行為評分?jǐn)?shù)據(jù)進(jìn)行關(guān)聯(lián)。使用Spearman的部分秩相關(guān)性來評估神經(jīng)RDM、行為RDM和聲學(xué)RDM矩陣的下三角部分，揭示出每個(gè)時(shí)間點(diǎn)，神經(jīng)反應(yīng)、行為評分以及聲學(xué)差異之間的相關(guān)性。具體來說，建立了三個(gè)模型（見圖2B）：

Model 1是基線模型，通過控制LTAS（長時(shí)平均頻譜）的成對相似度矩陣，去除低級聲學(xué)特性后，觀察大腦對人物特征的表示方式。

Model 2在Model 1的基礎(chǔ)上通過控制聲學(xué)矩陣（LTAS矩陣和主成分矩陣），控制感知顯著的聲學(xué)特性（能被人類感知并影響人類對聲音或人物特征感知的音頻特征）差異。觀察去除感知上顯著的聲學(xué)差異后，人物特征表示的變化。

Model 3控制了三個(gè)重要的變量：LTAS矩陣、感知顯著的聲學(xué)差異、所有已知的行為矩陣，計(jì)算了行為RDM和神經(jīng)RDM之間的時(shí)間相關(guān)性，進(jìn)而識別不受聲音聲學(xué)特性和其他感知特征影響的抽象人物特征。

Model 1：在聽到聲音的100毫秒內(nèi)，可以解碼身體、性格和社會(huì)特征的表征。

神經(jīng)和行為RDM（代表性距離矩陣）之間顯著相關(guān)性，所有人物特征的表征都可以在刺激開始后80 ms到102 ms之間被檢測到，并在100 ms到200 ms之間達(dá)到第一個(gè)峰值，這些表征通常會(huì)持續(xù)到至少435 ms，如性別特征。在持續(xù)時(shí)間上，性別、主導(dǎo)性、吸引力、教育程度等特征的表示通常在刺激結(jié)束后不久便檢測不到了，其他人物特征（如健康、信任度、專業(yè)性等）則可以持續(xù)更長時(shí)間，如專業(yè)性的表征在采樣時(shí)間窗口的末尾仍然顯著（見圖3，紫色線，表1）。

Model 1證明人物特征的表征并非分階段出現(xiàn)，而是所有特征的表征幾乎同步出現(xiàn)。

Model 2：感知顯著的聲學(xué)特性與人物特征感知的早期階段密切相關(guān)

Model 2的結(jié)果表明：感知顯著的聲學(xué)特性對人物特征的影響在時(shí)間上與Model 1類似，但性別感知的時(shí)間范圍有所變化。在Model 2中，性別的表征只能在85毫秒到362毫秒之間被檢測到（參見圖4，藍(lán)色線，表1）。

感知顯著的聲學(xué)特性主要影響的是人物特征感知的早期階段（表2）：相較于Model 1，在Model 2中，性別、健康、主導(dǎo)性和吸引力四個(gè)特征在96 ms到236 ms的時(shí)間窗口內(nèi)，神經(jīng)RDM和行為RDM之間的相關(guān)性顯著降低。而可信度、教育程度、和專業(yè)性這些特征，感知顯著聲學(xué)特征對其表征的影響持續(xù)時(shí)間較長，延續(xù)至388 ms及之后。

排除了感知顯著的聲學(xué)特征后，人物特征的表征依然能夠在80 ms到至少435 ms的時(shí)間范圍內(nèi)通過EEG數(shù)據(jù)顯現(xiàn)出來，表明人物特征的表征不僅僅依賴于聲學(xué)信息，而是由更高層次的認(rèn)知處理形成的。

Model 3: 獨(dú)立、抽象的人物特征表征在不同時(shí)間點(diǎn)出現(xiàn)

Model 3的目標(biāo)是檢測是否以及何時(shí)能夠發(fā)現(xiàn)獨(dú)立于聲學(xué)特性和其他人物特征（如性別、年齡等）的抽象神經(jīng)表征。通過雙樣本t檢驗(yàn)發(fā)現(xiàn)，與Model 1相比，Model 3中神經(jīng)RDM和行為RDM之間的相關(guān)性顯著較低（見圖3，粉色線和表2）。這表明，在Model 3中，大多數(shù)人物特征的獨(dú)立神經(jīng)表征消失了。通過單樣本t檢驗(yàn)發(fā)現(xiàn)，健康、吸引力和教育程度這三個(gè)特征的抽象表征在Model 3中完全消失。性別（127 ms到181 ms）和年齡（94 ms到373 ms）的抽象表征仍然可以在較早的時(shí)間段被檢測到，而主導(dǎo)性（384 ms到432 ms）、可信度（647 ms到700 ms）和專業(yè)性（367 ms到535 ms）的獨(dú)立抽象表征則出現(xiàn)在較晚的時(shí)間段。

這表明，在去除聲學(xué)信息和其他人物特征后，只有部分抽象人物特征的表征仍然可以被檢測到，尤其是性別和年齡，而其他如健康、吸引力等特征則完全消失。

表2：不同模型對比的時(shí)間過程差異

四、總結(jié)

人物特征的感知過程并非一蹴而就，而是分階段、漸進(jìn)式的過程。早期的聲學(xué)信息對人物特征的表征有重要影響，隨著時(shí)間推移，這些表征逐漸變得抽象并獨(dú)立于聲學(xué)特性。不同類型的人物特征在大腦中的表征出現(xiàn)時(shí)間也不同，身體特征較早，而個(gè)性和社會(huì)特征稍晚。人物特征的感知可能會(huì)出現(xiàn)過度概括（overgeneralization）和光環(huán)效應(yīng)（halo effect），并導(dǎo)致人物特征之間的高相關(guān)性，但這一解釋仍然是推測性的（speculative），需要更多的未來研究來驗(yàn)證這種因果關(guān)系的層次結(jié)構(gòu)是否真實(shí)存在。

本研究結(jié)果與最新的理論模型相一致，并為我們理解通過聲音感知他人時(shí)的大腦計(jì)算過程提供了新的視角。

索取資料

來源：深圳瀚翔腦科學(xué)技術(shù)股份有限公司
聯(lián)系電話：18682487956
E-mail：sales@hanix.net

【點(diǎn)擊可查看深圳瀚翔腦科學(xué)技術(shù)股份有限公司相關(guān)產(chǎn)品】

標(biāo)簽：腦電采集移動(dòng)腦電圖儀腦電信號處理

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

<strike id="0gc2g"></strike>