English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 大腦從聲音中感知人物特征的時(shí)間進(jìn)程

大腦從聲音中感知人物特征的時(shí)間進(jìn)程

瀏覽次數(shù):145 發(fā)布日期:2025-3-31  來源:瀚翔腦科學(xué)官網(wǎng)

紐約大學(xué)發(fā)表在PNAS(IF = 9.4)的最新研究“The time course of person perception from voices in the brain” ,揭示了人物特征的神經(jīng)表征在大腦中何時(shí)、如何被感知和解碼。

 

一、引言

       我們在聽到一個(gè)聲音后的大約80毫秒時(shí),就開始形成對說話者的多方面印象,包括身體特征(如性別、年齡、健康狀況),還包括性格特征(如吸引力、支配力、可信度)和社會(huì)特征(如教育水平、職業(yè)素養(yǎng))。本研究使用腦電和表征相似性分析(RSA)來描述這些來自聲音的多維印象是如何隨著時(shí)間的推移在不同的抽象水平上出現(xiàn)的。研究發(fā)現(xiàn),這些印象并非同時(shí)形成,而是逐步出現(xiàn):關(guān)于身體特征(如性別、年齡)的印象較早就形成,大約在120毫秒時(shí)就能出現(xiàn);而關(guān)于個(gè)性特征和社會(huì)特征(如吸引力、教育水平等)的印象則稍晚一些,大約在360毫秒之后才開始形成。

 

二、研究方法

實(shí)驗(yàn)共采集32名被試信息。共完成兩個(gè)測試階段(EEG測試和行為評分測試)。如圖1:

圖1:實(shí)驗(yàn)流程說明

 

1、EEG測試階段:

被試聽取96個(gè)元音錄音樣本(96個(gè)元音錄音樣本,每段重復(fù)40次,共3840個(gè)試次),每段錄音的時(shí)長為400毫秒。分為6個(gè)區(qū)塊完成,刺激間隔ISI為400~600ms。大約9%的試次中,計(jì)算機(jī)屏幕會(huì)提示完成1-back警覺任務(wù)(由26種警覺刺激重復(fù)16次,共384個(gè)警覺試次),判斷兩個(gè)相鄰的錄音片段是否相同(元音因素或發(fā)聲者是否相同)。警覺任務(wù)的試次在每個(gè)區(qū)塊內(nèi)均勻分布,既不會(huì)出現(xiàn)在區(qū)塊的開始,也不會(huì)緊接在上一個(gè)警覺試次之后。相同的錄音對條件下,警覺試次呈現(xiàn)兩次相同的語音刺激;不同的錄音對條件下,警覺試次先呈現(xiàn)一個(gè)隨機(jī)的測試刺激(由26種測試刺激重復(fù)呈現(xiàn)8次,共198個(gè)試次),隨后再呈現(xiàn)一個(gè)警覺刺激。

 

2、行為評分階段:

在行為評分階段,被試再次聽取所有EEG記錄中用到的錄音片段,并給出他們對這些聲音的主觀評分。評分的內(nèi)容包括:

身體特征:性別、年齡、健康感、吸引力。

性格特征:主導(dǎo)性、可信賴性、教育程度、專業(yè)性。

 

3、腦電記錄:

使用Brain Products的32導(dǎo)主動(dòng)電極和BrainAmp放大器(國內(nèi)均由瀚翔腦科學(xué)總代理),參考電極貼在鼻尖。

 

4、聲學(xué)處理:

使用PRAAT軟件從每個(gè)語音錄音中提取LTAS(長時(shí)平均聲譜),分析語音錄音之間的頻率分布差異。此外,提取了多項(xiàng)聲學(xué)指標(biāo):F0均值(基頻的平均值)、 前四個(gè)共振峰(F1、F2、F3、F4)均值、共振峰散布度(DF);諧波源與非諧波源;諧波噪聲比(HNR)等。

 

三、研究結(jié)果:
 

聲音的主觀感知特征

考慮到人物特征之間的高度相關(guān)性,研究者對每個(gè)聲音錄音的平均評分進(jìn)行了主成分分析(PCA,oblimin 旋轉(zhuǎn)),對聲音錄音的評分?jǐn)?shù)據(jù)進(jìn)行降維。相關(guān)性分析和PCA進(jìn)一步確定了不同的人的特征不是彼此獨(dú)立的,而是高度相互依賴的。

 

大腦對聲音解碼表征的時(shí)間進(jìn)程

研究對EEG和行為數(shù)據(jù)進(jìn)行了時(shí)間分辨率的RSA表征相似性分析(見圖2):計(jì)算每個(gè)錄音的平均EEG響應(yīng)(選取刺激前100毫秒到刺激呈現(xiàn)后700毫秒時(shí)間段)。在每個(gè)時(shí)間點(diǎn),使用支持向量機(jī)(SVM)分類,并通過五折交叉驗(yàn)證來測試該分類模型的準(zhǔn)確度。最終生成96x96的神經(jīng)表征不相似性矩陣(RDM),其中每個(gè)元素表示每個(gè)被試和每個(gè)時(shí)間點(diǎn)的解碼準(zhǔn)確度。

 

圖2:RSA的分析方法。

(A)作為RSA的基礎(chǔ),我們創(chuàng)建了來自神經(jīng)和行為數(shù)據(jù)的RDM。

(B)神經(jīng)和行為RDM通過部分秩相關(guān)性關(guān)聯(lián),從神經(jīng)數(shù)據(jù)中解碼不同人物特征表征的時(shí)間軸。

(C)神經(jīng)、行為和聲學(xué)RDM示例

 

在66毫秒內(nèi),大腦就能分辨出不同的聲音

對所有被試的神經(jīng)RDM的上三角形(不包括對角線)每個(gè)時(shí)間點(diǎn)的所有成對解碼準(zhǔn)確度取平均值。結(jié)果顯示,在刺激開始后66 ms至700 ms之間,大腦能夠有效地區(qū)分不同的聲音記錄,并且在154毫秒時(shí)達(dá)到了最高的解碼準(zhǔn)確度峰值(平均準(zhǔn)確度為53.1%,圖3,灰線)。

 

圖3:關(guān)于人物特征(性別、年齡、健康、主導(dǎo)性、吸引力、可信度、教育程度、和專業(yè)性)感知時(shí)間過程不同模型的比較;

最后一張圖為每個(gè)聲音可以從神經(jīng)數(shù)據(jù)中解碼出來的平均配對解碼準(zhǔn)確率

表1:不同的人的特征表征可以從神經(jīng)數(shù)據(jù)中解碼的顯著簇和時(shí)間點(diǎn)

 

人物特征在大腦中表征的時(shí)間過程進(jìn)程

通過計(jì)算和比較三種不同類型的RDM(神經(jīng)、行為和聲學(xué))將EEG數(shù)據(jù)與行為評分?jǐn)?shù)據(jù)進(jìn)行關(guān)聯(lián)。使用Spearman的部分秩相關(guān)性來評估神經(jīng)RDM、行為RDM和聲學(xué)RDM矩陣的下三角部分,揭示出每個(gè)時(shí)間點(diǎn),神經(jīng)反應(yīng)、行為評分以及聲學(xué)差異之間的相關(guān)性。具體來說,建立了三個(gè)模型(見圖2B):

Model 1是基線模型,通過控制LTAS(長時(shí)平均頻譜)的成對相似度矩陣,去除低級聲學(xué)特性后,觀察大腦對人物特征的表示方式。

Model 2在Model 1的基礎(chǔ)上通過控制聲學(xué)矩陣(LTAS矩陣和主成分矩陣),控制感知顯著的聲學(xué)特性(能被人類感知并影響人類對聲音或人物特征感知的音頻特征)差異。觀察去除感知上顯著的聲學(xué)差異后,人物特征表示的變化。

Model 3控制了三個(gè)重要的變量:LTAS矩陣、感知顯著的聲學(xué)差異、所有已知的行為矩陣,計(jì)算了行為RDM和神經(jīng)RDM之間的時(shí)間相關(guān)性,進(jìn)而識別不受聲音聲學(xué)特性和其他感知特征影響的抽象人物特征。

 

Model 1:在聽到聲音的100毫秒內(nèi),可以解碼身體、性格和社會(huì)特征的表征。

神經(jīng)和行為RDM(代表性距離矩陣)之間顯著相關(guān)性,所有人物特征的表征都可以在刺激開始后80 ms到102 ms之間被檢測到,并在100 ms到200 ms之間達(dá)到第一個(gè)峰值,這些表征通常會(huì)持續(xù)到至少435 ms,如性別特征。在持續(xù)時(shí)間上,性別、主導(dǎo)性、吸引力、教育程度等特征的表示通常在刺激結(jié)束后不久便檢測不到了,其他人物特征(如健康、信任度、專業(yè)性等)則可以持續(xù)更長時(shí)間,如專業(yè)性的表征在采樣時(shí)間窗口的末尾仍然顯著(見圖3,紫色線,表1)。

Model 1證明人物特征的表征并非分階段出現(xiàn),而是所有特征的表征幾乎同步出現(xiàn)。

 

Model 2:感知顯著的聲學(xué)特性與人物特征感知的早期階段密切相關(guān)

Model 2的結(jié)果表明:感知顯著的聲學(xué)特性對人物特征的影響在時(shí)間上與Model 1類似,但性別感知的時(shí)間范圍有所變化。在Model 2中,性別的表征只能在85毫秒到362毫秒之間被檢測到(參見圖4,藍(lán)色線,表1)。

感知顯著的聲學(xué)特性主要影響的是人物特征感知的早期階段(表2):相較于Model 1,在Model 2中,性別、健康、主導(dǎo)性和吸引力四個(gè)特征在96 ms到236 ms的時(shí)間窗口內(nèi),神經(jīng)RDM和行為RDM之間的相關(guān)性顯著降低。而可信度、教育程度、和專業(yè)性這些特征,感知顯著聲學(xué)特征對其表征的影響持續(xù)時(shí)間較長,延續(xù)至388 ms及之后。

排除了感知顯著的聲學(xué)特征后,人物特征的表征依然能夠在80 ms到至少435 ms的時(shí)間范圍內(nèi)通過EEG數(shù)據(jù)顯現(xiàn)出來,表明人物特征的表征不僅僅依賴于聲學(xué)信息,而是由更高層次的認(rèn)知處理形成的。

 

Model 3: 獨(dú)立、抽象的人物特征表征在不同時(shí)間點(diǎn)出現(xiàn)

Model 3的目標(biāo)是檢測是否以及何時(shí)能夠發(fā)現(xiàn)獨(dú)立于聲學(xué)特性和其他人物特征(如性別、年齡等)的抽象神經(jīng)表征。通過雙樣本t檢驗(yàn)發(fā)現(xiàn),與Model 1相比,Model 3中神經(jīng)RDM和行為RDM之間的相關(guān)性顯著較低(見圖3,粉色線和表2)。這表明,在Model 3中,大多數(shù)人物特征的獨(dú)立神經(jīng)表征消失了。通過單樣本t檢驗(yàn)發(fā)現(xiàn),健康、吸引力和教育程度這三個(gè)特征的抽象表征在Model 3中完全消失。性別(127 ms到181 ms)和年齡(94 ms到373 ms)的抽象表征仍然可以在較早的時(shí)間段被檢測到,而主導(dǎo)性(384 ms到432 ms)、可信度(647 ms到700 ms)和專業(yè)性(367 ms到535 ms)的獨(dú)立抽象表征則出現(xiàn)在較晚的時(shí)間段。

這表明,在去除聲學(xué)信息和其他人物特征后,只有部分抽象人物特征的表征仍然可以被檢測到,尤其是性別和年齡,而其他如健康、吸引力等特征則完全消失。

 

表2:不同模型對比的時(shí)間過程差異

 

四、總結(jié)

人物特征的感知過程并非一蹴而就,而是分階段、漸進(jìn)式的過程。早期的聲學(xué)信息對人物特征的表征有重要影響,隨著時(shí)間推移,這些表征逐漸變得抽象并獨(dú)立于聲學(xué)特性。不同類型的人物特征在大腦中的表征出現(xiàn)時(shí)間也不同,身體特征較早,而個(gè)性和社會(huì)特征稍晚。人物特征的感知可能會(huì)出現(xiàn)過度概括(overgeneralization)和光環(huán)效應(yīng)(halo effect),并導(dǎo)致人物特征之間的高相關(guān)性,但這一解釋仍然是推測性的(speculative),需要更多的未來研究來驗(yàn)證這種因果關(guān)系的層次結(jié)構(gòu)是否真實(shí)存在。

本研究結(jié)果與最新的理論模型相一致,并為我們理解通過聲音感知他人時(shí)的大腦計(jì)算過程提供了新的視角。

來源:深圳瀚翔腦科學(xué)技術(shù)股份有限公司
聯(lián)系電話:18682487956
E-mail:sales@hanix.net

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com