Browsing: Machine Learning

इजिप्ट के पिरामिड: प्राचीन मिस्र की रहस्यमयी संरचनाएंइजिप्ट के पिरामिड विश्व की सबसे प्रसिद्ध और रहस्यमयी संरचनाओं में से एक…

前言深偽音頻檢測(Audio Deepfake Detection,以下簡稱 ADD)是在做真實人聲與合成人聲的檢測任務,是一個二元分類任務。目前在 ADD 任務遇到最大的問題莫過於訓練與測試的資料集太舊,無法與時俱進,現在有 Codec, Diffusion Mannequin 生成的合成人聲,第二問題是模型泛化能力,假如訓練在已知的資料集上,在未知的資料集表現不見得好。論文網址:https://arxiv.org/pdf/2404.15854本篇論文基於前言之任務所提出的架構,主要是使用對比式學習訓練模型,此外也有對音頻做加工,例如:噪音注入、音量調整、回音等等,這些加工當作是合成人聲的變化攻擊,為什麼會說是攻擊是因為有心人士有可能利用這些技巧躲過監測合成人聲的模型。CLAD 模型架構他們的模型架構是這樣的音頻進來後經過加工處理,通常會轉成 16Khz、取 64600 個採樣數,約莫 4 秒時間,如果音頻時間不足採樣點,以音頻片段填充直至指定採樣數,以上是 ADD 任務統一的處理方式,再來是加噪、聲量調大的加工,依照實驗組不同,加工不會一次全處理,有些實驗組是專門看加入噪音檢測會不會變差,有些組是看聲音調大會不會影響檢測結果。音頻會經過 Encoder,論文程式碼預設是一個叫 AASIST…