Close Menu
    Trending
    • What comes next for AI copyright lawsuits?
    • Why PDF Extraction Still Feels LikeHack
    • GenAI Will Fuel People’s Jobs, Not Replace Them. Here’s Why
    • Millions of websites to get ‘game-changing’ AI bot blocker
    • I Worked Through Labor, My Wedding and Burnout — For What?
    • Cloudflare will now block AI bots from crawling its clients’ websites by default
    • 🚗 Predicting Car Purchase Amounts with Neural Networks in Keras (with Code & Dataset) | by Smruti Ranjan Nayak | Jul, 2025
    • Futurwise: Unlock 25% Off Futurwise Today
    AIBS News
    • Home
    • Artificial Intelligence
    • Machine Learning
    • AI Technology
    • Data Science
    • More
      • Technology
      • Business
    AIBS News
    Home»Machine Learning»論文筆記 CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning | by Gordon Fang | Jan, 2025
    Machine Learning

    論文筆記 CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning | by Gordon Fang | Jan, 2025

    Team_AIBS NewsBy Team_AIBS NewsJanuary 1, 2025No Comments1 Min Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    前言

    深偽音頻檢測(Audio Deepfake Detection,以下簡稱 ADD)是在做真實人聲與合成人聲的檢測任務,是一個二元分類任務。

    目前在 ADD 任務遇到最大的問題莫過於訓練與測試的資料集太舊,無法與時俱進,現在有 Codec, Diffusion Mannequin 生成的合成人聲,第二問題是模型泛化能力,假如訓練在已知的資料集上,在未知的資料集表現不見得好。

    論文網址:https://arxiv.org/pdf/2404.15854

    本篇論文基於前言之任務所提出的架構,主要是使用對比式學習訓練模型,此外也有對音頻做加工,例如:噪音注入、音量調整、回音等等,這些加工當作是合成人聲的變化攻擊,為什麼會說是攻擊是因為有心人士有可能利用這些技巧躲過監測合成人聲的模型。

    CLAD 模型架構

    他們的模型架構是這樣的音頻進來後經過加工處理,通常會轉成 16Khz、取 64600 個採樣數,約莫 4 秒時間,如果音頻時間不足採樣點,以音頻片段填充直至指定採樣數,以上是 ADD 任務統一的處理方式,再來是加噪、聲量調大的加工,依照實驗組不同,加工不會一次全處理,有些實驗組是專門看加入噪音檢測會不會變差,有些組是看聲音調大會不會影響檢測結果。

    音頻會經過 Encoder,論文程式碼預設是一個叫 AASIST 檢測模型(論文連結:https://arxiv.org/pdf/2110.01200),Encoder 會輸出音頻高維的表徵,他們用這個高維表徵來計算對 Contrastive Studying Loss、Size Loss,同時將負向樣本(合成人聲)儲存到一個 Queue。

    最後高維表徵會餵給一個一層的 Totally linked layer network的分類器,會輸出兩維的機率,分別是合成人聲、真實人聲,分類器是用 Cross Entropy Loss。

    以下特別講一下 Contrastive Studying Loss、Size Loss。

    Contrastive Studying Loss

    N 是 batch measurement,q 是正向樣本(真實人聲)、ok+也是(真實人聲),kj 是負向樣本(合成人聲)、t 是溫度係數,從公式可以看得出分子是真實人聲與真實人聲乘積,而分母則是一個正向樣本與 j 個負向樣本的乘積加總,他們的概念是這樣讓真實人聲與真實人聲盡可能越靠近越好,也就是分母越大越好,讓真實人聲與合成人聲盡可能越靠遠越好,也就是分子越小越好。

    Contrastive Studying Loss

    那 j 個負向樣本(合成人聲)是怎麼來的?是每一次取批次樣本的時候將負向樣本存到一個 Queue,當 Queue 滿到一定水位會清楚一部分負向樣本,這樣最大的好處是因為下一次批次取樣有可能忘記前一個批次學到什麼負向樣本,這個概念是從 Momentum Distinction for Unsupervised Visible Illustration Studying(MOCO) (論文連結:https://arxiv.org/abs/1911.05722)這篇論文所提出的。

    Momentum Distinction

    Size Loss

    因為怕只有一個 Contrastive Studying Loss 稍嫌不足,他們提出另一個 loss,他們規範了一個範圍,讓真實人聲的向量長度(Norm)不要超過這個範圍,讓合成人聲超過,如下圖( C )。

    Size margin

    N 是 batch measurement,y 是標籤,1 代表真實人聲,0 代表合成人聲,w 是真假樣本調節權重,margin 是向量長度半徑距離,如果真實樣本稀少,則 w 值應往上加,公式主要分兩部份,先說明前半部,當 yi 為 1 時,計算該真實樣本的 loss,yi * w * ||qi|| ,目的是使其往中心靠攏,後半部則是 yi 為 0 時才會計算,margin 跟合成人聲樣本向量長度相減,如果結果值大於 0 則取其當作是 loss,反之為 0,最主要目的是使其向量長度超出 margin。

    Size Loss

    他們使用的是 Asvspoof 2019 LA 的資料集,評估模型,有做跟其他 baseline 模型比較、替換不同 Encoder 模型評比、以及替換不同 Loss 的消融實驗

    替換不同 Loss 的消融實驗

    Vanilla 上游模型的 Encoder 不使用 Loss operate, CL 只採用 Contrastive Studying、LL 只採用 Size Loss、CLAD 兩者 loss operate 都用。

    評比指標是 FAR ,即接受合成人聲為真實人聲的比率,該指標越低越好。

    下面的表格我們可以看見不同的 loss 訓練的模型測試在同一資料集但音頻資料不同的加工上,我們直接看 None 那一欄,光是 LL 的 FAR 2%,勝過 CL的 4.36%,兩者加起來則可以下降到 1.11%。



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous Article4 simple strategies to declutter and get organized
    Next Article Transforming Data into Solutions: Building a Smart App with Python and AI | by Vianney Mixtur | Jan, 2025
    Team_AIBS News
    • Website

    Related Posts

    Machine Learning

    Why PDF Extraction Still Feels LikeHack

    July 1, 2025
    Machine Learning

    🚗 Predicting Car Purchase Amounts with Neural Networks in Keras (with Code & Dataset) | by Smruti Ranjan Nayak | Jul, 2025

    July 1, 2025
    Machine Learning

    Reinforcement Learning in the Age of Modern AI | by @pramodchandrayan | Jul, 2025

    July 1, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    What comes next for AI copyright lawsuits?

    July 1, 2025

    I Tried Buying a Car Through Amazon: Here Are the Pros, Cons

    December 10, 2024

    Amazon and eBay to pay ‘fair share’ for e-waste recycling

    December 10, 2024

    Artificial Intelligence Concerns & Predictions For 2025

    December 10, 2024

    Barbara Corcoran: Entrepreneurs Must ‘Embrace Change’

    December 10, 2024
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    Most Popular

    How AI Is Leveling the Playing Field For Small Businesses to Compete With Industry Giants

    March 7, 2025

    Gemini Robotics uses Google’s top language model to make robots more useful

    March 12, 2025

    File Your Taxes Early With 33% off H&R Block

    February 23, 2025
    Our Picks

    What comes next for AI copyright lawsuits?

    July 1, 2025

    Why PDF Extraction Still Feels LikeHack

    July 1, 2025

    GenAI Will Fuel People’s Jobs, Not Replace Them. Here’s Why

    July 1, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2024 Aibsnews.comAll Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.