SenseToKnow APP 是由杜克大學自閉症與腦部發展中心(Duke Middle for Autism and Mind Growth)和杜克大學普拉特工程學院(Duke College Pratt Faculty of Engineering)的研究人員共同開發的創新產品,這個團隊結合了兒童發展專家和資訊工程技術人員的專業知識,旨在創造一種更快速、更客觀的兒童發展評估工具。
APP 的開發緣起於自閉症早期篩檢的需求,傳統的篩檢方法往往依賴主觀判斷,而 SenseToKnow 團隊希望藉由機器學習來提供更客觀、量化的評估。這個 APP 設計為一個 10 分鐘的兒童發展篩檢工具,讓孩子觀看短影片和玩泡泡遊戲來收集行為數據。
團隊正在進行名為 STAR Examine 的研究,評估 APP 在追蹤兒童早期發展方面的效果。截至 2025 年 1 月,SenseToKnow 已經在臨床和家庭環境中進行了大規模驗證,已有 1052 名受試者的數據。
在孩子 9 到 18 個月大時,我們通常可以觀察到一些自閉症的行為徵兆,諸如:
1. 對人的關注度較低
2. 對叫喚名字反應不佳
3. 動作發展遲緩
4. 臉部表情的差異,較少使用表情來溝通
目前的標準做法是在孩子 18 到 24 個月大時,使用一份名為「自閉症幼兒篩檢修訂量表(M-CHAT-R/F)」的問卷來進行廣泛篩檢,由照顧者填寫。然而,一項大規模研究發現,M-CHAT-R/F 對於女孩、有色人種的孩子和非英語系家庭的自閉症檢測準確度較低,這個方式也需要照顧者具備一定的識字能力、不同文化背景的照顧者可能對篩檢問題有不同的理解、需進行後續的臨床會談。因此,我們需要一種高效客觀的自閉症篩檢工具,能夠直接觀察早期自閉症徵兆,提高篩檢的準確性。
科技在自閉症篩檢中的應用
近年來,科技發展在自閉症篩檢的應用有了不少例子:
1. 眼動追蹤:一項研究使用眼動追蹤設備評估 1863 位 12 到 48 個月大孩子的社交注意力,結果顯示特異性很高(98.0%)、但敏感性較低(17.0%)。
2. 移動應用程式:一些研究使用手機 APP 來評估自閉症孩子和一般兒童在情緒模仿與注視模式上的差異,但這些 APP 在早期自閉症篩檢方面還需要進一步評估。
SenseToKnow:自閉症篩檢 APP
「SenseToKnow」這款 APP 的設計目的是評估幼兒的多種自閉症相關行為,包括社交注意力;APP 可以在 iPhone 或 iPad 上執行,不需要額外設備,使用起來非常方便。操作方式很有趣,它會播放特別設計過的影片和一個戳泡泡的遊戲,同時藉由裝置的前置攝影鏡頭和觸摸/慣性感測器記錄孩子的行為反應。然後,APP 會自動使用電腦視覺和機器學習分析這些行為。
SenseToKnow 能夠檢測和量化以下行為模式:
1. 社交注意力/注視
2. 頭部運動
3. 臉部表情的複雜性
4. 眨眼頻率
5. 對呼喚名字的反應
6. 動作行為
在之前的研究中,團隊評估了 SenseToKnow 在兒科基層醫療體系中使用 iPad 進行自閉症檢測的準確性。結果顯示,基於多種數位表現型(Digital Phenotypes)訓練的機器學習演算法具有很高的診斷準確性,ROC 曲線下面積達到 0.90,敏感性為 87.8%,特異性為 80.8%。
遠距醫療的需求與挑戰
隨著遠距醫療需求的增加,去除篩檢、診斷和治療障礙的潛力也逐漸浮現,特別是在兒童發展和行為障礙等方面。例如 Canvas Dx 是款行動健康(Cellular Well being)篩檢工具,整合家長和臨床醫師的報告、及手動編碼的兒童行為影像記錄;ASDetect 這款 APP 則使用孩子的影片來協助照顧者完成有關孩子發展的問卷。
這次我們來評估 SenseToKnow 這款完全自動化、基於對孩子行為直接觀察和評估的 APP 在家庭環境中由照顧者使用自己的設備上下載和使用時的準確性。研究的所有環節都是遠距進行的,包括:
1. 透過線上醫療照護平台招募受試者
2. 提供電子版同意書
3. 透過 YouTube 或 Zoom 提供 APP 使用說明
4. 透過 Zoom 進行標準化的遠距診斷評估
為了方便非英語系家庭參與,研究也提供西班牙語版本。
研究受試者
這項研究從 2020 年 9 月持續到 2023 年 12 月,共招募了 756 名年齡在 16 到 40 個月之間、排除因感覺或動作障礙而無法坐著或觀看 APP 的孩子,團隊透過線上醫療平台、電子郵件、電話以及醫師轉介等方式招募會說英語或西班牙語的照顧者。最終有 620 名幼兒(佔 82%)完成所有研究評估,他們的影片通過了初步的電腦視覺分析有效性檢查;在這 620 名受試者中,有 247 名孩子在 M-CHAT-R/F 問卷結果呈陽性,或者讓照顧者或醫療人員懷疑有自閉症的可能。
診斷過程
研究團隊的心理師使用「TELE-ASD-PEDS」這個用視訊方式專門為幼兒設計的遠距自閉症評估工具來進一步評估受試的孩子。經評估,最終診斷結果:
1. 188 名兒童被診斷為自閉症類群障礙(Autism Spectrum Dysfunction, ASD)
2. 31 名兒童被診斷為發展遲緩(但不是自閉症)
3. 401 名兒童被認為是正常發展
在這 401 名正常發展的孩子當中:
– 374 名在 M-CHAT-R/F 問卷中呈陰性,且照顧者和醫療人員都沒有任何發展方面的擔憂
– 27 名雖然在 M-CHAT-R/F 問卷中呈陽性,但經過診斷評估後被認為是正常發展
為了研究需要,團隊將發展遲緩和正常發展的孩子合併為一個「非自閉症組」,共 432 名。
受試者人口統計特徵
研究樣本多樣性:
– 約 15% 是黑人或非裔美國人
– 約 16% 是西班牙裔/拉丁裔
自閉症組的受試者平均年齡比非自閉症組大了約 9 個月。為了控制年齡因素可能帶來的影響,研究團隊進行了針對 30 個月以下兒童的年齡配對子樣本分析。
APP 的使用方法
1. 使用指導:團隊用 YouTube 影片或 Zoom 視訊會議向照顧者解釋如何使用 APP,讓照顧者可以選擇最適合自己的學習方式。
2. 使用姿勢:照顧者需要把孩子抱在膝上,讓孩子觀看放在桌上約 60 公分遠的 iPhone 或 iPad 上的影片。
3. 使用時間:整個過程大約需要 10 分鐘。
4. APP 內容:APP 包含 11 個簡短的適齡影片和一個戳泡泡遊戲。
5. 資料收集:裝置的前置攝像鏡頭會記錄孩子觀看影片時的行為反應,APP 會為每個影片產生一個同步的影片片段。
6. 互動遊戲:在戳泡泡遊戲中,照顧者將裝置平放在桌上,簡單示範後,讓孩子用觸摸螢幕的方式戳破浮動的泡泡,同時記錄觸碰螢幕的相關資料。
特徵提取
1. 影片分析:每秒鐘捕捉 30 幀畫面,並與播放的影片同步。
2. 臉部追蹤:分析影片以追蹤孩子的臉部。
3. 特徵點提取:從臉部提取 49 個特徵點,並測量頭部相對於裝置的角度。
4. 注視特徵:使用深度神經網絡從影片中提取注視特徵。
5. 有效性評估:利用臉部特徵點和頭部角度來評估每段影片是否有效。
6. 行為特徵提取:如果影片有效,則進一步提取孩子的行為特徵。
SenseToKnow APP 使用的是一種多任務學習(Multi-task Studying)的深度神經網路架構。這種架構不僅可以同時處理多個相關任務,還能在這些任務之間共享學習到的特徵,提高整體性能。APP 中主要的任務包括:
1. 臉部特徵點檢測:APP 採用卷積神經網路(CNN)來精確定位 49 個臉部關鍵點,藉由多層卷積和池化操作,逐步提取臉部的層次特徵,最終輸出這些特徵點的精確坐標。這些特徵點包括眼角、嘴角、鼻尖等關鍵位置,為後續的姿勢預測和表情分析提供基礎數據。
2. 頭部姿勢預測:基於檢測到的特徵點,APP 使用深度回歸網路來估算頭部的三維旋轉角度。這個網路接收特徵點的相對位置作為輸入,通過多層非線性變換,輸出頭部在俯仰(Pitch)、偏航(Yaw)和翻滾(Roll)三個軸上的旋轉角度。這種方法能夠準確捕捉頭部的細微動作,為評估孩子的注意力和社交互動提供重要線索。
3. 注視方向分析:APP 結合深度神經網路和注意力機制(Consideration Mechanism)來分析兒童的注視行為,注意力機制允許模型動態地聚焦於圖像中的重要區域,特別是眼睛周圍。這種方法不僅能夠確定眼球的位置,還能捕捉眼瞼和眉毛的微小變化,從而更準確地推斷注視方向和持續時間,這對於評估孩子的社交注意力和共同注意力十分重要。
4. 表情複雜度評估:為了分析表情變化的時間序列數據,APP 使用遞歸神經網路(RNN)或長短期記憶網路(LSTM),這些網路架構特別適合處理序列數據,能夠捕捉表情隨時間的變化模式。RNN/LSTM 不僅考慮當前時刻的表情狀態,還能利用之前的資訊,從而評估表情的複雜度、變化頻率和持續時間,對於識別自閉症兒童可能表現出的表情表達差異具有重要意義。
這個多任務學習架構的核心是一個共享的特徵提取網路,通常是一個預訓練的深度卷積神經網路,如 VGG16 或 ResNet。這個網路經過微調,能夠從孩子臉部圖像中提取出與自閉症相關的高級特徵。
在特徵提取之後,網路分支為多個子網路,每個子網路負責一個特定任務,觀察孩子行為的特定方面,如臉部表情、頭部動作、眼睛的動向。這些子網路通常由幾層「神經元」組成,包含幾層全連接層,這些層就像是子網路的「思考過程」,將原始的視覺資訊轉化為有意義的觀察結果,有時還會加入注意力層來突出重要特徵。例如,注視方向分析的子網路可能會使用空間注意力機制來聚焦於眼睛周圍區域。
為了處理時間序列數據,如眨眼頻率和表情變化,APP 可能還整合了時間卷積網路(TCN)或者變換器(Transformer)架構。這些模型能夠捕捉長期依賴關係,對於分析自閉症兒童的行為模式特別有效,因為自閉症的一些特徵可能表現在較長時間的行為模式中。例如,重複性行為、對某些刺激的持續反應等,這些都需要長時間的觀察才能發現。
a) 時間卷積網路(TCN):
當我們在看一捲膠卷,不是一幀一幀地看、而是同時觀察一小段連續的畫面。這樣我們就能捕捉到動作的連貫性。TCN 就是這樣工作,可以同時處理一段時間內的資料,從而理解行為的變化過程。
b) 變換器(Transformer)架構:
具有超級記憶力和關聯能力的變換器可以「記住」很長時間內的行為模式,並且能夠將遠距離的事件聯繫起來。例如,它可以發現孩子在看到某個物品時總是會有特定的表情變化,即使這兩個事件之間間隔了一段時間。
此外,為了提高模型的 Robustness(模型在面對各種干擾和變化時,仍能保持穩定性能的能力)和泛化能力,SenseToKnow 可能採用:
1. 數據增強 (Information Augmentation):透過旋轉、縮放、添加雜訊等方式擴充訓練數據,提高模型對各種環境條件的適應性。
2. 對抗訓練 (Adversarial Coaching):像是給模型「打疫苗」,故意製造一些容易混淆模型的數據,讓模型學會應對這些「詭計」,來增強模型的穩定性,特別是在面對不同種族、年齡層的孩子時。
3. 遷移學習 (Switch Studying):利用在大規模人臉數據集上預訓練的模型,然後在自閉症相關數據上進行微調,這樣可以克服自閉症數據集通常較小的問題。
4. 集成學習 (Ensemble Studying):結合多個模型的預測結果,如使用 Bagging 或 Boosting 技術,以提高整體準確性和穩定性。
最後,為了實現在行動設備上的實時運作,SenseToKnow 可能使用模型壓縮和量化技術。例如,使用知識蒸餾(Information Distillation)將大型模型的知識轉移到更小的模型中,或者使用網路剪枝(Community Pruning)來減少模型的參數量。
電腦視覺分析的有效性檢查
研究團隊非常重視資料的品質,設計了嚴格的有效性檢查流程:
1. 有效比率:89% 的 APP 使用被認為是有效的。
2. 評估標準:演算法會評估所有 11 個影片片段,只有當以下條件滿足時,才會將該幀畫面視為可用:
— 自動檢測到孩子的臉部特徵點
— 頭部角度在預期範圍內
— 孩子與螢幕的距離適當
3. 有效性門檻:如果一個影片片段中超過 50% 每幀畫面是可用的,則該片段被視為有效。
4. 整體有效性:如果 11 個片段中有 6 個以上是有效的,則整個 APP 使用過程被視為有效,可以進行行為特徵提取。
5. 人工驗證:研究團隊隨機選取了 500 個影片片段進行人工編碼,以評估電腦視覺分析有效性算法的準確性。
6. 特徵提取:最終,研究團隊提取了 23 個經過驗證、基於電腦視覺分析的行為特徵。
統計分析
1. 年齡因素處理:
年齡可能會影響孩子早期的社交溝通和感覺運動行為表現。為了控制這個變數,團隊使用線性回歸模型,並將模型的殘差作為 Enter,以排除年齡對結果的影響。
2. 機器學習模型選擇:
採用 Excessive 梯度提升(XGBoost)算法,處理缺失數據、類別不平衡的問題。
3. 模型評估指標:
— 主要使用 ROC 曲線下面積(AUROC)來評估分類性能,同時考慮模型的敏感性和特異性。
— 採用 Fivefold Nested Cross-Validation,提供穩健的性能評估。
4. 信賴區間計算:
使用 Hanley 和 McNeil Methodology 計算 95% 的信賴區間。
5. 模型解釋性:
使用 SHAP 值來解釋各個變量對預測結果的影響,可以幫助研究人員和臨床醫師理解模型的決策過程,增加了模型的可解釋性和可信度。
6. 預測值校正:
考慮到自閉症的盛行率(1/36),對陽性預測值(PPV)和陰性預測值(NPV)進行了校正。
7. 統計軟體:
所有統計分析都在 Python 3.8.10 版本中完成。
電腦視覺分析有效性算法的準確度
Accuracy of Pc Imaginative and prescient Evaluation Validity Algorithm
1. 高度一致性:人工編碼和電腦視覺分析的有效性檢查顯示出高度一致(okay=0.97)。
2. 跨種族一致性:高度一致性在不同種族間保持穩定。
3. 裝置無關性:結果不受裝置類型影響。
這個結果告訴我們,這款 APP 的自動化分析系統相當可靠,幾乎可以達到人工判斷的準確度,對於大規模應用來說是非常重要。
診斷準確性及跨設備比較
Diagnostic Accuracy and Comparisons Throughout System Sorts
研究團隊考慮到不同設備(iPhone 和 iPad)的螢幕尺寸差異,將螢幕大小作為一個共變數加入分析,使用 23 個經年齡調整的行為特徵和螢幕尺寸來訓練 XGBoost 模型,以區分自閉症和非自閉症群體。
研究比較了三個模型:
1. 模型 1:所有參與者(188 名自閉症;432 名非自閉症)
2. 模型 2:僅 iPad 用戶(101 名自閉症;133 名非自閉症)
3. 模型 3:僅 iPhone 用戶(87 名自閉症;299 名非自閉症)
結果顯示,診斷準確性在不同裝置間相似:
– 模型 1:AUROC 為 0.92±0.01,敏感性為 83.0±5.4%,特異性為 93.3±2.4%
– 模型 2:AUROC 為 0.91±0.02,敏感性為 86.1±6.7%,特異性為 87.2±5.6%
– 模型 3:AUROC 為 0.90±0.02,敏感性為 85.1±7.5%,特異性為 92.6±2.9%
這些結果與之前在小兒科診所使用 iPad 進行的研究結果相符,顯示了 APP 的穩定性和可靠性。特別值得注意的是,對於 30 個月以下的孩子,APP 的診斷準確性仍然很高:AUROC 為 0.90±0.03,敏感性為 78.0±7.6%,特異性為 94.8±2.1%,表示這款 APP 對於更小的孩子也有很好的適用性。
SHAP 分析
團隊使用 SHAP(SHapley Additive exPlanation)值來解釋預測特徵的相對重要性,可以幫助我們理解模型是如何做出決策的,增加模型的可解釋性。研究提供了四個不同受試者的個別化 SHAP 圖,展示了每個特徵對最終預測結果的貢獻,幫助醫師理解每個個案的具體情況。
性別、種族和族裔的比較
研究結果顯示,APP 的診斷準確性在不同群體間保持穩定:
1. 性別:男孩和女孩的診斷準確性相當。
2. 種族:白人和黑人兒童的診斷準確性相似。(由於非自閉症的黑人兒童樣本量較小,影響特異性和陰性預測值的計算,但可以透過調整操作點來平衡性能)
3. 族裔:西班牙裔/拉丁裔和非西班牙裔/拉丁裔兒童的診斷準確性相當。