綜述：通過微調文本到圖像擴散模型生成靜水水體藍藻水華合成圖像的定制化研究 - 生物通

今日動態返回首頁

登錄會員注冊生物通快訊免費訂閱

生物通首頁 > 今日動態 > 正文

綜述：通過微調文本到圖像擴散模型生成靜水水體藍藻水華合成圖像的定制化研究

《Expert Systems with Applications》：Customization of the text-to-image diffusion model by fine-tuning for the generation of synthetic images of cyanobacterial blooms in lentic water bodies

【字體：大中小】 時間：2025年05月15日 來源：Expert Systems with Applications 7.5

編輯推薦：

　　該綜述聚焦藍藻水華監測難題，提出將機器視覺系統（MVS）集成至自主水面航行器（ASV），利用卷積神經網絡（CNN）監測。針對數據不足，采用 DreamBooth 微調 Stable Diffusion XL（SDXL）模型，結合大語言模型（LLM）生成多樣提示詞，提升合成圖像真實性與多樣性，優化雙任務 CNN 模型性能。

　　

1. 引言

水是維持生命和生態平衡的重要自然資源，但易受多種環境壓力影響。藍藻水華在全球水生系統中頻發，對環境和公共健康構成嚴重威脅，還會造成經濟損失。早期檢測和持續監測藍藻水華對水質管理至關重要，但傳統方法資源消耗大，遙感技術受氣象和時間分辨率限制。

近期研究利用配備機器視覺系統（MVS）的自主水面航行器（ASV）檢測藍藻水華，ASV 可在這些水生生態系統中導航，同時確保安全航行和有效避障。然而，訓練和驗證深度學習模型缺乏足夠真實圖像，且真實圖像存在 licensing 問題，合成圖像真實感不足。藍藻水華的動態行為也增加了獲取真實圖像的難度。因此，本研究提出一種新方法生成足夠真實的合成圖像，以訓練和驗證深度學習模型，圖像需包含 ASV 的導航障礙物和藍藻水華。

文本到圖像模型如 DALL-E2、Stable Diffusion 等能生成逼真圖像，但難以合成藍藻水華等新概念，因其訓練數據未包含這些概念。為此，研究采用個性化圖像生成技術，基于少量代表特定概念的圖像微調預訓練的文本到圖像模型。

2. 相關工作

2.1 文本到圖像合成

文本到圖像合成旨在彌合人類語言與視覺內容的語義鴻溝，近年來因深度學習、大數據和高性能計算的發展取得顯著進展，從生成對抗網絡（GANs）、自回歸模型到擴散模型不斷演進。擴散模型如 Stable Diffusion 在生成高質量、多樣化圖像方面表現出色，但難以準確生成訓練數據中未充分呈現的新概念，如藍藻水華，需結合定制化微調與語義增強策略。本研究選擇 SDXL 作為基礎模型，因其輸出分辨率高、開源且支持微調與定制。

2.2 個性化圖像合成

標準文本到圖像模型在生成訓練數據未包含的特定定制概念時存在局限，模型定制技術通過少量參考圖像使模型整合并生成用戶定義的特定概念。本研究采用 DreamBooth 技術微調 SDXL 模型，該技術能利用唯一標識符將新概念與特定主題匹配，通過有限參考圖像生成新概念的多樣圖像，保留輸入概念的視覺特征。

2.3 文本到圖像生成的提示工程

大語言模型（LLM）和文本到圖像擴散模型的發展推動了提示工程的發展，其關鍵在于設計高質量提示詞。手動生成符合要求的提示詞耗時費力，需利用 LLM 自動化生成多樣有效提示詞。本研究經對比分析，采用少樣本 / 上下文學習（ICL）技術，通過提供具體示例引導 LLM 生成符合結構和細節要求的提示詞，平衡效果與實施可行性。

3. 方法

3.1 數據集

本研究使用兩個數據集。第一個數據集包含從真實圖像提取的藍藻水華斑塊，經數據增強后合成到背景圖像，用于微調 SDXL 模型。第二個數據集含 3286 張訓練圖像和 822 張驗證圖像，描繪多種水生環境，包含各類物體和藍藻水華，用于訓練和評估雙任務模型，該數據集提供對象級和像素級注釋。

3.2 雙任務模型

采用基于 CNN 的雙任務架構，由主干、頸部和頭部組成，頭部分為對象檢測和語義分割分支。對象檢測分支基于 YOLOv3 結構，因其速度、易用性和準確性，頸部采用卷積塊注意模塊（CBAM）。語義分割分支對比 BiSeNet、DeepLabV3 + 和 PSPNet，最終采用 PSPNet，因其性能最佳。

3.3 Stable Diffusion XL 微調

為生成包含藍藻水華的合成圖像，使用 DreamBooth 技術微調 SDXL 模型。從第一個數據集選取 10 個真實藍藻水華斑塊，為避免與 SDXL 模型常見概念重疊，分配唯一標識符 “hcb”，類名為 “cyanobacterial blooms”，構建實例提示詞 “a photo of hcb cyanobacterial blooms”。

3.4 提示詞生成

利用 LLaMa 2 自動生成提示詞，采用少樣本 / 上下文學習技術，提供兩個示例 “Shot 1: Obstacle Example (No Cyanobacterial Bloom)” 和 “Shot 2: Obstacle with Cyanobacterial Bloom Example”，包含主體、環境、視角、 lighting、風格等細節。指令 LLaMa 2 按結構生成 140 個提示詞，涵蓋 7 類障礙物在有無藍藻水華情況下的多樣場景。

3.5 圖像生成

使用微調后的 SDXL 模型生成合成圖像，每個障礙物類型根據提示詞生成 100 張圖像，共 700 張障礙物圖像和 700 張藍藻水華圖像。手動篩選后，最終訓練集含 600 張合成圖像。盡管數量看似較少，但足以驗證方法有效性。

3.6 實施細節

圖像生成使用 SDXL 預訓練模型，通過 huggingface 的第三方實現進行 DreamBooth 微調，設置批量大小、學習率和訓練步數。雙任務模型采用隨機梯度下降（SGD）優化器，經網格搜索確定學習率、衰減、動量等超參數，訓練約 100 個 epoch，模型損失穩定下降，證明超參數有效性。

3.7 評估指標

通過雙任務 CNN 模型評估 SDXL 生成的合成圖像，對象檢測采用平均精度均值（mAP），置信度閾值 0.5；語義分割采用平均交并比（mIoU）。

4. 結果與討論

4.1 定量比較

雙任務 CNN 模型分別在三個數據集上訓練并在同一測試集評估。僅使用真實數據集時，模型在部分類表現良好，但少數類因多樣性不足和類不平衡表現不佳。使用 SDXL 生成的合成圖像訓練的模型，在少數類上顯著提升，如 “dog”“bird”“rock”“trunk” 類的 mAP 提升明顯�；旌蠑祿柧毜哪Ｐ驼w性能最佳，得益于更大更豐富的圖像集。語義分割分支中，合成圖像訓練的模型在低代表性類提升顯著，混合數據集進一步優化性能。

4.2 定性比較

從視覺結果看，不同數據集訓練的雙任務 CNN 模型在樣本圖像上均有不錯表現。真實數據集訓練的模型對象檢測和語義分割合理；合成圖像訓練的模型預測更準確；混合數據集訓練的模型在對象檢測和語義分割邊界清晰度上略有提升，但整體視覺和定性差異不顯著。

5. 結論

本研究提出結合 DreamBooth 微調 SDXL 模型與 LLM（LLaMa 2）生成提示詞的方法，合成藍藻水華和導航障礙物的真實圖像，解決 CNN 訓練驗證樣本不足問題，提升 ASV 搭載 MVS 系統檢測藍藻水華和識別障礙物的能力。實驗表明，合成圖像加入訓練驗證數據集可改善真實圖像數據集中少數類性能，合成數據集使對象檢測和語義分割分別提升達 15.74% 和 6.48%，混合數據進一步提升。該方法在環境監測中有效，且在醫學成像、遙感等領域有應用潛力。

研究也存在局限，如合成圖像可能存在細微偽影，提示詞質量依賴 LLM 能力，合成數據更適合作為真實數據補充。未來將探索更復雜提示工程、多模態擴散模型、新型對象檢測架構，以及在 ASV 上實時實施圖像生成管道，實現閉環學習系統。

相關新聞

生物通微信公眾號

微信

新浪微博

搜索
國際
國內
人物
產業
熱點
科普

熱搜：藍藻水華|靜水水體|自主水面航行器（ASV）|機器視覺系統（MVS）|卷積神經網絡（CNN）|Stable Diffusion XL（SDXL）|DreamBooth|大語言模型（LLM）|對象檢測|語義分割

急聘職位
高薪職位

知名企業招聘

熱點排行

新聞專題

今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

版權所有生物通

Copyright© eBiotrade.com, All Rights Reserved

聯系信箱：

粵ICP備09063491號

亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线