




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第23卷第2期2010年4月模式識別與人工智能PR& A IVo. 23 No 2Apr 2010圖像語義分析與理解綜述高雋 謝昭 張駿 吳克偉(合肥工業大學計算機與信息學院合肥 230009)摘要語義分析是圖像理解中高層認知的重點和難點,存在圖像文本之間的語義鴻溝和文本描述多義性兩大關 鍵問題.以圖像本體的語義化為核心,在歸納圖像語義特 征及上下文表示的基礎上,全面闡述生成法、判別法和句 法描述法3種圖像語義處理策略.總結語義詞匯的客觀基準和評價方法 .最后指岀圖像語義理解的發展方向 .關鍵詞 圖像理解,語義鴻溝,語義一致性,語義評價中圖法分類號TP391 4Im age Sem a
2、n tic Anal ysis and Un dersta ndi ng A ReviewGAO Jurj XIE Zhao ZHANG Jun WU Ke W ei(S chool of C on puter a nd In form atio n, H eei Un iversity cf T echn ology, H efei 230009)ABSTRACTSenantic analysis is the mportanee and difficulty of high level interpretation in mage understandhg n wh ich there a
3、re Wo key issuesof text m age sen a ntic gap and text descrip ti on polysemy Concen trat ing on semantization of mages ontology three sophisticated m ehodologies are roundly reviewed as gen eratve d iscrm in ative a nd descriptive gramm ar o n the basis of c on clud i ng mages sema ntic feau res and
4、 con text expressi on The objective be nchmark and evaluati on for sen a ntic vocabulary are in duced as wel.l Finally the summarized direct ions for further researches on sen a ntics n mage u ndersta nding are discussed in tensivelyK eyW ords Im age U ndersta nding, Sem a ntic Gap Sena nticC on sis
5、te ncy Sen a ntic Evaluatio n第23卷第2期2010年4月模式識別與人工智能PR& A IVo. 23 No 2Apr 2010第23卷第2期2010年4月模式識別與人工智能PR& A IVo. 23 No 2Apr 20101引言圖像理解(ImageUnderstanding IU)就是對圖像的語義解釋.它是以圖像為對象,知識為核心,研究圖像中何位置有何目標(what is where)、目標場*國家自然科學基金 資助項目(No 60875012 60905005)收稿日期:2009- 12- 21;修回日期:2010- 01- 27作者簡介 高雋
6、,男,1963年生,教授,博士生導師,主要研究方向為圖像理解、智能信息處理、光電信息處理等.Email gacjur hfut edu cn謝昭,男,1980年生,博士,講師,主要研究方 向為計算機視覺、智能信息處 理、模式識別.張駿,女,1984年生,博士研究生,主要研究方向為圖像理解、認知視覺、機器學習.吳克偉,男,1984年生,博士研究生,主要研究方向為圖 像理解、人工智能.Q 1994-2011 Cmna Academic Journal I Jectronic Publish ini: Hom All rights reserved, hftpTAvww 工 nki ner景之間的相
7、互關系、圖像是何場景以及如何應用場 景的一門科學.圖像理解輸入的是數據,輸出的是知 識,屬于圖像 研究領域 的高層 內容1-3.語義(Se2期高雋等:圖像語義分析與理解綜述195man tics )作為知識信息的基本描述載體,能將完整 的圖像內容轉換成可直觀理解的類文本語言表達,在圖像理解中起著至關重要的作用 圖像理解中的語義分析在應用領域的潛力是巨 大的圖像中豐富的語義知識可提供較精確的圖像 搜索引擎(SearchingEngine),生成智能的數字圖像 相冊和虛擬世界中的視覺場景描述.同時,在圖像理解本體的研究中,可有效形成數據 知識 的相互驅動體系,包含有意義的上下文(Con text)
8、信息和層狀結構(H ierarchical Structured)信息,能更快速、更準 確地識別和檢測出場景中的特定目標(如,識別出場景中的 顯示器,根據場景語義知識可自動識別 附近的鍵盤).盡管語義分析在圖像理解中處于非常重要的位 置,但傳統的圖像分析方法基本上全部回避了語義 問題,僅針對純粹的圖像數據進行分析究其原因主要集中于兩方面:1)圖像的視覺表達和語義之間很 難建立合理關聯,描述實體間產生巨大的語義鴻溝(Senantic Gap); 2)語義本身具有表達的多義性和 不確定性(Ambiguity).目前,越來越多的研究已開 始關注上述瓶頸,并致力于有效模型和方法以實 現圖像理解中的語義
9、表達.解決圖像理解中的語義鴻溝需要建立圖像和文 本之間的對應關系,解決的思路可大致分為三類.第 一條思路側重于圖像本身的研究,通過構建和圖像內容相一致的模型或方法,將語義隱式地(Imp licitly)融入其中,建立 文本!圖像 的有向聯系,核心 在于如何將語義融于模型和方法中.采用此策略形成的研究成果多集中于生成(Ge neratVe)方式和判別(Discrim inative)方式中.第二條思路從語義本身 的句法(Grammar)表達和結構關系入手,分析其組 成及相互關系,通過建立與之類似的圖像視覺元素 結構表達,將語義描述和分析方法顯式地(Exp licity)植入包含句法關系的視覺圖中
10、,建立 圖像!文本的有向聯系.核心在于如何構建符合語義規則 的視覺關系圖.第三條思路面向應用,以基于內容的 圖像檢索(Image Retrieval)為核心,增加語義詞匯規 模,構建多語義多用戶多進程的圖像檢索查詢系統.解決語義本身的多義性問題需要建立合理的描 述規范和結構體系.Princeton大學的認知學者和語 言學家早在20世紀80年代就研究構建了較合理統 一的類樹狀結構.如今已被視為視覺圖像研究領域 公認的語義關系參考標準,用于大規模圖像數據集 的設計和標記中,有效歸 類統一了多義性詞語.此外,一些客觀的語義檢索評價標準也在積極的探索過程中.本文將對上述兩個圖像語義理解中的問題進行 方
11、法提煉和總結.針對語義鴻溝問題,介紹已有模型 和方法的處理策略.還采用較完備的圖像語義標尺(Benchm ark)解決語義的主觀多義性.2圖像內容的語義分析圖像內容描述具有像素 區域目標 場景 的層次包含關系,而語義描述的本質就是采用合理的 構詞方式進行詞匯編碼(Encodi ng)和注解(Annotation)的過程.這種過程與圖像內容的各層描述密切 相關,圖像像素和區域信息源于中低層數據驅動,根據結構型數據的相似特性對像素(區域)進行 標記(Labeling),可為高層語義編碼提供有效的低層 實體對應關系.目標和場景的中層分類(Categorizaton)特性也具有明顯的編碼特性,每一類別
12、均可 視為簡單的語義描述,為多語義分析的拓展提供較 好的原型描述.本節將針對前述的語義鴻溝問題介 紹常用的圖像語義表示方法和分析策略.2 1語義化的圖像特征圖像內容的語義分析借鑒文本分析策略.首先需要構建與之相對應的對象,整幅圖 像(mage)對應整篇文檔(Document),而文檔中的詞匯 (Lexicon) 也需要對應相應的視覺詞匯(VisualWord).視覺詞匯的獲取一般通過對圖像信息的顯著性分析提取圖 像的低層特征,低層特征大多從圖像數據獲取,包括 簡單的點線面特征和一些特殊的復雜特征 ,再由魯 棒的特征表達方式生成合適的視覺詞匯,視覺詞匯一般具有高重用性和若干不變特性.點特征提取以
13、圖像中周圍灰度變化劇烈的特征 點或圖像邊界上高曲率的點為檢測對象,根據灰度4或濾波函數確定區域極值點(如H arris角點等), 并拓展至不同掩膜下的尺度空間中(如高斯拉普拉斯、高斯差分等),分析極值點的穩定特性,得到仿射不變的Harris二階矩描述符5.線特征描述圖像 中目標區域的外表形狀和輪廓特性,這類輪廓線特 征以Canny算子等經典邊緣檢測算法為基礎,集中 解決邊緣曲線的描述、編組以及組合表達等問題.邊 緣上的雙切線點和高曲率點可連接形成有效的邊緣 鏈或圓弧,根據聚類策略或某些規則完成線片段編 組,形成線特征的視覺詞匯6- 8.區域是圖像上具有 灰度強相關性的像素集合,包含某種相似屬性
14、(如 灰度值、紋理等),相對于點線特征,面特征 有更豐 富的結構信息.區域特征以點特征為中心,采用拉普HOUSCH All rifloES rcserveii.CnKl r Rd拉斯尺度下的 Harris或H essiar仿射區域描述,對特 征尺度上的橢圓仿射區域內的初始點集進行參數迭 代估計,根據二階矩矩陣的特征值測量點鄰的仿射4, 9形狀另一種策略分析視覺顯著區域對象(如直方圖、二值分割圖等)的熵值統計特性,得到最佳尺 度下的最穩定區域,滿足視覺詞匯的高重用 性10-11 魯棒特征表達對提取的特征進行量化表示點特征一般僅具有圖像坐標線特征則充分考慮鄰域邊緣點的上下文形狀特性,以邊緣上采樣點
15、為圓心, 在極坐標下計算落入等距等角間隔區域的邊緣像素 直方圖橢圓形面特征描述主要以尺度不變特征變12-13換(Scale Invariant FeaUre Transfoim, SIFT) 為 主,SIFT特征對每個高斯窗口區域估計方向直方圖,選擇峰值作為參考方向基準,計算4?4網格區域內8 個方向的梯度直方圖,任何區域均可轉換為 4 ? 4 ? 8=128維特征向量.該特征對圖像尺度、旋轉具有不變 性,對亮度和視角改變也保持一定穩定性通過對特征向量的聚類,得到最原始的特征詞匯,形成的語義 化圖像特征也稱為 碼書(Codebook)'14.2 2圖像語義的上下文表達圖像的語義信息描述
16、主要包含外觀位置信息和上下文信息,前者如2 1節所述,可表示成碼書上下文信息不是從感興趣的目標外觀中直接產生,而來源于圖像鄰域及其標簽注解,與其他目標的外觀位置信息密切相關當場景中目標外觀的可視程 度較低時,上下文信息就顯得尤為重要B iedeman將場景中不相關目標關系分為5種,即支撐(Support)、插入(In terpositi on)、概率(Proba1516b ility)、位置(Position)和大 小(Size) .五類關 系均包含 知識,不需要知道目標信息就可確定支 撐和插入關系,而后三類關系對應于場景中目標之 間的語義交互關系,可縮短語義分析時間并消除目 標歧義,通常稱為
17、 上下文特征(Context Features),譬如一些相對 復雜的特征描述(如全局G ist特17- 18征、語義掩碼特 征等)融入場景 上下文信息,本身就包含語義(關聯)信息,是語義分析的基礎 如今有很多研究開始挖掘B iedeman提出的三類語義關系,可分為語義上下文、空間上下文和尺度上下19語義上下文表示目標出現在一些場景中,而沒有出現在其他場景中的似然性,表示為與其他目標的共生(Co O ccurrence)關系,可采用 語義 編碼方 式20- 2,也可由共生矩陣判斷兩類目標是否相22- 23 關防今號,此類上下文對 應訃B iedem an關系中的概率 關系空間上下文表示目標相對
18、于場景中其他目標出現在某個位置上的似然性,對應于 位置 關系空間上下文隱式地對場景中目標的共生 進行編碼,為場景結構提供更加具體的信息,只需確定很少的目標,就可通過合理的目標空間關系降低目標 識別的誤差,消除圖像中的語義歧義24- 21尺度上下文表示目標在場景中可能的相對尺度范圍,對應于 大小 關系尺度上下文需處理目標之間的特定 空間和深度關系,可縮小多尺度搜索空間,僅關注目 標可能出現的尺度尺度上下文在二維圖像中較為復雜,目前僅用于簡單的視覺分析系統中26- 27目前大多數上下文方法主要分析圖像中的語義上下文和空間上下文語義上下文可從其他兩種上下文中推理獲取,與場景中的目標共生相比尺度和 空
19、間上下文的變化范圍較大,而共生關系的知識更 易獲取,處理計算速度更快融入上下文特征的圖像 語義形成了全局和局部兩種分析策略,即基于場景的上下文分析和基于目標的上下文分析前者從場.r , 15 27景出發 ,將圖像統計量看作整體 ,分析目標和 場景之間的高頻統計特性,獲取全局上下文信息,如 馬路預示著汽車的出現 后者從目標出發25,28,分 析目標間的高頻統計特性,獲取局部上下文信息,如 電腦預示著鍵盤的出現總之,上下文特征包含了更 豐富的知識,有助于為圖像理解提供更準確的語義 信息.2 3語義分析的生成方法生成方法基于模型驅動,以概率統計模型和隨 機場理論為核心,遵循經典的貝葉斯理論,定義模型
20、 集合M,觀察數據集合 D,通過貝葉斯公式,其模型 后驗概率p(M |D)可以轉換為先驗概率p (M )和似然概率p(D | M)的乘積生成方法一般假設模型遵 循固定的概率先驗分布(如高斯分布等),其核心從 已訓練的模型中生成觀察數據,測試過程通過最 大似然概率(M axm izeL ikelihood)得到最符合觀察 數據分布的模型預測似然(Pred ictive Like lihood,圖像語義分析的生成方法直接借用文本語義分 析的圖模型結構(GraphicalM odels),每個節點定義 某種概念,節點之間的邊表示概念間的條件依賴關系,在 隱空間(Late nt Space)或 隨機場
21、(Random Field)中建立文本詞組和視覺描述之間的關聯,生成方法無監督性明顯,具有較強的語義延展性2 3. 1層狀貝葉斯模型圖模型的節點之間由有 (無)向邊連接,建立視 覺詞匯和語義詞語之間的對應關系 樸素貝葉斯理 論形成的經典 Bags ofW ords模型是層狀貝葉斯模型的雛形,該模型將同屬某類語義的視覺詞匯視為包,其圖結構模型和對應的視覺關系描述如圖1(a)所示,其中灰色節點為觀察變量,白色節點為隱 變量,N為視覺詞匯的個數,通過訓練建立類別語義 描述c和特征詞匯w之間的概率關系,選取最大后 驗概率p( c | w )對應的類別作為最終識別結果(a)樸素貝葉斯(b)概率隱語義分析
22、(c)隱狄利克雷分配(a) N a ve bayes(b) Probabilistic latent semantic analyse(c) LatentD irich let allocation圖1有向圖語義描述F g 1 Semantic interpretation of directed graphs樸素貝葉斯模型試圖直接建立圖像和語義之間 的聯系,但由于視覺目標和場景的多樣性導致這種 稀疏的離散分布很難捕捉有效的概率分布規律,因此H ofn ann借鑒文本分析中的概率隱語義分析(Probabilistic Late nt Sem a ntic A na lysis pLSA)模 型
23、29-型,將 語義 描述放入隱空間Z中,生成相應 的 話題(Topic)節點,其基本描 述如圖1(b)所 示.D為M個圖像d組成的集合,z表示目標的概念 類別(稱為 Top ics ),每幅圖像由K個Topics向量 凸組合而成,通過最大似然估計進行參數迭代,似然 函數為p(w | d)的指數形式,與語義詞匯和圖像的 頻率相關模型由期望最大化(ExpectationM axm ization,EM )算法交替執行 E過程(計算隱變 量后驗概率期望 )和M過程(參數迭代最大化似然)決策過程的隱變量語義歸屬滿足z = argmzaxP (z | d),pLSA模型通過隱變量建立特征與圖像間的對應關
24、 系,每個文本單元由若干個語義概念按比例組合 質上隱空間內的語義分布仍然是稀疏的離散分布 難滿足統計 的充分 條件隱狄利克雷分配(Late ntD irich letAllocation,LDA)模型在此基礎上引入參數,建立隱變量z的概率分布在圖像語義分析 中,變量z反映詞匯集合在隱空間的聚類信息,即隱語 義概念,參數(通常標記為)則描述隱語義概念在 圖像空間中的分布,超參(通常標記為c) 一般視為是其中的典型,根據不cademic Journal Ekctranic Publishing Houses All rights mservefl. http:Z¥WWXnkiTCtQ 1
25、994-2011 ChitKi A圖像集合D中已知的場景語義描述.如圖1(c) 所示, 由參數估計和變分(V ariational)推理,選取c = arg mcaxP (w | c ,!)作為最終結果LDA中不同圖像場景以不同的比例 重用并組合隱話題空間全局聚類(G lobalC luster),形成場景目標部分 的語義表達關系 LDA中的隱話題聚 類滿足De Finetti可交換原理,其后驗分布不受參數 次序影響,不同隱話題聚類相互獨立,無明顯的結構 特性.一種顯而易見的策略就是在此模型基礎上融 入幾何或空間關系,即同時采用話題對應的語義化 特征的外觀描述和位置信息,這樣不同話題的分布 大
26、體被限定于圖像場景的某個區域,如天空總是出現在場景的 上方 等,減小 模型決策干 擾.如L i等 人14 33在LDA模型中融入詞匯的外觀和位置信息,并將語義詞匯描述c劃分為視覺描述詞匯(如sky)和非視覺描述詞匯 (如 wind)兩類,由詞匯類別轉換 標簽自動篩選合適的詞匯描述.模型采用取樣 (Sampling)策略對從超參先驗中生成的視覺詞匯和 語義標簽進行后驗概率學習,模型中包含位置信息 的語義特征顯式地體現了空間約束關系,具有更好的分析效果(a)無結構(b)全互連結構(c)星狀結構(a)Unstructured(b) Fu ll structure(c) Star strucu re圖
27、2 Part based模型表示圖F ig. 2 R epresertation for Part based m odels語義進隱話(parts),LDA模型已明確地將隱空間的話題行合理聚類,建立與視覺詞匯聚類的對應關系 題聚類隱式地對應場景或目標的某些部分 是一種較原始的part based模型.真正的 part based模型側重目標部分 之間的語義關聯表達,不僅具有較強的結構特性,而且直接概念化隱空間的語義 聚類,每個part直接顯式 對應語義描述(如人臉可般(如,其中星分為眼睛、鼻子、嘴等不同部分)如圖2所示, 通過人工設定或交叉驗證的方式固定重要參數 隱聚類個數、part個數等)
28、并混合其概率密度 固定參數的Dir ich let生成過程是一種有限混合 群(Constellation)模型34- 352期高雋等:圖像語義分析與理解綜述#同區域的外觀位置信息描述,確定P個部分的歸屬 及其概率分布,將目標和背景似然比分解為外觀項、 形狀項、尺度項以及雜項的乘積,依次計算概率密度 值(一般是高斯分布或均勻分布),并EM迭代更新 參數,最后通過似然比值判斷目標的語義屬性部分間的約束關系體現于形狀項中,可以假設為全互連結構(Fu II Structure)或星狀結構 (Star Structure),其 結構信息體現于高斯分布的協方差矩陣中(滿秩或稀疏矩陣),有助于提高語義分析的
29、準確性固定參數的D irichlet生成過程是無限混合模型 的一種特例,可通過合適的隨機過程,很好表達無限 混合(InfiniteM xture)模型,自動確定混合個數.這 種 非參 (Non Parametric)模型可捕捉到概率空間 的隱性分布,不受特定的概率密度函數形式表達限 制.整個D irich let過程可拓 展至層 次結構(H ierar chical D irichlet ProcessHDP). H DP具有明顯的結構 特性,可以很容易對應于圖像中的場景目標部 分層次結構,其混合組成很顯式地表達了不同目 標實體間的語義包含關系.Sudderth在 HDP的基礎上,引入轉換函數
30、 (Tra nsfoimedFu nctio n),生成轉換 D irichlet過程(T ransfoimed D irichlet Process TDP), 每組的局部聚類不再直接 復制全局聚類參數,而 是通過不同轉換函數生成變化多樣的局部變參 ,更 符合目標多變特性36- 37.層狀貝葉斯模型是當前處理圖像語義問題的關 注熱點,其模型特有的參數化層次結構信息參照文 本處理直接對應圖像中的語義實體,通過圖模型的參數估計和概率推理得到合適的語義描述.模型本身的發展也具有一定的遞進關系,即Bags ofW ord模型! pLSA模型! LDA模型! part based模型! HDP模型!
31、TDP模型 等,分析得到的結果具有層 次語義包含關系.232隨機場模型隨機場模 型以均值 場(M ea nF ield)理論 為基 礎,圖中節點變量集合Xi | i# V通常呈4鄰域網格狀分布,節點之間的邊(x, xj) | i, j # V; (x, xj) # E體現隱性關聯,由勢函數?j(Xi, Xj)表示,一般 具有含參數的近高斯指數分布形式,每個隱節點Xi 般對應一個觀察變量節點yi,由勢函數 ?i (Xi,yi)表示.如圖3所示,觀察節點可對應圖像的像素 點,也可對應圖像中的某個區域或目標語義化特征 描述(如2 1節所述),隱變量則對應語義標記 或標簽l.隨機場模型具有豐富的結構場
32、信息,節點間上下文關聯很強,通常分析像素標記解決圖像分割問題.近年來,其特定的約束關系(如桌子和椅子經常 關聯出現)也被用于圖像區域化語義分析中,隱節點集的語義標簽對應不同的語義化特征和勢函數取 值,最大化隨機場的能量函數得到的標記賦值,就是最終的區域語義標記屬性.隨機場模型具有較成熟 的計算框架,融合其上下文關聯信息的層次貝葉斯 生成 模型是分析圖像語義的主流趨,14 33- 35, 38- 40 Fig 3 R andomfield m odel and its sen antic description24語義分析的判別方法判別方法基于數據驅動,根據已知觀察樣本直 接學習后驗概率p(M
33、| D),主要通過對訓練樣本的 (弱)監督學習,在樣本空間產生合適的區分函數,采用形成的分類器或結構參數,完成對特定的特征空間中點的劃分(或閉包),形成某些具有相似特性 的點的集合.這些共性可直接顯式對應圖像理解中 的若干語義信息,如目標和場景的屬性、類別信息 等,通常以主觀形式體現于觀察樣本中,其本質就在 于學習并獲取區分不同語義信息的知識規則(如分類器等). 由于語義信息主觀設定(如判別幾種指定 類別),因此判別方法主要側重觀察樣本(語義)的處理分析,而非觀察樣本(語義)的獲取.判別方法 是包含經典的機器學習方法,精確度較高且易于實 現,常用于目標檢測識別識別.其策略主要包括最近 鄰分析、
34、集成學習和核方法.241最近鄰方法最近鄰(k N earestN eighbor, kNN)方法是基于 樣本間距離的一種分類方法.其基本思想是在任意 空間中、某種距離測度下,尋找和觀測點距離最接近 的集合,賦予和集合元素相似的屬性集合.在圖像理 解中,就是在圖像特征空間尋找和近似的特征描述 集,將已知的語義作為分析圖像的最終結果.最近鄰 方法非常簡單,但對樣本要求較高,需要很多先驗知.12期高雋等:圖像語義分析與理解綜述199(Strong C lassifi46- 47有意義的表達53- 54H,將非線性問題轉換為線性問題.其關鍵是找到節點表示可供選擇的結構組成,遵循A! B |C|D?識,
35、隨著大規模 語義標記圖像 庫的出現(如后3. 2 節所述),最近鄰方法有了廣闊的應用前景,Torralba等人41建立80萬幅低分辨率彩色圖像集合和相應 的語義標記,圖像集涵蓋 所有的視覺目標 類別,以W orcN et語義結構樹(如后3 1節所述)的最短距離 為度量,采用最近鄰方法分別對其枝干進行投票,選 取最多票數對應最終的語義標簽輸出 也可直接在 圖像空間中計算像素點的歐式距離,得到與分析圖像相類似 的語義空間布局(Configuration). Russell 等人42利用最近鄰方法找出與輸入圖像相似的檢 索集,通過含有標記信息的檢索圖像知識轉化到輸 入圖像中,完成場景到目標的對齊任務
36、.語義聚類法 還被用于視頻數據庫中43,具有較好的結果.242集成學習集成學習將各種方法獲得的模型在累加模型下 形成一個對自然模型的近似44- 45,將單一學習器解決問題的思想轉換為用多個學習器來共同解決問題.Boosting是集成學習方法的典型.其基本思想是 每次迭代t生成一個帶權重t的弱分類器(WeakerClassifier) ht,加大誤分樣本的權重,保證后續學習對此類樣本的持續關注,權重t表示該弱分類器 ht 的重要性,分類效果好的權重大,效果差的權重小. 其集成學習的結果就是弱分類器的加權組合T? ? tht(xi)t= 1 x# Di構成一個分類能力很強的強分類器er),完成簡單
37、的二值或復雜的多值分類集成學習方法經常用于圖像理解的語義分類 中,其樣本數據集既可以是區域塊也可以是濾波后的基元乃至包括上下文和空間布局信息.其分類結果具有很明顯的語義區分度.多語義分類中經常出現多類共享的情況,因此,聯合Boosting的提出極大 地減少了分類器的最佳參數搜索時間,使單一弱學習器具有多類判別能力48- 5.同時,近年來多標簽 多實例(M ulti InstanceM u lti Label Learn ing, M M L) 的集成學習策略52也倍受學者關注,圖像理解中的 語義劃分問題可通過M IM L轉化為單純數據下的機器學習問題,其輸出的分類結果就是對既定語義的 編碼結果
38、.2 4 3核方法核方法(Kernel)是在數據集中尋找合適的共性基,由基 的混合組成共性空間,與圖像理解中 的低層基元表示異曲同工.使用核方法可將低維輸 入空間Rn樣本特征映射到高維空間中H,即# %Rn 合適的核函數 K保持樣本在不同 空間下的區分關 系,即K (Xi, xj) = # (xi) & # (xj).它能夠在學習框架和特定知識之間建立一種自然的分離來完成圖像支持向量機(S/M)是常用的核方法之一.它以 訓練誤差作為優化問題的約束條件,以置信范圍值最小化作為優化目標,在核函數特征空間中有效訓 練線性學習 分類器,通過確定最優超平面(Hyper Plane)及判別函數完成
39、高維空間點的分類.SVM方法在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,在圖像理解中,能有效解決不 同環境、姿態以及視角下的廣義目標識別分類問題,是目前最為通用的分類模型55 - 58.針對多語義分類 問題,Farhadi等人厲將目標的語義屬性細分為部分、形狀及材質等,相同或相似的語義對應的樣本集 表明了某種特有的共性關系,采用L1測度對數回歸 和線性SVM方法學習不同語義類別的判別屬性,其多語義屬性的不同劃分決定了指定目標的唯一描述,具有很強的語義可拓展性.判別模型是通過模型推理學習得出的后驗概率,對應不同類別目標的后驗概率或對應圖像前景 和背景的不同后驗概率來劃定判決邊界
40、,進而完成目標識別,指導圖像理解.判別模型在特征選取方面 靈活度很高,可較快得出判別邊界.2 5圖像句法描述與分析人對圖像場景理解的本質就是對圖像本身內在句法(Grammar)的分析.句法源于對語句結構研究,通過一系列的產生式規則將語句劃分為相互關聯的 若干詞匯(組)組合,體現句法內詞匯之間的約束關 系.圖像句法分析直接研究圖像語義,隨著20世紀70年代句法模式識別的提出,Otha就試圖構建統一 的基于視覺描述的知識庫系統,利用人工智能相關 策略進行場景語義推理.但由于視覺模型千變萬化, 方法針對性很強,句法分析方法曾一度沒落.當前圖 像語義分析的一部分研究重心又重新轉向圖像句法.由于句法分析
41、本身已較為成熟,因此如何建立和句法描述相對應的圖像視覺描述非常關鍵.2 5. 1圖像與或圖表達圖像I內的實體具有一定的層次結構,可用與或圖(And O r G raph)的樹狀結構表示,即解析樹 pg.如圖4所示,同屬一個語義概念的實體盡管在外 觀上具有很大差異,但與或圖表達相似,與節點表示 實體的分解(D ecomposition),女口場景!目標, 目標!部分 等,遵循A ! BCD?的句法規則,或的句法規則.同層節點間的水平連接虛線表示視覺實 體間的上下文關系 R,連接包含如圖5所示的3種類 型:1)基元連接,即原始的點和線遵循一定的連接方 式構成更高層的基元(Texton); 2)關節
42、連接,即更高 層的部分之間的連接方式;3)目標相互作用關系,即目標實體之間的相互關系,包含空間關系和功能關 系.圖像與或圖的表達統一了圖像中的語義規范,一般分為四層,即場景 目標 部分 基元,任何場景 都可用與或圖表示,每層均包含點線面的視覺詞匯?,既具有語義屬性,又體現實體間的語義關系2期高雋等:圖像語義分析與理解綜述#2期高雋等:圖像語義分析與理解綜述#Htr(SccncJII "L_Mall_JOffice(Butterfly)parallel liin 寸叵cMo血(T-jwotioCilat refeionQbartexture3蚯 10亟 iBcdraoni! 8 Str
43、eel 1 iLandeopen wiiis; jclmevi'infis!(PbdcsEriainiCD或節點 =刪點 匚二實例發副 (HcaJhhQ (W indoC'iTHl xhcilcD(Ann (Head) (Torso)(孚閱)L aky;era oilhloh0ih2期高雋等:圖像語義分析與理解綜述#2期高雋等:圖像語義分析與理解綜述#圖4圖像與或圖的層次表示F g 4 H ierarchical representation of and or graph2期高雋等:圖像語義分析與理解綜述#2期高雋等:圖像語義分析與理解綜述#較鏈對齊接頭同心"11窗
44、空間關系功惟關系支掙事登抱提St31a2期高雋等:圖像語義分析與理解綜述#2期高雋等:圖像語義分析與理解綜述#(c)目標間關系(c) Relationship among objects(a)基元間關系(b)部分間關系(a)Relationshp among textons ( b) Relationship among parts圖5 圖像實體結構關系F icj 5 Structural relationship of mage entities*#: Sc瞪m +* *+ M=M=* +* a2期高雋等:圖像語義分析與理解綜述#割 pfKHl> Dccompositio訂e Rdat
45、hmTypes of relafionsI JBriwccn objects: occlude, support. Wear, carry.2)Betwfen object-paitz attach, buttiiig,.Hat Pterscmman) Backpack *AveayN贅J先iter Ptrs<慎搜怎汕p Ground ocelude"Sceneobjectpart<rdf;Dcscripticm Fdf;about="#SCENE_i "><rdf:typc rdf:rcsourcc=w&iiog:ScCTic:
46、lOutdoorfl '7> <rdfs;cornmcTil>sccric dcscripdons</ndfs:ccinimcnt> )escription> * * *#*:cfdfzDescnption rdfmbou平PERSON_WlTH_EQUPh4ENT_H <rdf:type rdf:reuire=,&g:Ott:lrn_W1lli_EqiJipment;| ln/> <ang:chikiren rdf: nodel I5=,! PWE-1 caogfhaSegriienlation r4f:i$aun=&qu
47、ot;#Segnierilati(>ni_l "A>Example Objects * * * *<aog:h 磐Sketch-graph idf:resouii=n#Sketdi_jph_l nZ>SdFDe 翼 riplionA<jrdf;De&criptiufi idf;abu<it=,#WrATER_1 ,r><rd:lype rdf:niirce"&aog;Objcct;:Waler3Jre/> <aug;hasColir rdf:rcs(xirc<=” &社Qg:Dark_
48、grocii"/> <a.og:hasSEgm£nl!atiori rdf:rc5ourcK=,lfficgiTLcnialjon 2p,/> </ndf: Descripeion><rdf:Description rdf:abo<t=,#PERSON_ 1 H>vdfitype rdfzresource'aogObiect:Huiman 15 "/> <aDg!ch:il-dren rdf: nndel I3=!iP-1 ir/> ongihasGender fjreutce=ir&
49、;ang;Ma1en/>2期高雋等:圖像語義分析與理解綜述#2期高雋等:圖像語義分析與理解綜述#圖6圖像與或圖與其RD F格式的本體語言表達Fig 6 A nd or graph and its ontology language expression in RDF formatQ 號94-妙 1 I China Academic Journal I electron ic Publish in a Hom All rights lesetved, httpVAvwwxnki ,net2期高雋等:圖像語義分析與理解綜述203252 句法學習與推理與或圖的句法學習推理以貝葉斯統計概率為基
50、礎.學習過程由最大似然估計指導并遵循最小最大 熵學習機制,從指定集合中根據目標分布f取樣觀察樣本集obsobsobsD = (h , pgi ) %i = 1 2 ? ,N f(I, pg),obs解析圖pgi由真實數據集 g獲取,概率模型P通過 最小化KL距離向目標概率f逼近.該過程等價于對 詞匯?、關聯R和參數&的最優最大似然估計.其學 習過程主要分三步:1)對給定的R和 ?,從訓練觀測 樣本Dobs中估計參數&2)在與或圖pg中給定?,學 習和捕捉關聯集合R; 3)自動發現并綁定詞匯?和層次與或樹.與或圖句法推理通常采用自頂向下(Top60- 61 Down)和自底向上
51、(Bottom Up)策略 .在圖像 句法推理分析中,可通過整合bottom up的檢測結果 和top down的假設找到最好的結構表達方式.由于與或圖是遞歸定義的,因此推理算法也具有遞歸性 質.這種性質在分析大量目標類別時可采用啟發式 搜索,大大簡化算法的復雜度.對輸入圖像I,最大 化后驗概率計算解析圖pg得到最終結果.253圖像句法的語義表示基于 W eb本體語言(W eb Ontobgy LanguageOWL)的語義網絡技術的發展為圖像與或圖的句法 表示提供豐富的結構化語義描述,不同本體間具有顯式的知識依賴關系,不同的CWL文本通過本體映射相連,具有高度的 重用性.借鑒OWL的思想,
52、與或圖通常轉換為RDF的格式,如圖6所示.圖像句法的結構化語義表示為實現圖像!文本的規范化輸出成為可能,但目前的研究僅處于初始階段.3圖像語義標準化描述雖然語義是圖像理解最重要的高層知識 ,但至 今尚未形成一套公認的有效的研究體系.如何描述圖像數據信息與知識語義信息間的對應關系 ,是圖 像理解中層次間相互銜接的關鍵所在 (如第2節所 述).同時,由于語義表達本身 的歧義性和不確定 性,會產生大量多變的詞匯短語描述相同的目標類 另U,女口 car 目標類可用car frontal、automobile、taxi等詞匯描述等,同時還可能需要擴展注解,合并上層的歸屬類別,如目標標簽 car、 per
53、son、 tree可能合并至歸屬類別 vehicle、 anm al、 plant中.這種語義詞匯表述的廣泛性受主觀因素 影響較大,給目標類別的標記過程帶來極大的困難,因此需要一個客觀的描述標準 .從實體論的角度,在 對人類心理科學和認知科學分析的基礎上,可采用詞匯語義網面向知識進行語義建模,W ordNet是最常用的一個英文語義網.3. 1 W ordN et圖像語義結構WordNet是Princeton大學的心理學家、語言學家和計算機工程師聯合設計的一種基于認知語言學 的英語詞典62. WordNet根據詞匯含義 組成 關系 網絡 用于描述詞匯間的關系.WordNet包含語義信 息,區別于
54、一般意義上的字典,通常按照詞匯含義進 行分組,將具有相同或相似含義的詞匯按詞性分別 組成 同義詞集合(Synset)網絡,每個同義詞通過感知語義和詞匯關聯相連.WordNet中詞語之間的語義關聯將詞語組成語義層次樹,層次樹是唯一的, 反映了一定的客觀標準特性.WordNet為圖像理解中的語義提供統一的描述 基準和關系結構,近年來已有不少學者將其用于圖 像理解的語義描述中.W ordNet層次結構的語義關 系可方便語義搜索和分類,選擇出與查詢圖像相匹 配的詞匯表達.同時,每個可觀察的視覺詞匯在 WordNet中特定節點上初始化搜索,也可轉化為修 剪(Prun ing)或屬性(A ttribu t
55、e)項,約束語義搜索.例 如,目標(Object)是實體(Entity)的下屬級,自然物、 人造物和生物是目標的下屬級,如果需要找到對人 (person)這個詞匯更細致的描述,就可通過 W ordNet 結構直接搜索出person的子節點確定下屬詞,得到圖像或視頻中特定目標的屬性概念(如不同的動作等).此外,W ordNet中不同詞匯間的距離反應詞匯 間的融合程度.距離較短的詞語,其描述的相似度越 接近,共現的幾率較大,其圖像中的上下文語義關系 也越強,通過定義 合適的 匹配函數或距離代價 函 數63,并最優化分析得到符合W ordNet構詞規則的最佳的語義輸出,每個單詞都有形式自由的、與字典
56、相似的原文定義,這些定義可存儲為字符串,而不需 要任何索引或結構化的內容.單詞可是名詞,也可是64動詞或形容詞,常用于圖像檢索、運動行為檢 測65、場景分類41、邊緣輪廓檢測63、目標識 別4165中,這些都包含圖像理解的語義分析內容,采用WordMet不僅可消除語義的歧義也可提高理解 的精度.圖像語義表達類似于人類的視覺認知.由于人類獲取的視覺信息非常龐大,因此對計算機而言,獲 取視覺信息源(即圖像數據集)并建立合適的語義 結構描述非常重要、能否構建較為完整、通用的訓練 集合已成為圖像理解能否拓展泛化的核心.3 2 WordNet語義標準圖像集W orcN et網提供標準的語義描述方 式,在圖像 語義理解中應包含符合 W ordNet結構和語法規則的 先驗知識,即圖像中包含的固有的語義信息 當
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 戀愛福利活動方案
- 悅達石油充值活動方案
- 情人節珠寶活動方案
- 情侶相遇活動方案
- 情景黨課宣講活動方案
- 情緒空間集市活動方案
- 感性思維活動方案
- 感恩杰銀行活動方案
- 戲曲傳唱活動方案
- 成人暑假鋼琴活動方案
- 2025春季學期國開電大專科《行政組織學》一平臺在線形考(形考任務1至5)試題及答案
- 腫瘤患者全程健康管理
- T-CNAS 18-2020 成人住院患者跌倒風險評估及預防
- 腹股溝疝嵌頓病人的護理
- 《特種設備重大隱患判定標準(陜西省)》解讀與培訓
- 《收益法在無形資產價值評估中的應用案例分析:以M生物公司為例》8900字(論文)
- 重慶市森林資源二類調查操作細則2012年
- IEC31010-2019風險管理 風險評估技術(雷澤佳譯-2024)
- 新生兒黃疸的護理常規
- ISOIEC38507-2022信息技術-IT治理-組織使用人工智能的治理影響(中文版-雷澤佳譯2024)
- 國家開放大學本科《西方行政學說》期末紙質考試總題庫珍藏版
評論
0/150
提交評論