近日,東芝開(kāi)發(fā)出了可高速對(duì)照大數(shù)據(jù)、大規(guī)模媒體數(shù)據(jù)注1的數(shù)據(jù)處理技術(shù)。此技術(shù)以高維矢量注2表現(xiàn)人物的面部、銷(xiāo)售數(shù)據(jù)等,通過(guò)預(yù)先將類(lèi)似的矢量群索引化處理,可實(shí)現(xiàn)高速對(duì)照。利用此技術(shù)從1000萬(wàn)張人物的面部圖像數(shù)據(jù)中提取指定人物的實(shí)驗(yàn)注3中,僅8.31毫秒(1毫秒=1/1000秒)即可完成處理。比傳統(tǒng)的處理速度高出約50倍注4。
近年來(lái),大數(shù)據(jù)的分析、活用技術(shù)不斷用于機(jī)械學(xué)習(xí)或機(jī)器故障預(yù)測(cè)等領(lǐng)域,大幅提高了故障的預(yù)測(cè)精度,給人們的生活帶來(lái)諸多便利的同時(shí),分析的數(shù)據(jù)量也比人們預(yù)想的更快實(shí)現(xiàn)了大容量化、大規(guī);瑢で笥(jì)算處理的高速化需求日益凸顯。
東芝開(kāi)發(fā)的高速對(duì)照技術(shù),結(jié)合了“矢量符號(hào)技術(shù)”(以盡量維持矢量間的距離的狀態(tài)進(jìn)行壓縮)、“矢量索引技術(shù)”(不計(jì)算矢量間的距離而是預(yù)先索引化處理距離比較近的矢量群)、“管道搜索技術(shù)”(將粗略搜索和詳細(xì)搜索進(jìn)行階段性組合)這3項(xiàng)技術(shù),從而實(shí)現(xiàn)了計(jì)算處理的高性能化、高速化。其中,“矢量索引技術(shù)”是東芝最先開(kāi)發(fā)的技術(shù),擺脫了逐一對(duì)照咨詢(xún)數(shù)據(jù)的矢量,而是對(duì)照已經(jīng)過(guò)索引化處理的類(lèi)似的矢量群,使得處理速度大幅提高。
東芝以模式挖掘注5、媒體識(shí)別的強(qiáng)化注6、大數(shù)據(jù)分析注7三個(gè)領(lǐng)域?yàn)橹行模瑢⒋思夹g(shù)向解決方案服務(wù)領(lǐng)域推廣應(yīng)用。例如,可通過(guò)在大范圍內(nèi)設(shè)置的監(jiān)控?cái)z像頭的影像瞬時(shí)發(fā)現(xiàn)指定人物,可使用機(jī)場(chǎng)等的水域監(jiān)控高速對(duì)照國(guó)際通緝犯的人臉照片列表注8。
今后,東芝還將把此技術(shù)應(yīng)用于深度學(xué)習(xí),擴(kuò)大與提高人工智能等相關(guān)的應(yīng)用領(lǐng)域,為企業(yè)創(chuàng)造全新的價(jià)值。
此外,東芝已將此技術(shù)與向外擴(kuò)展型數(shù)據(jù)庫(kù)“GridDB®”組合,建立了可高速處理大數(shù)據(jù)、大規(guī)模媒體數(shù)據(jù)的世界首個(gè)適用高維矢量對(duì)照的數(shù)據(jù)庫(kù),計(jì)劃將于2016年制作成產(chǎn)品。
注1:例如,監(jiān)控影像、廣播節(jié)目檔案、客戶(hù)服務(wù)中心儲(chǔ)存的語(yǔ)音記錄、Web文本等大規(guī)模媒體數(shù)據(jù)。
注2:并非二維(平面)或三維(空間)的矢量,而是擁有數(shù)百~數(shù)萬(wàn)等維數(shù)的矢量。
注3:使用拍攝的5800人的面部共1000萬(wàn)張圖像,以98%或以上的面部識(shí)別精度為限制條件進(jìn)行實(shí)施。
注4:依據(jù)東芝獨(dú)立調(diào)查獲得的速度比較值。
注5:模式挖掘(類(lèi)似模式搜索)
可對(duì)照監(jiān)控?cái)z像頭等的影像的広域監(jiān)控(追蹤需要監(jiān)控的對(duì)象人員等)
配置場(chǎng)所可以是車(chē)站、機(jī)場(chǎng)、高速道路等的閘口(驗(yàn)票)、主題公園、娛樂(lè)場(chǎng)等的各監(jiān)控點(diǎn)、從車(chē)站到運(yùn)動(dòng)場(chǎng)(音樂(lè)會(huì)、體育)的移動(dòng)路線(xiàn)監(jiān)控、ATM、接待窗口、售票機(jī)等。
注6:媒體識(shí)別的強(qiáng)化
國(guó)際通緝犯的檢查(在機(jī)場(chǎng)等場(chǎng)所的監(jiān)控強(qiáng)化等)
注7:大數(shù)據(jù)分析
對(duì)學(xué)習(xí)和預(yù)測(cè)自動(dòng)進(jìn)行數(shù)據(jù)分析云服務(wù)。只將銷(xiāo)售數(shù)據(jù)、機(jī)械信號(hào)數(shù)據(jù)等需要分析的數(shù)據(jù)上傳至服務(wù)器,無(wú)需另行配置分析管理等人員,可自動(dòng)獲得分析結(jié)果。
注8:將1千萬(wàn)人的國(guó)際通緝犯的人臉照片列表和通過(guò)安全門(mén)的人物進(jìn)行對(duì)照,使用其它公司的類(lèi)似技術(shù)需要約20秒,使用本技術(shù)則僅需約0.68秒便可進(jìn)行對(duì)照(依據(jù)東芝與系統(tǒng)整體處理時(shí)間相關(guān)的理論估計(jì)值)。
※GridDB是株式會(huì)社東芝的注冊(cè)商標(biāo)。