半夜睡不著想了一個多模態(tài)任務(wù),同時輸入一段聲音(非自然語言,比如鳥叫)和一張圖片,將圖片中的相應(yīng)位置的鳥標(biāo)注出來。
現(xiàn)在有這種數(shù)據(jù)集嗎,圖片和聲音是能夠互相驗證的吧。
提這個問題是想到自動駕駛貌似都忽略了自然聲音這一信息。
評價標(biāo)準(zhǔn)就用聲音傳感器的數(shù)量和標(biāo)注準(zhǔn)確率來衡量。
現(xiàn)在有這種數(shù)據(jù)集嗎,圖片和聲音是能夠互相驗證的吧。
提這個問題是想到自動駕駛貌似都忽略了自然聲音這一信息。
評價標(biāo)準(zhǔn)就用聲音傳感器的數(shù)量和標(biāo)注準(zhǔn)確率來衡量。
全部評論

非常好想法,這個項目我王多魚投了
相關(guān)推薦
04-25 00:04
北京郵電大學(xué) 前端工程師 點贊 評論 收藏
分享
點贊 評論 收藏
分享