Meta發表DINOv3自監督影像模型,跨領域任務表現創新高並開放商用Hao Chen Lu4天前讀畢需時 1 分鐘Source: IThome新聞Meta宣布推出新一代自我監督式學習(Self-supervised Learning,SSL)視覺模型DINOv3,將訓練規模擴展至17億張影像,模型參數達到70億,在多項電腦視覺基準測試中,尤其是語義分割、單一影像深度估測及影片追蹤等密集預測任務上,表現超越前代與多個現有方案,並正式釋出商用授權的程式碼與預訓練骨幹模型,降低開發者在多領域應用上的採用門檻。Meta宣布推出新一代自我監督式學習(Self-supervised Learning,SSL)視覺模型DINOv3,將訓練規模擴展至17億張影像,模型參數達到70億,在多項電腦視覺基準測試中,尤其是語義分割、單一影像深度估測及影片追蹤等密集預測任務上,表現超越前代與多個現有方案,並正式釋出商用授權的程式碼與預訓練骨幹模型,降低開發者在多領域應用上的採用門檻。 See more: https://www.ithome.com.tw/news/170641
影音處理框架FFmpeg 8.0新增Whisper過濾器,讓影片轉檔可同步語音轉錄Source: IThome新聞 影音處理框架FFmpeg在即將發布的8.0版本中,加入一項名為Whisper的音訊過濾器,讓開發者在影片轉檔或串流處理的流程中,可直接進行語音轉錄。 這項功能整合了OpenAI的Whisper語音辨識模型,透過內建的過濾器機制,能在不中斷處...
Ai2發表MolmoAct行動推理模型,以三階段空間感知推進機器人空間推理Source: IThome新聞 人工智慧研究機構Ai2開源MolmoAct模型,其被定位為行動推理模型(Action Reasoning Model,ARM),針對機器人在三維空間中的動作規畫與理解而設計。 MolmoAct模型採用三階段空間感知流程,結合視覺與語言能力,...
搭二代Transformer引擎,輝達推Blackwell伺服器GPU加速卡Source: IThome新聞 今年3月GTC大會期間,輝達宣布3款商用GPU產品導入Blackwell架構,並將這些機型稱為RTX Pro Blackwell系列,5月先推出其中兩款桌上型工作站GPU,另一款是資料中心GPU產品RTX Pro 6000...
Comentarios