多模態大模型Detect Anything量化坐標設計思路
本文僅看RexOmni中關于坐標量化的思路。DetectAnythingviaNextPointPrediction,https:arxiv.orgabs2510.12798檢測器在定位方面表現優異,但缺乏語言理解能力。多模態大模型(MLLMs)語言理解能力較強,但在定位方面存在困難。2)檢測器與多模態大模型(MLLMs)在最優化難度上的差異RexOmni的核心思路是:將“連續坐標回歸”轉化為MLLM擅長的“離散token預測任務”。因此,任務目標就是讓MLLM“能懂坐標”。直接坐標預測策略使用...