1、使用web ui 的数据

包括文本描述和tootip描述,训练follow insturciton的训练,给定element和图片,使用mobile的数据和general数据,没有早期发展的内容,导致训练follow的内容,有非常大创新,有benchmark的内容,涉及到os web等内容,benchmark 结

GUI grounding benchmark

2、使用planning model,grounding model失效,next step,mobile zero-shot,都能达到sota的性能,

3、多步任务

gui action的任务,构建场景和指令,

4、

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐