Vision-R1:强化学习赋能,图文大模型性能飙升50%
北京 – 2025年4月8日 – 在人工智能领域,图文大模型正日益成为研究热点。然而,如何进一步提升其在…
We value your privacy
We use cookies to enhance your browsing experience, serve personalized ads or content, and analyze our traffic. By clicking "Accept All", you consent to our use of cookies.
We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.
The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ...
Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.
No cookies to display.
Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.
No cookies to display.
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.
No cookies to display.
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
No cookies to display.
Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.
No cookies to display.
Insight into the world, intelligence leading the future.👏
北京 – 2025年4月8日 – 在人工智能领域,图文大模型正日益成为研究热点。然而,如何进一步提升其在…
在人工智能领域,多模态模型的研发与应用正成为新的增长点。近日,阿里巴巴通义千问团队正式发布了其视觉推理模型的最新版本——QVQ-…
纽约—— 在人工智能领域,视觉问题解答(VQA)一直被视为检验多模态学习能力的关键战场。长期以来,视觉自监督学习(SSL)在VQ…
摘要: 阿里巴巴通义千问团队近日发布了新一代视觉推理模型QVQ-Max,该模型具备强大的图像和视频内容分析、推理能力,标志着人工…
“`markdown 小型视觉语言模型崛起:开放权重、加速学习与LLM辅助的未来 引言:AI领域的新星正在冉冉升起 …
北京报道 – 在人工智能领域日新月异的今天,视觉智能正成为推动技术进步和产业升级的关键力量。近日,阿里巴巴集团旗下通…
北京,2024年5月16日 – 在人工智能领域,自动化网页任务一直是研究和应用的热点。近日,一款名为 Proxy L…
好的,根据你提供的信息,我将撰写一篇关于Visual-RFT的新闻报道,力求专业、深入且引人入胜。 标题:视觉强化微调迎来突破!…
摘要: Proxy Lite,一款由Convergence AI团队开发的开源轻量级视觉语言模型(VLM),以其30亿参数的精简…
摘要: 近日,一款名为 Proxy Lite 的开源视觉语言模型(VLM)正式发布,该模型以其轻量级、高性能的特点,旨在赋能网页…
“`markdown 字节跳动研究团队突破:世界模型赋能四足机器人,实现视觉控制新范式 北京 – 近日,…
北京报道 – 在人工智能领域,技术的每一次突破都预示着新时代的到来。近日,字节跳动推出了一项名为OmniHuman的…
引言: 想象一下,一个智能体不仅能理解文字,还能“看懂”世界,这不再是科幻小说的情节。Hugging Face 的 smolag…
好的,请看我为你撰写的新闻稿,我将尽力融合你提出的所有要求,呈现一篇既有深度又引人入胜的文章: 字节跳动发布Tarsier2:视…
好的,请看我为您撰写的这篇新闻稿,我将尽力融合我多年在多家顶尖媒体工作的经验,为您呈现一篇既专业又引人入胜的报道: 标题:细粒度…
SPRIGHT:AI视觉语言新突破,空间关系理解能力大幅提升 引言: 在人工智能领域,视觉语言模型的进步日新月异,但长期以来,如…
引言: 在人工智能的浪潮中,视觉语言模型的进步日新月异。然而,长期以来,如何让AI准确理解和生成具有复杂空间关系的图像,一直是研…
引言: 人工智能的浪潮席卷全球,多模态模型正成为研究和应用的热点。近日,阿里巴巴通义实验室开源了其最新的视觉推理模型QVQ,这款…
好的,这是一篇基于你提供的信息,并按照你提出的专业新闻写作要求撰写的文章。 标题:李飞飞、谢赛宁团队发布VSI-Bench:为多…
引言: 人工智能领域,多模态模型的研发一直是前沿热点。近日,阿里巴巴通义实验室开源了其最新的视觉推理模型QVQ,引发了业界的广泛…
好的,这是一篇根据您提供的信息撰写的新闻稿,力求达到您提出的专业性和深度要求: 标题:从伯克利到PromptAI:肖特特领跑下一…
清华阿里联手揭秘视觉Mamba:线性注意力视角下的高效建模新篇章 引言: 近年来,深度学习模型的计算复杂度成为制约其应用的关键瓶…
Vision Search Assistant:赋能视觉语言模型的“互联网大脑” 引言: 想象一下,一个能像人类一样理解图片,并…
不让视觉语言模型「盲猜」,性能竟直接提升一倍? AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv…
Title: Subtle Image Manipulations Designed to Fool AI Can Also I…
近日,在人工智能领域备受关注的ECCV 2024会议上,清华大学自动化系2022级直博生倪赞林及其导师黄高副教授的研究成果——《…
Title: Subtle Image Alterations Impact Human Perception: New Res…
在秘鲁领先的水泥品牌Cemento Sol的带领下,一场关于社会责任和创新的实践正悄然展开,将水泥这种日常生活中常见的元素与公益…
正文: 2024年8月27日,一场令人惊叹的视觉盛宴在雅加达上演。中国驻印尼大使馆举办了年度开放日,以“中国智能科技产品体验日”…
吉林大学人工智能学院的研究团队近日发布了一项创新成果——ScreenAgent,这是一个基于视觉语言模型(VLM)的计算机控制智…