人生箴言
成熟意味着停止展示自己并隐藏自己
随机文章
- Mate 60系列要卖2000万部!华为:绝不允许涨价 !
- 女子拒陌生男加微信被打!哭着喊着:不给他微信我有错吗?
- 男子被杠铃压死 老板:杠铃他买的,事发时非营业时间 !
- 敞篷还带“飞飞门” 名爵Cyberster纯电跑车官宣!9月26日开启预售 !
- 余承东的简历是真“简单”:30年 只为华为!
- 2023国庆档新片预售票房破亿!韩庚《前任4:英年早婚》第一 !
- 世界排名第三!任正非:国内现有30多个操作系统基于鸿蒙开源构建 !
- 台积电3nm不背锅!郭明錤:iPhone 15 Pro过热是散热问题 !
- 军训顺拐同学们组成了方队!网友们见状纷纷表示:你别说,走得还挺整齐的 !
- 男子得知母亲去世崩溃交警帮代驾:护送两人驶出高速 !
9月7日消息,据报道,NVIDIA的RTX 5090和RTX PRO 6000显卡最近被发现存在一个可复现的虚拟化重置漏洞,该漏洞会导致显卡完全无响应,直到主机系统物理重启才能恢复。
CloudRift是一家GPU云服务提供商,他们在生产环境中多个配备Blackwell芯片的系统上遇到了这个问题后,详细公布了问题的分析报告,并悬赏1000美元,公开征集能够找到解决方案或根本原因的人。

根据CloudRift的日志,这个漏洞发生在GPU通过KVM和VFIO传递给虚拟机后。在虚拟机关闭或GPU重新分配时,主机系统会发出一个PCIe功能级重置(FLR)。
但与正常情况不同的是,GPU并没有恢复到良好状态,而是停止响应,内核报告称:“FLR后65535毫秒仍未就绪;放弃。”
此时,显卡也变得无法被lspci读取,lspci会抛出“未知头部类型7f”的错误,CloudRift指出,唯一恢复正常操作的方法是对整个机器进行断电重启。
AI初创公司Tiny Corp也复现了CloudRift的发现,并直接提出了一个问题:“RTX 5090和RTX PRO 6000是否有硬件缺陷?我们已经调查过,但找不到解决方案。”
社区的讨论中,许多家庭用户和其他RTX 5090的早期采用者也报告了类似的问题,一位用户表示在关闭Windows虚拟机后,整个主机系统挂起,即使操作系统级别的重启后,GPU也无法重新初始化。
用户证实,切换PCIe ASPM或ACS设置并不能缓解故障,目前还没有报告称旧型号显卡(如RTX 4090)存在类似问题,这表明该漏洞可能仅限于NVIDIA的Blackwell系列。


