黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口
  • 黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口
  • 网站首页
  • 安博电竞
    企业简介
  • 产品展示
    产品一类
    产品二类
    产品三类
    产品四类
  • 新闻资讯
  • 成功案例
  • 安博体育APP
主页 > 成功案例 >

DeepSeek突然接受了国内GPU语言!基准的CUDA代替T

发表时间:2025年10月14日浏览量:

来自Aofeisi量子位的Mengchen |官方的QBITAIDEEPSEEK v3.2帐户有一个新的变化,这在纸上根本没有提及,并且在正式公告中只有一次,但它引起了墙壁裂缝的关注。与新广泛的DSA注意机制相比,操作员的开源瓷砖版本受到更多的关注,从远期线的数量可以看出。海外社区还注意到,DeepSeek而不是Triton开发的语言使用了它。受到暴露于此的开发人员对Tilelang是一种非常优雅的语言感到悲伤,并且可以比Flash Ontent 2的原始版本在不到100个代码行中更快地撰写注意力的速度。那么什么是Tilelang,为什么引起关注?首先,Tilelang是一种绝对是用于开发GPU核心的域的语言。就性能而言,它可以与Nvidia Cuda进行比较。 DeepSeek正式建议使用此版本进行实验,带有方便奉献和快速重复的好处。更重要的是,Tilelang适应了国内计算能力生态系统,即使是华为的上升者也应该尽快表示对Tilelang的支持。几周前,在整个华为2025链接会议2025年链接会议的开发人员的那天,Tilelang Team成员Dong Yuqi介绍了Tilelang实施了Flashattention Operator的开发,将代码量的开发从500+行减少到80行,并保持与正式版本相同的性能。此外,Tilelang团队的成员Wang Lei和Mu XI综合赛道的高级主管Dong Zhaohua也出现在同一圆桌沙龙中,讨论了MU XI的GPU和Tilelang的下降。 DeepSeek选择了Tilelang。 DeepSeek和Tilelang在同一框架中首次亮相,但实际上是在6月的北京Zhiyuan会议上。 Yuan Jingyang,来自Deptseek的北京大学实习生的博士他的报告中提到“ Tilelang操作员将更快地实施”。 Wang Lei是Tilelang的开始之一,也是Peking University的博士生,他还及时发布了一篇特别的帖子,以感谢DeepSeek测试了他们的语言。 Tilelang由北京大学团队领导和开发。除Wang Lei和Dong Yuqi外,主要数字是北北京大学计算机科学学院的副研究员兼医生主管Yang Zhi。 2025年1月,Tilelang在Github正式开放资源,直到今天获得1.9k星。换句话说,瓷砖的语言(瓷砖范围)是一个简洁而特定的领域,绝对旨在简化GPU/CPU内核的形成。 Tile-lang采用Python风格的语法,并在TVM顶部构建基础编译器基础架构,从而使开发人员能够专注于生产率提高而无需牺牲实现最佳性能所需的基本优化。王Lei在Meet AI编译器技术沙龙上与Hyperai Super Nerve在7月份发表的Meet Ai Compiler Technology Salon共享瓷砖:I -dececous the调度空间(包括线程绑定,内存布局,张贴,管道,管道等)一组可自定义的注释和原始人。此过程使用户专注于内核数据流本身,并将Cemeteryn在编译器上工作。 Tilelang将“瓷砖”作为编程模型的主要概念。通过显式瓷砖抽象,开发人员可以直观地控制全局内存,共享内存和寄存器之间的数据流。 Tilelang提供了三个不同级别的编程界面,以满足开发人员在不同级别的需求。初学者可以使用高级硬件接口来专注于逻辑算法,而不必照顾基础细节。经验丰富的开发人员可以使用ILE库,其中包含各种预定的操作,这些操作已针对不同的硬件A进行了优化RCHITCOUCE。对于追求强烈性能的专家用户,Tilelang还提供了线程原始级别的控件,这使他们可以操作直接功能,例如线程同步和内存集成。 DeepSeek显然是一个追求最终性能的专业用户。根据V3.2公告,在早期,Deptseek团队使用Tilelang快速开发原型,然后使用更基本的程序进一步优化性能。 v3.2论文提到,K-V在内核级别的共享提高了计算效率,因此DSA Lightning索引机制(Lightning Indexer)的运行速度比传统实施更快。 Tilelang的文档也有相关的技术介绍,在计算过程中,缓存中间数据的速度比全球记忆更快。 Tilelang和DeepSeek沿两个方向走了两个方向。Deptseek组中的语言瓷砖。后来,Tilelang还使用了FlashMLA内核,该内核今天由DepSek发布作为评论基准。 H100中MLA的解码速度与FlashMLA相当。最新的DeepSeek v3.2发布后,Wang Lei还在DeepSeek的Dalang上发布了荣誉,使用新的编程语言生产关键产品。此外,DeepSeek v3.2还证明了Tilelang可用于训练模型。 DeepSeek v3.2技术报告:https://github.com/deepseek-ai/deepseek-v3.2-mpfilelang:https://github.com/tilti-i/tilanglang参考链接:[1] https://x.com/nathancgy4/status/1972613835598299245 [3] https://bbs.pku.edu.edu.edu.cn/v2/post-readle.php?bid=322 postID = 28065519 [4] [4] [4] [4] https://hub.baai.ac.cn/view/46173 特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息RMATION存储服务。 注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。
上一篇:9月,北京市政房屋和城乡农村发展委员会于9月发 下一篇:没有了
黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口

黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口

  • 广东省广州市天河区88号
  • 400-123-4567
  • [email protected]
手机:13988999988

安博电竞

  • 企业简介

产品展示

  • 产品一类
  • 产品二类
  • 产品三类
  • 产品四类

新闻资讯

安博体育APP

Copyright © 2024-2026 黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口 版权所有

网站地图

友情链接: