加载中...

加载中...

图片
头像
主题 0 成员 0
加入
提示:
请先关注智造圈~
头像
生物信息狂徒
03-01 00:09 · 江苏
DeepSeek发布下一代技术!北大实习生立功
DeepSeek又找到突破大模型推理瓶颈的新方法了!智东西2月27日报道,昨天,DeepSeek发布了一项名为DualPath的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了KV缓存的I/O开销。DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载
查看全文
头像
齿轮学者
02-20 04:19 · 江苏
用内存换显存,Engram 架构让大模型学会“查字典”
最近 DeepSeek 联合北京大学发布了一篇非常有意思的新论文,叫《Conditional Memory via Scalable Lookup》(基于可扩展查找的条件记忆)。这篇论文没有去卷参数规模,也没有去卷更长的上下文窗口,而是从架构底层提出了一个新思路:如何让大模型用一种更“省力”的方式来记忆知识。简单总结就是:他们复活了经典的 N-gram 技术,给 Transformer 模型装了一
查看全文
头像
代码幻影
02-13 00:49 · 江苏
字节要复现又一个DeepSeek时刻了?
摘要:接下来,影视行业的一切价值都将重估。凤凰网科技 出品作者|姜凡、尚志芳编辑|董雨晴一年前的春节,一家中国公司用R1大模型震撼全球科技界。凭借算法创新突破算力限制,以较低训练成本达到以往AI大模型靠堆算力、拼资金和数据的效果,外媒将这一突破称为“DeepSeek时刻”。那场技术地震的余波尚未平息,2026年2月,字节跳动似乎正准备接棒,在视频生成领域制造另一场海啸。就在几天前,字节跳动旗下的最
查看全文
头像
代码幻影
02-13 00:47 · 江苏
DeepSeek突然测试新模型,春节大招要来了?
摘要:此番升级并未包含多模态视觉理解能力,模型仍聚焦于纯文本与语音交互路径。凤凰网科技 出品继被曝出全新V4系列架构规划后,国产大模型头部玩家深度求索今日傍晚逐步推送了一个关键更新。2月11日,多位用户反馈DeepSeek已在网页及App端开启灰度测试,核心上下文窗口由原有的128K直接提升至1M(百万Token)级别。经凤凰网科技实测,其自身反馈的上下文长度已更新。此外,当前版本模型在非联网状态
查看全文
头像
Deep行者
02-12 20:18 · 江苏
小作坊的强化之路
不知不觉,deepseek r1 的那篇技术报告过去半年了,“遇事不决上强化”的风气也没有年初那么夸张了。或多或少,大家都陆续回归到 sft 和 rl 混合使用的传统路线了。既然强化的浮夸风已经过去大半,我们不妨平心静气的看下小作坊的强化之路 —— Skywork or1 的技术报告。前言并非所有团队都有 dpsk、seed、qwen 的豪华配置,包括但不限于:infra 基建,人才密度,gpu,
查看全文
头像
纳米榫卯
2025-10-28 · 江苏
DeepSeek最会讨好,LLM太懂人情世故了,超人类50%
用过大模型的都知道,它们多多少少存在一些迎合人类的行为,但万万没想到,AI 模型的迎合性比人类高出 50%。在一篇论文中,研究人员测试了 11 种 LLM 如何回应超过 11500 条寻求建议的查询,其中许多查询描述了不当行为或伤害。结果发现 LLM 附和用户行为的频率比人类高出 50%,即便用户的提问涉及操纵、欺骗或其他
查看全文
头像
品牌智造
2025-10-26 · 未知
DeepSeek开源的新模型,有点邪门
查看全文
头像
全栈 007
2025-10-23 · 江苏
DeepSeek与智谱同日出手,将语言压缩成视觉是下一个扩展方向
就在硅谷还在为大模型像不像松鼠争论不休时,来自中国的DeepSeek与智谱,只干不说,几乎同时抛出了自己如何教会大模型,像人类一样“看懂”文本的模型与论文。“松鼠”是强化学习之父萨
查看全文
头像
乌龙茶
2025-10-23 · 江苏
DeepSeek 在注意力机制方面的技术改进
由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过 Scaling Law 提升大模型长文本处理能力和模型性能,AI 产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek 作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改
查看全文
头像
品牌智造
2025-10-22 · 未知
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
编辑:泽南、Panda「我很喜欢新的 DeepSeek-OCR 论文…… 也许更合理的是,LLM 的所有输入都应该是图像。即使碰巧有纯文本输入,你更应该先渲染它,然后再输入。」
查看全文