While Anthropic’s Claude Code grabbed headlines, IBM has been deploying its own generative AI solution, Watsonx Code Assistant for Z, designed to modernize the very mainframes it built. Unlike general ...
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 Humaneval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正确的幻觉」(Illusion of Co ...
2026 年开年,技术圈真正的核爆点,不是某个新模型参数翻倍,而是全球第一播客一场 3 小时的深度对谈。 主角是 Peter Steinberger ——OpenClaw 的创始人。 主持人是 Lex Fridman ——技术播客顶流。 OpenClaw 的起点并不复杂。 Peter 只是把 WhatsApp 消息流接到了模型 CLI。 消息进来 → 调模型 → 把结果发回去。 逻辑简单到极致。