GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。
刚刚,OpenAI 放出了三个全新的实时语音模型,其中一个翻译模型,能把 70 多种语言实时翻译成 13 种语言输出,每分钟成本 2 毛钱。 GPT-Realtime-2,是 OpenAI 目前最强的语音模型,具备 GPT-5 ...
系统到语音:软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客:你的进港航班延误了,但你仍能赶上转机。我已找到新登机口,规划了最快穿越航站楼的路线,你的行李预计也能转运成功。
GPT-Realtime-Whisper 是一种专为低延迟语音转文本而构建的新型流式转录模型。它能在人们说话的同时转录音频,从而使实时产品感觉更快、响应更灵敏、更自然——从即时显示的字幕到与对话同步的会议记录。
OpenAI has introduced a new set of voice AI models capable of real-time reasoning, translation, and transcription, allowing ...
令高瑞麟陷入两难的,是在奥特曼领导下的OpenAI的一封推送邮件。在6月25日发出的邮件中, OpenAI表示,从今年7月9日开始,将阻止来自非支持国家和地区的API(应用程序接口)服务。
据 OpenAI 的 Atty Eleti( Response API 的开发者之一 )分享,Response API 开发初衷是基于当下多模态输入输出、思维链推理以及智能体工作流的趋势,Chat Complete API 将逐渐无法适应这样的发展,而 Assistant API 的使用又过于复杂,后台处理方式意味着其速度必然是很慢的。
The launch ⁠of ⁠the application programming interface (API) moves the ChatGPT-maker beyond ​transcription and chat toward ...
GPT‑Realtime‑Whisper is a new streaming transcription model built for low-latency speech-to-text. It transcribes audio as ...
假期刚过,AI 圈就迎来了开年重磅炸弹。5 月 6 日凌晨,OpenAI 正式推送 GPT-5.5 Instant,直接取代 GPT-5.3 Instant 成为 ChatGPT 所有用户的默认模型。与以往 "参数更大、推理更强" ...
OpenAI近期因内部API消耗事件引发广泛关注。公司新晋工程师Peter Steinberger在社交平台公开了一张速率限制截图,显示其团队开发的ClawSweeper项目在单分钟内消耗了4亿token的API配额,相当于300万页A4纸的文字量。这一数字远超普通开发者月度用量,引发技术社区对GPT-5.5模型性能的热烈讨论。