1. 首页 > 人工智能

OpenAI发布了三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano

OpenAI 以API 格局发布三个新模型:GPT-4.1、GPT-4.1 mini 、 GPT-4.1 nano。 这些模型性能全面超越 GPT-4o 、 GPT-4o mini 在编码、指令跟踪方面均有显著提升。 持有100 万个token上下文 知识截止时间更新至 2024 年 6 月 GPT-4.1:旗舰模型,在编码、指令遵循、长上下文理解方面表现最优,适用于复杂任务。 GPT-4.1 mini:小型模型,在多个基准测试中超越 GPT-4o,同时将延迟降低近一半,本钱降低 83%,适合须要全效性能场景。 GPT-4.1 nano:OpenAI 最先个超小型模型,速度最快、本钱最底,持有 100 万 token 上下文窗口,适用于低延迟任务如分类、自动补全。 根本本事提升 1. 编程本事〔Coding〕 SWE-bench Verified:GPT-4.1 完成率 54.6%,大幅优于 GPT-4o〔33.2%〕、 GPT-4.5〔38%〕。 在 Aider’s polyglot diff benchmark 中〔处理代码差异格式〕,GPT-4.1 diff 格式准确率达 52.9%,提升显著。 前端开发更优:GPT-4.1 生成 Web 页面在功能、美观性方面,80% 被人类评审偏好。 实际案例: Windsurf:代码接受率提升 60%,调用工具效能提升 30%。 Qodo:在 200 个真实 PR 上,GPT-4.1 在 55% 场景下生成更优评审。 2. 指令遵循本事〔Instruction Following〕 MultiChallenge〔Scale AI〕:GPT-4.1 得分 38.3%,比 GPT-4o 高 10.5%。 IFEval:得分 87.4%,显著提升复杂指令遵循本事。 更擅长处理: 自定义格式〔如 YAML、Markdown〕 否定指令 多步顺序任务 “不确定就说不晓得”类难题 实际案例: Blue J:税务场景中 GPT-4.1 准确率提升 53%。 Hex:SQL 查询生成任务准确性提升 2 倍。 3. 长上下文处理本事〔Long Context〕 上下文窗口从 GPT-4o  12.8 万 token 扩展到 100 万 token,足以处理 8 个 React 代码库完整内容。 在 Video-MME〔长影像无字幕〕基准测试中,GPT-4.1 得分 72.0%,比 GPT-4o〔65.3%〕提升 6.7%,在长上下文多模态任务中创下新纪录。 OpenAI 还发布两个新评估记录集: OpenAI-MRCR:测试模型在长上下文中检索、区分多个相似信息本事,GPT-4.1 在 100 万 token 上下文中表现依然强劲。 Graphwalks:测试多跳推理本事,GPT-4.1 在广度优先搜索任务中得分 61.7%,与 o1 相当,远超 GPT-4o〔41.7%〕。 Graphwalks BFS <128k 准确率 61.7% OpenAI-MRCR 1M token 两针准确率 46.3% 实际案例: Thomson Reuters:多文档法律审核准确率提升 17% Carlyle:大文档中财务记录提取效能提升 50% 4. 多模态本事〔Vision〕 图表、数学视觉推理上优于 GPT-4o: MMMU〔图文理解〕:GPT-4.1 得分 74.8% MathVista〔视觉数学〕:GPT-4.1 得分 72.2% CharXiv〔科研图表〕:GPT-4.1 得分 56.7% Video-MME〔长影像理解〕:GPT-4.1 得分 72.0%,最先实行业 价格与性能 GPT-4.1 中位查询价格比 GPT-4o 低 26%,GPT-4.1 nano 是 OpenAI 有史以来最便宜模型。 GPT-4.1 mini 延迟比 GPT-4o 降低近一半,本钱降低 83%,在智能评估中匹配或超越 GPT-4o。 GPT-4.1 nano 在 12.8 万 token 上下文查询中,最先 token 响应时间往往少于 5 秒。 持助 prompt 缓存,最高可享 75% 折扣 适配 Batch API 可再打 5 折 与 GPT-4o 相比: GPT‑4.1 性价比提升 26% GPT-4.1 mini 性能接近但本钱降低 83% nano 是目前最快+最便宜模型 现实世界应用案例 OpenAI 与多个协作伙伴测试 GPT-4.1 系列模型,展示其在现实世界任务中表现: 编码: Windsurf:GPT-4.1 在内部编码基准测试中比 GPT-4o 高出 60%,代码更改最先发核查经由率更高,工具调用效能提升 30%,重复编辑减少 50%。 Qodo:在 GitHub 拉取请求代码核查任务中,GPT-4.1 在 55% 案例中供应更好主张,兼顾精确性、全面性。 指令遵循: Blue J:在复杂税务场景内部基准测试中,GPT-4.1 比 GPT-4o 准确率高 53%,提升税务研究效能。 Hex:在 SQL 评估中,GPT-4.1 准确率提升近 2 倍,尤其擅长处理大型模糊体系下表选择,减少手动调试。 长上下文: Thomson Reuters:GPT-4.1 在多文档法律核查任务中准确率比 GPT-4o 提高 17%,能准确识别文档间矛盾条款、补充上下文。 Carlyle:在提取大型金融文档记录时,GPT-4.1 检索本事提升 50%,克服其他模型在针尖式检索、多跳推理中局限。 持助 AI 代理〔Agents〕 GPT-4.1 系列模型在指令遵循、长上下文理解方面改进,使其更适合构建 AI 代理〔能够自主完成任务系统〕。联合 OpenAI  Responses API,开发者可以创建更权威代理,应用于: 应用工程:自动完成代码编写、调试。 大型文档分析:提取根本信息,生成洞察。 客户持助:处理复杂请求,减少人工干预。 后续更迭 GPT-4.5 Preview 将于 2025 年 7 月 14 日停用 GPT-4.1 将逐步变成开发者 API 重心模型

本文链接:https://www.19150.com/ai/21682.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息