在 2024 年及 2025 年初,人工智能领域取得了显著的进展,其影响遍及各个领域。人工智能模型在各种基准测试中展现出卓越的性能提升,标志着其在处理复杂任务方面的能力迈上了新的台阶 [1]。从医疗保健到交通运输,人工智能正以前所未有的速度融入日常生活 [1]。商业领域对人工智能的采纳和投资也呈现出强劲的增长态势,尤其是在生成式人工智能方面 [1]。美国在人工智能模型开发方面继续保持领先地位,但中国正在迅速缩小质量差距 [1]。与此同时,负责任的人工智能生态系统也在不断发展,对伦理考量和监管的关注日益增加 [1]。全球范围内对人工智能的乐观情绪普遍上升,尽管在不同地区之间仍然存在差异 [1]。
人工智能能力的进步是由一系列核心技术突破所驱动的。
对人工智能系统性能的严格评估显示,在多个具有挑战性的基准测试中取得了显著进展 [1]。
MMMU、GPQA 和 SWE-bench 等基准于 2023 年推出,旨在测试先进人工智能系统的极限。仅仅一年后,即 2024 年,这些基准的性能就出现了大幅提升 [1]。
具体而言,MMMU 的分数提高了 18.8 个百分点,GPQA 的分数提高了 48.9 个百分点,而 SWE-bench 的分数则大幅跃升了 67.3 个百分点 [1]。SWE-bench 的显著提升尤其值得关注,这表明人工智能在软件开发等复杂和细致的领域取得了快速进步。
这些提升不仅仅是数字上的增长,更预示着人工智能正从模式识别转向更强大的问题解决能力。
这些基准在 2023 年的引入为衡量人工智能的性能设定了高标准,而仅仅一年内取得的如此显著的进步,反映了核心人工智能算法和架构创新步伐的加快。
这些基准涵盖了数学推理 (MMMU)、通用知识 (GPQA) 和软件开发 (SWE-bench) 等不同领域,这表明性能的提升并非局限于特定领域,而是反映了人工智能智能的更广泛进步。
除了这些基准测试的改进之外,人工智能系统在生成高质量视频方面也取得了重大进展 [1]。
此外,在某些特定情况下,语言模型代理在有限的时间预算内甚至在编程任务中超越了人类的表现 [1]。
这些进步,连同基准测试的提升,共同表明人工智能模型变得越来越复杂和通用,能够在创意和高技术领域都表现出色。
在有限的时间内编程任务中超越人类的表现,预示着人工智能有可能显著增强甚至自动化软件开发工作流程的某些方面。
生成高质量视频的能力表明在理解和建模复杂的视觉信息方面取得了进步。
编程任务的卓越表现突显了人工智能在逻辑推理和代码生成方面的日益熟练,这暗示了软件创建和维护方式的潜在转变。
大型语言模型是近期人工智能进步的关键驱动力,其发展日新月异。
长上下文 LLM 的输入上下文窗口长度得到了迅速扩展,最初为 8K tokens,现已达到 128K 甚至 1M tokens [6]。这种上下文窗口的扩展使得 LLM 能够处理和理解更长的文档和对话,从而在总结长篇报告、回答基于整本书的问题以及分析多章节文档等任务中取得了显著的改进。这标志着人工智能正朝着能够处理更复杂和依赖上下文信息方向发展。
处理更长上下文的能力直接解决了早期 LLM 的一个关键限制。通过保留更多信息,这些模型可以生成更连贯和相关的响应,为研究、内容分析和复杂问题解决等应用开辟了新的可能性。
研究还侧重于改进 LLM 生成长格式输出的能力,这一领域与长上下文理解相比受到的关注相对较少 [6]。解决长输出生成方面的挑战对于小说创作、长期规划和复杂推理等应用至关重要,在这些应用中,模型需要生成连贯且上下文丰富的长篇文本。
这表明 LLM 研究正朝着更复杂的内容创建能力方向成熟。虽然理解长输入很重要,但生成冗长、连贯且相关的输出对于许多实际应用同样至关重要。对这一领域有针对性的研究表明人们认识到了这种需求,并正在努力进一步拓展 LLM 的能力。
在生成新内容方面,人工智能模型也取得了显著的进步。
谷歌发布了专为“Agent 时代”设计的 Gemini 2.0,其包含 Deep Research 等功能,并在 Gemini 2.0 Flash 等模型中提高了速度和效率 [7]。
Imagen 3 作为谷歌最高质量的文本到图像模型也已发布,其在细节和真实感方面均有所提升 [7]。
谷歌的视频生成模型 Veo 2 在理解真实世界的物理规律和人类动作的细微差别方面表现出更强的能力 [7]。此外,谷歌的文本到音频工具 MusicFX 也进行了更新,增加了 MusicFX DJ 等用于实时音乐创作的功能 [7]。
谷歌在文本、图像、视频和音频领域生成式人工智能模型的持续进步,突显了人工智能在创意能力方面的快速发展。
对 Gemini 2.0 等“Agent 时代”模型的关注,预示着人工智能正朝着能够主动协助用户处理复杂任务的方向发展。跨多种模式的同步改进表明生成式人工智能技术正在全面进步。
Gemini 中 Deep Research 等功能的开发标志着人工智能正从简单的内容生成转向更智能和自主的辅助。
自主人工智能系统的出现和能力提升是人工智能领域的一个重要趋势。
预计在 2025 年,人工智能代理将能够以更高的自主性完成更多工作,甚至代表用户处理某些任务 [8]。
代理人工智能,即人工智能程序协同工作以完成实际任务,是 2025 年的主要趋势,许多人预计将对其进行投资 [4]。
OpenAI 在 ChatGPT 中推出了 Deep Research,这是一种代理功能,可以在互联网上进行多步骤研究以完成复杂的任务 [9]。
对人工智能代理日益重视表明人工智能系统正朝着更独立和主动的方向发展,能够自动化复杂的工作流程并为用户提供更全面的帮助。
这一趋势有可能显著提高生产力并改变人类与技术互动的方式。人工智能代理从简单的工具发展为自主助手代表了人工智能演进中的重要一步。
它们处理多步骤任务和协作的能力预示着未来人工智能将在工作和日常生活的各个方面发挥更重要和积极的作用。
开发更小、更高效的人工智能模型是一个重要的趋势。
诸如微软的 Phi-3-mini 等较小模型,在参数数量远少于 2022 年的更大模型的情况下,实现了可比的性能水平 [2]。
2024 年,查询 GPT-3.5 级别人工智能模型的成本大幅下降,这表明效率得到了提高 [2]。
在 MMLU 上查询一个得分相当于 GPT-3.5(准确率 64.8%)的人工智能模型的成本,从 2022 年 11 月的每百万代币 20 美元下降到 2024 年 10 月的每百万 Token 0.07 美元(Gemini-1.5-Flash-8B)--在大约 18 个月内下降了 280 多倍。
根据不同的任务,LLM 推断价格每年下跌 9 到 900 倍不等。
开放权重模型正迅速缩小与封闭模型的性能差距,变得更易于访问和使用 [2]。这种更小、更高效且功能日益强大的开放权重模型的趋势,正在使更广泛的应用和用户能够更容易地获得先进的人工智能,这也意味着可以将人工智能部署在资源受限的设备上。
以更小的模型实现高性能降低了训练和推理所需的计算资源,从而降低了成本和能源消耗。开放权重模型的兴起促进了人工智能社区内的创新和协作。
人工智能正在各个行业中得到越来越广泛的应用,并带来了显著的变革。
人工智能在医疗领域的使用日益增多。与往年相比,2023 年 FDA 批准的 AI 医疗设备数量显著增加,这表明 AI 在医疗保健领域的整合程度越来越高 [1]。
人工智能正在加速药物发现并改善患者护理,从而实现更个性化和更有效的治疗 [12]。
人工智能系统还被用于预测蛋白质结构和设计新型蛋白质结合剂,从而帮助药物发现和生物传感器开发 [7]。
FDA 批准 AI 医疗设备的数量不断增加,表明人们对 AI 在临床应用中的信任和认可度越来越高。
AI 在加速药物发现和个性化治疗方面的作用预示着其将对医疗保健研究和患者预后产生变革性的影响。
FDA 严格的监管流程意味着医疗保健领域的人工智能正从理论应用走向实际应用。
人工智能分析复杂生物数据和设计新分子的能力有可能彻底改变制药行业。
自动驾驶汽车正从实验阶段走向公共使用,Waymo 和百度等公司运营着庞大的自动驾驶出租车队 [1]。
人工智能正在优化物流公司的供应链管理,提高效率 [12]。
埃隆·马斯克宣布计划于 2025 年 6 月推出“RoboTaxi”服务,该服务将采用没有方向盘的汽车 [15]。
自动驾驶出租车的日益普及以及人工智能在物流优化方面的应用,表明人工智能在交通运输领域的成熟度和实际影响日益增强。
这一趋势有可能改变城市交通和供应链效率。从试点项目到自动驾驶汽车的广泛公共使用,标志着人工智能驱动的交通工具在可靠性和安全性方面取得了显著进步。
人工智能在物流领域的应用突显了其优化复杂系统和提高运营效率的能力。
2024 年,绝大多数组织报告在其业务中使用了人工智能,与前一年相比显著增加 [1]。
生成式人工智能被用于简化工作流程、自动化任务并提高各种业务职能的生产力 [4]。
人工智能在金融领域的应用也日益广泛,包括欺诈检测、风险评估、个性化银行体验和算法交易 [12]。人工智能在商业和金融领域的广泛应用突显了其在提高效率、增强客户体验和推动创新方面的价值。
金融领域的具体应用突显了人工智能分析复杂金融数据和自动化关键流程的能力。高采纳率表明人工智能不再是小众技术,而是现代商业运营的核心组成部分。
在高度监管和数据密集型的金融行业中,人工智能的多样化应用证明了其多功能性和潜在的重大影响。
人工智能正在实现个性化的学习体验,适应每个学生的独特需求和学习节奏 [12]。由人工智能驱动的智能辅导系统正在为学生提供个性化的指导和反馈 [25]。
人工智能工具还被用于自动化评估和反馈,从而减轻教师的工作负担 [25]。人工智能个性化学习和自动化任务的能力有可能彻底改变教育,使其更具吸引力、更有效且更易于获得。
智能辅导系统可以提供个性化的支持,而自动化评估可以解放教育工作者,使其能够专注于教学更具战略性的方面。
对个性化学习的关注解决了学生的不同需求,并可以提高学习成果。行政任务的自动化使教育工作者能够将更多时间用于学生互动和课程开发。
人工智能驱动的代码补全正变得越来越流行和有效,在谷歌内部,很大一部分代码现在是通过人工智能辅助创建的 [5]。
人工智能还被用于解决代码审查意见并自动调整粘贴的代码,从而进一步简化了开发过程 [28]。人工智能辅助软件工程的进步表明,未来人工智能将在编码过程中发挥更重要的作用,从而有可能提高开发人员的生产力和代码质量。
人工智能融入开发工作流程表明这些工具正日趋成熟。像谷歌这样的大型科技公司对人工智能驱动的代码补全的高度采用证明了其在实践中的价值。人工智能在代码审查和调整方面的应用进一步突显了其自动化软件开发生命周期各个阶段的潜力。
近日 Open AI 宣布以 30 亿美元收购 AI 编程助手初创公司 Windsurf。Windsurf 已吸引了超过 80 万开发者用户,并拥有约 1000 家企业客户,其年度经常性收入也从2025 年 2 月的 4000 万美元增长至约 1 亿美元。
人工智能的开发和应用呈现出复杂的国际动态。
美国在 2024 年生产的著名人工智能模型数量上处于领先地位,但中国迅速缩小了质量差距 [1]。
中国在人工智能出版物和专利方面继续保持领先地位,表明其对基础研究的高度重视 [1]。2024 年,美国的私人人工智能投资远高于中国 [1]。尽管美国目前在顶级人工智能模型的产出和吸引私人投资方面领先,但中国在模型质量方面的快速进步以及在研究产出方面的持续领先地位,表明全球竞争格局非常激烈。
两国的不同优势预示着人工智能发展和应用方面可能存在不同的未来轨迹。美国在模型开发和投资方面的优势可能转化为更快的商业化,而中国对研究的关注可能带来基础性的突破。
质量差距的缩小表明中国在人工智能能力方面正在迅速赶上。
2024 年,全球对生成式人工智能的私人投资呈现强劲增长 [1]。美国在 2024 年扩大了其在全球人工智能投资方面的领先优势 [2]。对整体人工智能以及特别是生成式人工智能的大规模且不断增长的投资,突显了人们对这些技术在各个行业中的巨大潜在价值的认可。
美国在投资方面的持续领先反映了其在人工智能市场中的领先地位。大量的资金支持表明人们对人工智能和生成式人工智能的未来充满信心。这种投资推动了进一步的研究和开发,从而加快了创新和更广泛的应用。
中国、印度尼西亚和泰国等国对人工智能表现出高度乐观,而加拿大、美国和荷兰等国的乐观程度较低 [1]。
此前对人工智能持怀疑态度的几个国家,包括德国、法国、加拿大、英国和美国,对人工智能的乐观情绪有所增长 [1]。
公众对人工智能乐观情绪的显著区域差异表明,不同文化和社会对人工智能的益处和风险的看法存在差异。然而,总体乐观情绪的增长表明,全球对人工智能潜力的接受度和理解度可能正在提高。
某些地区较高的乐观情绪可能与接触人工智能技术或从中获得更多益处有关。此前持怀疑态度的地区乐观情绪的增长表明,随着人工智能更深入地融入日常生活,公众舆论正在逐渐转变。
负责任地开发和部署人工智能至关重要。
2024 年,与人工智能相关的事件急剧增加,这凸显了负责任的人工智能实践日益增长的需求 [1]。
尽管事件频发,但主要工业模型开发商中,标准化的负责任人工智能 (RAI) 评估仍然很少 [1]。然而,HELM Safety、AIR-Bench 和 FACTS 等新基准的出现,为评估人工智能的安全性和真实性提供了有希望的工具 [1]。
各国政府对人工智能治理表现出越来越高的紧迫性,全球合作也在加强,包括经合组织和欧盟等组织发布了相关框架 [1]。人工智能相关事件的增加凸显了开发和实施强大的负责任人工智能框架的紧迫性。虽然缺乏标准化的评估,但新基准的出现和政府关注度的提高表明人们对解决人工智能的伦理挑战的意识和努力正在增强。
人工智能相关事件的增加有力地提醒人们人工智能潜在的危害。新评估工具的开发和政府的积极姿态表明,人工智能领域正朝着更受监管和更具伦理意识的方向发展。
2024 年,人工智能相关事件数量创历史新高,其中包括深度伪造图像和据称与有害情况有关的聊天机器人 [2]。
这些事件突显了人工智能被滥用和产生意想不到的负面后果的潜力,强调了在人工智能开发和部署中采取安全措施和遵守道德准则的重要性。
现实世界中人工智能造成危害的案例突显了采取预防措施以减轻风险的必要性。这包括技术保障、伦理考量和明确的人工智能使用指南。
美国各州正越来越多地通过与人工智能相关的法律,2024 年的此类法律数量显著增加 [2]。2024 年,全球在人工智能治理方面的合作得到加强,各种国际组织发布了相关框架 [1]。州和国际层面立法活动的增加反映出人们日益认识到需要制定治理框架来解决人工智能的社会和伦理影响。这表明人工智能生态系统正朝着更加规范化的方向发展。
各国政府正在通过制定人工智能开发和使用的规则和指南来应对人工智能的快速发展。这对于确保人工智能技术部署的责任、安全和公平至关重要。
解决人工智能系统中的偏见仍然是一个关键焦点,公平感知机器学习算法和多样化数据集的进步正在不断取得 [12]。确保人工智能系统的公平性并减轻偏见对于创建包容和可靠的人工智能解决方案至关重要。该领域正在进行的研究突显了人们致力于解决这些伦理挑战的决心。
训练数据中的偏见可能导致人工智能应用中出现不公平或歧视性的结果。开发公平感知算法和使用更多样化数据集的努力对于构建合乎道德的人工智能系统至关重要。
人工智能领域的未来充满机遇和挑战。
Agent 人工智能,即人工智能独立且协作地完成任务,预计将在未来产生重大影响 [4]。
Agent 人工智能系统的持续发展和日益复杂,有可能改变我们的工作方式、与技术的互动方式以及解决复杂问题的方式。这一趋势可能在生活的各个方面带来新的自动化和辅助水平。
随着人工智能代理越来越能够进行独立的推理和行动,它们可以自动化复杂的工作流程,自主管理任务,并提供更主动和个性化的帮助。
人工智能驱动的机器人正在彻底改变供应链管理和物流 [12]。机器人技术的进步受到人工智能发展的推动,从而产生了能够更快学习并处理各种任务的机器人 [7]。
人工智能与机器人技术的融合正在产生更智能、更通用的自主系统,这些系统能够在从工业环境到日常生活的各种环境中执行复杂的任务。
人工智能为机器人提供了“大脑”,使其能够以更复杂的方式感知、推理和行动。这种融合有可能自动化体力劳动并创造新型的人机交互方式。
生成式人工智能芯片市场预计将在 2025 年继续显著增长 [29]。各公司正在投资为特定人工智能任务设计的定制芯片,以优化性能和效率 [30]。更节能的人工智能芯片和数据中心正成为一种趋势 [8]。包括专用芯片和更高效的数据中心在内的人工智能硬件的持续进步,对于支持复杂人工智能模型和应用程序日益增长的需求至关重要。
对能源效率的关注也变得越来越重要。人工智能的计算需求不断增长,需要开发更强大和更高效的硬件。定制芯片可以针对特定的人工智能工作负载进行优化,而能源效率则解决了可持续性问题。
开源人工智能模型的扩展是 2025 年的一个重要趋势,有可能降低人工智能领域的准入门槛 [7]。
开源人工智能的增长促进了协作、创新和更广泛地获取人工智能技术,从而有可能加速进步并使人工智能开发民主化。
开源模型允许研究人员和开发人员在现有工作的基础上进行构建、共享知识并为人工智能的集体进步做出贡献。这可以带来更快的创新和更广泛地采用人工智能技术。
值得一提的是,中国 AI 初创公司在 2025 年初开源了性能对齐 OpenAI-o1 的模型 DeepSeek-R1,使得 AI 模型竞争更加激烈。
2024 年及 2025 年初,人工智能在各个领域都取得了显著的进步。人工智能在医疗保健、交通运输、商业和教育等行业的影响日益增强。
全球在人工智能研究和开发方面的竞争与合作并存。负责任的人工智能实践以及对人工智能伦理开发和治理的努力变得越来越重要。
Agent 人工智能的持续崛起、与机器人技术的融合、硬件的进步以及开源人工智能在塑造未来方面的作用值得关注。
人工智能的变革潜力巨大,但仍需持续研究、伦理考量和负责任的部署。
基准名称 | 2023 年得分(如适用) | 2024 年得分 | 增长百分点 |
---|---|---|---|
MMMU | 引入于 2023 年 | +18.8 | 18.8 |
GPQA | 引入于 2023 年 | +48.9 | 48.9 |
SWE-bench | 引入于 2023 年 | +67.3 | 67.3 |
指标 | 美国 | 中国 |
---|---|---|
著名人工智能模型数量(2024 年) | 40 | 15 |
人工智能出版物领先地位(2024 年) | 否 | 是 |
人工智能专利领先地位(2024 年) | 否 | 是 |
私人人工智能投资(2024 年,单位:十亿美元) | 109.1 | 9.3 |
精心选择的AI工具来改善您的工作,学习和生活效率。
Sponsored bySAT Score Calculator