微软 Build 2024开发者大会

2024.05.21

当地时间5月21日,微软Build 2024年度全球开发者大会在美国西雅图召开,微软CEO Satya Nadella在大会上致辞,侧重于Windows和AI的介绍,并一连发布了60多种新产品和解决方案。

  首先,Nadella提出了两个贯穿全局的核心问题:

  1. 在这个资讯激增的时代里,PC如何帮我们利用这些资讯进行快速推理、计划和行动?

  2. 计算机可以主动理解我们,而我们不必了解计算机吗?

  

“Copilot+PC”预热


  在这场大会的前一天,微软先举办了一场有关“Surface和Windows AI”的预热活动,发布了新一代Surface以及全新AI功能——Recall,从而正式宣告了Copilot+PC的面世。

  据了解,新一代Surface分为第七代Surface Laptop和第十一代Surface Pro两种机型,搭载了高通新品骁龙X Elite芯片,附加Prism技术以全面转向ARM阵营。Recall则是通过整合Copilot的“回溯”功能(学习、理解及推理能力),借助大模型追踪用户操作,支持以时间线的形式调用有关内容和操作的“回放”。

  对于Copilot+PC来说,其主要OEM包括AMD、英特尔和高通,以及宏碁、华硕、戴尔、惠普、联想和三星等众多知名大厂。其中,前三者负责微软PC的芯片制造,而后几位则是微软的设备合作伙伴,其PC产品即将搭载微软的AI模型。

  微软副总裁兼消费品类首席营销官Yusuf Mehdi介绍,Windows 11 AI PC是有史以来最强大的 Windows PC,融合了多种突破性的AI体验,并预计该款AI PC明年销量可达5,000万台。

  Nadella还表示:“苹果在多个方面都表现得极为出色,我们现在正期待Windows与Mac能够重新展开真正意义上的对决。”

  

Copilot产品线


  显而易见的是,Copilot在这场开发者大会的地位相当重要:一方面,它能够更加流畅地帮助个人用户处理繁杂的工作;另一方面,Copilot也让团队协作变得轻松自如。

  

  Team Copilot

  对于职场人来说,Team Copilot使Copilot“拟人化”,Copilot将不再是一个“旁观者”,而直接化身为团队成员,在Teams、Loop、Planner等协作应用中直接受调用。

  例如,Copilot作为会议主持人,管理议程并实时记录要点;或充当协作者,提取重要信息并解决遗留问题;甚至作为项目经理,通过创建和分配任务、跟踪截止日期等方式推动团队协作等等……其预览版本将于今年晚些时候推出。

  Copilot Agent代理功能

  该功能推出后,在Microsoft Copilot Studio的开发者们将可以根据特定任务和功能,构建可以主动响应数据和事件的Copilot,它可通过记忆和知识理解上下文、推理操作和输入,基于用户反馈进行学习,从而独立、自主地管理复杂、长期运行的业务流程,并有望进化为全自动的AI Agent

  微软业务应用和平台的公司副总裁Charles Lamanna表示:“我们很快意识到,仅限于对话的Copilot在当今所能做的事情上是非常有限的,与其让Copilot等待有人与其聊天,不如让它更主动,在后台执行自动化任务。

  

  GitHub Copilot Extensions

  大会上,Nadella称GitHub Copilot为“这个AI时代的第一款热门产品”。作为最广泛采用的AI开发工具之一,GitHub Copilot的订阅用户已经突破180万人。

  而今,微软又进一步与100多家合作伙伴推出GitHub Copilot Extensions,一改此前“补全代码”的常态,化身效率提升神器——通过对话整合所有开发流程,减少上下文切换,让开发者专注于核心代码内容

  不论是语音输入还是文字输入,不论是Java还是Python,输入语言也没有任何限制,只要提出需求,GitHub Copilot都能作出开发者需要的代码。不仅如此,它还能回答有关开发过程的问题,并支持多种开发工具和平台。

  Copilot堆栈&Fabric实时智能

  2023年里,微软成功构建了Microsoft Copilot并更新了150多个迭代版本,并开发出Copilot堆栈,为开发人员赋予了更高的自由度。

  在此基础上,微软在今年为开发者们升级了Copilot堆栈,使其可以构建自己的AI应用程序、解决方案和多样体验。据介绍,Windows Copilot库包含了40多种端侧AI模型,包括Windows兼容的API和算法。

  另外,Nadella还宣布在Microsoft Fabric上推出实时智能(Real-Time Intelligence),这个受AI驱动的分析平台可为组织提供即时决策和SaaS服务等,不仅帮助数据分析人员获得简单的低代码或无代码体验,也能通过代码丰富的用户界面让专业开发者受益。

  

  

GPT-4o和Phi-3-vision


  作为OpenAI最大的投资方,微软也获得了OpenAI所有AI模型的优先使用权。

  上周,OpenAI最新发布的多模态模型GPT-4o正是在Azure上训练的,现已在Azure AI Studio中作为API提供,支持多模式输入和输出,为企业用户和开发者带来更多创作空间。微软CTO Kevin Scott也戏称,GPT-4o比原始模型便宜了12倍左右。

  而在这场盛会的最后,OpenAI CEO Sam Altman也惊喜现身于会场,并透露了微软正在开发可承载GPT-5高算力需求的超级计算机的消息。

  除了GPT-4o,微软开发的Phi-3系列AI小语言模型也发布了一款全新多模态模型Phi-3-vision,与前任Phi-3-mini和Phi-3-medium一起,通过Azure AI的MaaS产品面向用户。

  据了解,Phi-3-vision具备音频和视觉功能,能够读取文本并分析图片,且其较小规模(42亿参数量)适用于移动设备。不过,与DALL-E和Stable Diffusion不同,Phi-3-vision不会生成图像,主要用来理解图像中的内容并为用户进行分析,目前已进入预览阶段。

  

扩大AI合作关系网


  与英伟达

  微软方面称,其与英伟达欲合作推动全球制造业的数字化进程,基于微软Azure的英伟达全宇宙云应用编程接口(Omniverse Cloud API)将为用于设计、构建和操作工业数字孪生工具的软件,带来数据互操作性、协作和基于物理世界的可视化等重要功能。

  与Meta

  微软宣布,将微软混合现实应用程序(Windows Volumetric Apps)引入Meta Quest头显设备,使开发人员能够将其应用程序扩展到3D空间,该扩展将允许用户不离开支持他们工作依赖的应用程序,同时增强空间理解的能力。

  与可汗学院

  这一多元合作伙伴关系的重点在于利用AI技术为教育材料提供支持。微软将为美国所有K-12教育者免费提供AI教育助手Khanmigo for Teachers,并捐赠Azure AI优化的基础架构权限。

  可汗学院方面则会借助微软开发的Phi-3最新版本,探索经济实惠、可扩展且适应性强的方式改进数学辅导,并计划将更多可汗学院的教学内容引入Copilot和Microsoft Teams教育版,提供更多学习资源。

  

  

其它亮点


  Edge实时视频翻译

  该功能将支持实时语音同传翻译,适用范围包括YouTube、LinkedIn、Reuters和Coursera等主流网站影片,但只支持英语、印地语、德语、俄语、意大利语和西班牙语的双向互译。微软也表示,后续将会添加更多的语言和视频平台。

  Teams定制Emoji

  七月,微软Teams将全面上线定制表情符号功能,让用户更有创意、更加真实地表达自己。企业IT管理员将可以限制哪些用户可以上传或删除自定义表情符号,或完全关闭该功能。自定义表情符号将尽在同一组织域中可见。

  Windows 11的AI剪贴板功能

  据悉,“高级粘贴(Advanced Paste)”功能现已于PowerToys 0.81版本推出,启用后,用户可使用“Windows+Shift+V”唤醒该功能,从而可以在粘贴内容时进行格式转换,如纯文本、markdown或JSON。