Stella的AI小宇宙

韩煦StellaHan

AI前沿早知道

Episodes

  1. 08/18/2025

    本周七大AI重磅更新——其中一项或将永久改变搜索方式

    AI发展日新月异,而过去一周,其发展速度更是仿佛踩下了油门。从谷歌、微软的重大升级,到OpenAI的新工具,再到亚马逊投资的热门新平台上线,AI领域的新闻和突破性功能层出不穷。  无论你是想提升学习效率、保护隐私,还是想在自己的AI生成剧中担任主角,以下是你可能错过的重大AI头条新闻,以及这些最新更新对你的意义。   1. 谷歌新功能“深度思考”让Gemini更智能  Gemini的新模式“深度思考”名副其实。它不会急于给出答案,而是给Gemini更多“思考时间”,让其运行并行程序进行 brainstorm、优化,最终得出更优回应。  结果是,答案更智能、更具逻辑性,且带有惊人的人类化表达。若想体验,你需要订阅Ultra会员。不过参考过往更新规律,谷歌最终很可能将其免费开放。   2. 谷歌搜索迎来重大AI升级  谷歌的AI概览功能现已支持直接上传PDF、图片等完整文件,并针对文件内容提问。  这在需要总结大型文档或扫描文件时非常省时——只需在聊天界面上传文件,谷歌会处理后续所有工作。结合新增的跟进提问功能,谷歌正将搜索转变为更接近真正AI助手的工具(而非单纯的结果页面)。  3. NotebookLM获重大升级  谷歌的另一项重要更新:NotebookLM现已能生成“视频概览”——即带旁白的幻灯片式文档总结,包含直接从文件中提取的引用、图表和数据。  你还可以在同一笔记本中创建音频、视频或视觉输出的多个版本,并混合格式使用(比如边听总结边看思维导图)。这是让研究更具互动性的重要一步。  4. ChatGPT对话内容出现在谷歌搜索结果中  本周,用户发现共享的ChatGPT对话已出现在谷歌搜索结果中,其中甚至包括敏感或隐私信息。  OpenAI迅速禁用了允许分享的“公开”按钮,并正与搜索引擎合作删除已曝光对话的索引。如果你曾分享过对话链接,建议仔细检查设置,删除不希望公开在网络上的内容。  ## 5. 微软Edge浏览器新增Copilot模式  你的Edge浏览器现已成为全能AI助手。微软推出的Copilot模式是一个智能侧边栏,能根据你在线的操作实时适配。  例如,阅读文章时,它可以总结内容;写邮件时,它能提供优化建议;在线购物时,它能实时对比产品。这是微软迄今为止最具主动性的AI升级之一。   6. ChatGPT新增“学习模式”,助力高效学习  需要学习辅助?ChatGPT的新“学习模式”能将聊天机器人变成个性化导师。各阶段、各水平的学生都能借助这一AI功能更高效地学习。  你只需选择学科、设定难度,再决定学习方式(抽认卡、概念解析、练习题或问答)即可。无论备考还是复习,这项免费功能都值得一试。   7. ChatGPT“代理模式”可代执行任务  ChatGPT新增“代理模式”功能。与普通聊天机器人不同,该模式下的AI能实际为你完成任务,比如浏览网页、整理文件,或执行多步骤任务(如创建并发送报告)。  测试发现,AI能轻松处理现实任务,但仍需一定指导。目前虽未完全信任,但它的进化值得期待。  ## 彩蛋:你可在AI生成剧中担任主角  亚马逊投资的新创公司Showrunner正掀起热潮,号称打造“AI版Netflix”。  只需简短提示,你就能生成完整动画剧集,甚至将自己植入剧情。它通过AI完成脚本、配音和动画制作。早期体验发现,工具使用便捷,查看社区用户作品还能激发新灵感。  ## 结语  从更智能的搜索和学习工具,到不断演变的AI隐私问题,本周的进展证明AI领域正飞速变化。谷歌、微软、OpenAI等科技巨头持续突破AI边界,而Showrunner等新玩家则预示着未来方向。稍不留意就可能错过重大进展,但无需担心——我们每周都会为你拆解最新动态。 前往小宇宙评论区与主播互动

    6 min
  2. 08/18/2025

    阿里巴巴携自研 AI 模型进军智能眼镜市场,Quark AI 眼镜将于 2025 年底登陆中国

    阿里巴巴携自研AI模型进军智能眼镜市场,作为其总额524亿美元人工智能及云计算拓展计划的一部分。“夸克AI眼镜”标志着该公司首次涉足可穿戴设备领域,预计于2025年底在中国上市。  这款眼镜将搭载阿里巴巴的“通义千问”大语言模型及其AI助手“夸克”。“夸克”此前已作为应用程序在中国上线,而此次是该公司首次将其与硬件结合,以触达更多用户。  这家总部位于杭州的企业是中国最活跃的AI研发者之一,已推出多款旨在与OpenAI等公司系统竞争的模型。通过进军智能眼镜领域,阿里巴巴加入了日益壮大的科技阵营——它们押注可穿戴设备将成为继智能手机之后的下一个主流计算平台。  ## 发力硬件领域  夸克AI眼镜将进入一个已存在竞品的市场,其中包括Meta与雷朋合作推出的智能眼镜,以及小米今年发布的一款机型。阿里巴巴的这款眼镜将支持免手持通话、音乐流媒体、实时翻译、会议转录功能,并配备内置摄像头。  阿里巴巴在中国运营着广泛的服务生态,这款眼镜将接入该生态系统。用户可通过眼镜获取导航服务、通过支付宝付款、在淘宝比价,还能使用阿里巴巴旗下的其他平台,如地图和旅游预订服务等。  尽管该公司已公布了部分功能,但尚未透露产品价格及详细规格参数。 前往小宇宙评论区与主播互动

    7 min
  3. 08/18/2025

    英伟达致力于解决人工智能在多语言领域的难题

    # 英伟达致力于解决人工智能在多语言领域的难题  尽管人工智能看似无处不在,但它主要仅能在全球7000种语言中的极小一部分里发挥作用,这使得全球大部分人口被排除在其便利之外。英伟达正致力于填补这一明显的空白,尤其聚焦于欧洲地区。  该公司刚刚发布了一套功能强大的开源工具,旨在让开发者能够为25种欧洲语言构建高质量的语音人工智能。这其中包括主要语言,更重要的是,它为那些常被大型科技公司忽视的语言(如克罗地亚语、爱沙尼亚语和马耳他语)提供了生机。  其目标是让开发者能够打造我们许多人习以为常的语音驱动工具,从真正能理解你的多语言聊天机器人,到能瞬间响应的客服机器人和翻译服务。  这一计划的核心是“Granary”——一个庞大的人类语音库。它包含约一百万小时的音频,所有内容都经过精心筛选,用于帮助人工智能学习语音识别和翻译的细微差别。  为了利用这些语音数据,英伟达还提供了两款专为语言任务设计的新人工智能模型:  - Canary-1b-v2,一款大型模型,在复杂的转录和翻译工作中具备高精度表现;  - Parakeet-tdt-0.6b-v3,专为速度至上的实时应用场景设计。  如果你渴望深入了解其背后的科学原理,关于Granary的论文将于本月在荷兰举行的Interspeech会议上展示。对于急于动手实践的开发者而言,该数据集和两款模型已在Hugging Face平台上线。  然而,真正的精妙之处在于这些数据的创建方式。我们都知道,训练人工智能需要海量数据,但获取数据通常是一个缓慢、昂贵且极其繁琐的人工标注过程。  为解决这一问题,英伟达的语音人工智能团队与卡内基梅隆大学及布鲁诺·凯斯勒基金会的研究人员合作,构建了一条自动化流程。借助他们自家的NeMo工具包,他们能够将原始、未标注的音频快速处理成高质量、结构化的可用数据,供人工智能学习。  这不仅是一项技术成就,更是数字包容性的巨大飞跃。这意味着里加或萨格勒布的开发者终于能够构建能准确理解当地语言的语音人工智能工具,且效率更高。研究团队发现,Granary数据的效果极佳,要达到目标准确率,所需数据量约为其他热门数据集的一半。  这两款新模型充分展现了其能力。Canary堪称“性能猛兽”,其翻译和转录质量可与规模三倍于它的模型媲美,而速度却高达十倍。与此同时,Parakeet能够一次性处理24分钟的会议录音,并自动识别所使用的语言。两款模型都足够智能,能够处理标点、大小写问题,并提供单词级别的时间戳——这些都是构建专业级应用的必要功能。  通过将这些强大的工具及其背后的技术方法交付给全球开发者社区,英伟达不仅仅是发布了一款产品,更是掀起了新一轮创新浪潮,希望打造一个无论来自何处,人工智能都能说你的语言的世界。 前往小宇宙评论区与主播互动

    5 min

About

AI前沿早知道