Google开发者大会後记:「Google」的意义,或许已不再只是搜寻了

文:Sisley

Google这家公司让「Google」成为了一种动词,但到了AI时代,Google一词可能已经不再是单纯的搜寻网路资讯了。有了Gemini,「Google」这个词语已经又更上一层楼,「搜寻」以及随之而来的「答案」不仅存在於网路(Web),它还可以存在於手机中的照片、影片、文件、一场会议,甚至是一通电话之中,未来更可能存在於「现实世界」里。

「Google一下」

今日登场的Google I/O中,Google展示了当强大的AI进入到各种场域(例如:单纯的网页搜寻、在Email中搜寻、在Google Photos中搜寻)等等,AI甚至可以在分析「即时」资讯之後,为你的问题提供客制化的答案。

当AI进入到搜寻页面,AI会组织搜寻结果页面(AI Overview),例如:你可以询问:「我想买一件不错的瑜伽裤」,AI就会帮你自动找到在Google Maps上可能评价超过4颗星的瑜伽裤店铺,并且自动筛选距离近,且正在营业的选项。

而当AI进入到Google Photos中,该应用程式将会再更进一步进化,你甚至可以问:「我车子的车牌号码是什麽?」AI就能从众多照片(Google Photos)中,为你找到「你的车牌号码」,而不是其他车牌的号码。甚至,你也可以问:我女儿的游泳有进步吗?该功能也会自动给出她一天天进步的照片纪录,并呈现给你。

从前,我们所说的「Google一下」,你所想像出来的场景可能是:输入几个关键字(关键字与关键字中有空格),接着会得到数十页的结果(当中还会参杂一些广告或是业配文章),有时必须花上数小时来爬梳这些结果。

但如今「Google」一词或许已经不能单指「搜寻(Search)>研究(Research)>得到答案(Answer)」这个过程了,它甚至可以简单地翻译成「询问,并得到答案」,因为AI拿掉了中间的研究部分。

原本可能有些许技术性的「搜寻」动作,也变得可以用最自然的语言直接询问就好,自数位时代开始以来,人们获取资讯与答案的门槛,又再度大幅下降了。

今日Google也在现场播出了「一镜到底未经剪辑」(学习了去年的教训,今年特别强调了这点)的demo影片,影片中,我们看到Google所谓的Project Astra,它所呈现的,就是在Google眼中,人们将可以如何使用所谓的「AI Agent」(AI超级助理),让AI在现实世界中帮你找到答案。

例如:你可以透过手机的镜头(Google Lens),让AI即时了解这个世界,透过镜头,在环视了一周办公室後,这个可以与你即时对话的AI,甚至可以帮你找到你忘了放在何处的某样东西。

当然,它也可以帮忙检查同事电脑萤幕上的程式码。

今日的Google I/O大会上,Google DeepMind的CEO Demis Hassabis和Google CEO Sundar Pichai都在强调,所有的这一切,都还只是AI所能带来的可能性的「开头」而已。

手机中的AI

那麽回到现在,手机中的AI已经可以做到什麽事情了?

Google今天也宣布了一个台湾人可能会最爱的AI功能:「打诈」,这项AI功能可以在手机装置端分析一通陌生来电,从对方的话语中判断这通电话是不是诈骗,并且即时提出示警,让接听者选择立即挂断,并且这些AI运算和分析都只在装置端上,也就是依靠Gemini AI Nano。

又例如,当你搜寻某个城市的餐厅时,这个页面可能就会列出哪些适合约会,哪些适合商务会议等等,Google正在透过Gemini AI来搞清楚使用者的真正意图,也就是说,未来搜寻会变得更加自然、流畅以及简便,在使用者需要花上大量时间来研究的情况下,AI将大幅发挥功效。

最後但最重要的,当AI进入到WorkSpace,则可以帮助使用者在来回多次的email中,直接询问AI问题来得到答案,不用再搜寻、爬梳每一封email。

「智慧回覆」也将再进化,不再只有制式的yes/no回覆,而是可以依据这些来来回回的email对话列出选项,例如A选项是答应对方某件事、B是拒绝、C则是其他想法,在使用者选择好选项後,AI便能直接写好一封「完整」的email,以便使用者一键回覆给对方。

说到这,不知各位读者有没有发现,当生成式AI工具来到WorkSpace这样的商务场合中,以往被大众所警惕的AI幻觉(hallucination)问题又该怎麽被解决?使用者们得到AI给的答案之後,如果害怕幻觉,是否又要一封封地检查事实是否正确呢?

Google …

用ChatGPT可以练英文口说?使用「voice conversations」让你有个随身家教

ChatGPT的App有一个我很常利用的功能,就是「语音输入」,透过提问时可以语音输入,加上ChatGPT的文字修饰,可以帮我快速记录会议逐字稿,或是记录想法後转成文章、报告(可参考:利用ChatGPTApp写语音笔记,提升输出效率的秘密武器)。而现在ChatGPT的手机App又多出了新功能,不只可以输入,还可以「模拟跟真人进行语音对话」。

近期ChatGPT提供Plus付费用户很多更新,其中一个是行动版本中的「voice conversations」,开启这个功能後,ChatGPT会用一个「模仿真人语气」的AI跟我们进行来回语音对话,我只要直接说出我的提问,ChatGPT就会用拟真语音进行回答。

ChatGPT近期新功能:

  • ChatGPT图文混合提问9种超能力:程式、教育、学习到行销应用
  • ChatGPTDALL-E3的7个特殊AI绘图应用教学,胜过Midjourney

操作过程也非常简单,在一个对话串「右上方」,开启「voice conversations」功能按钮。

图片来源:作者提供

首先是进入「听」的模式,我们可以说出提问,只要停顿久一点,就会送出我们的提问。(所以可以自然对话,而不用繁琐操作。)

图片来源:作者提供

接着ChatGPT会分析刚刚的提问并生成内容,生成後,就会用模仿真人的语气,「说」出回答。然後继续进入听、说循环的问答模式。

图片来源:作者提供

我获得这个功能後实际测试,ChatGPT「模仿真人语气」这一点做得非常棒,不仅口条上像是真的人,而且还会学真人一样停顿、有语助词等等,我们真的可以感觉就像和一个真人聊天一样。并且「voice conversations」支援多国语言,英文、中文等还可以混合对话。

不过,如果只是为了提问与获得回答内容,我觉得还是自己语音输入问题,然後ChatGPT直接用文字回答,整个流程的速度更快,我也能更有效从文字中获得我需要的内容。

这样的话,「voice conversations」可以拿来做什麽应用呢?

於是我想到了一个可能的应用方式,就是把自己其中一个ChatGPT对话频道,设计成「英文会话练习App」。我的想像是:

  • 会有一个英语教练,可以用语音一问一答的方式,问我问题,然後我回答。
  • 教练确认答案後提供修正,继续问下一个问题。
  • 在这样的过程中,复习我需要的英文会话例句。
  • 这整个过程,不是用文字输入,而是用ChatGPT「voiceconversations」功能,实现一来一往的语音对话。

以下就是我实验成功的一个版本,提供有兴趣的朋友参考。

图片来源:作者提供

首先,我们需要先做一些基本设定。

因为ChatGPTApp上的「voiceconversations」速度没有想像中快,来回对话过程其实需要一些时间,AI看似会等生成出完整内容後,才开始说话。所以如果要流畅对话,要注意下面细节:

  • 采用GPT3.5,让内容比较快生成完毕。
  • 无法问太复杂的问题,以及生成太多内容的回答,因为这样AI往往想到一半就会卡住、断掉,或是要等待太久。
  • 如果跟我下面的范例一样,要做英文会话练习,可以到设定中把「Speech-MainLanguage」设定为「English」。
    • 这时候还是可以中英文穿插对话,但主要语言会辨识为以英文为主。

图片来源:作者提供

接着,如何利用ChatGPT设计一个英文对话练习App呢?

首先我使用下面这段提示语,先把我想要练习的「英文对话例句」输入,让ChatGPT先记住,这样等一下才知道要出什麽题目跟我进行会话练习。

我这边用和孩子一起练习英文会话为例子,可延伸参考:「父母如何用ChatGPT设计孩子的英文单字考卷、会话测验学习单?」。

接着,我利用下面的提示语,让ChatGPT学会出题的逻辑:

  • 请AI根据上述例句,自动出生活情境题。
  • 请AI每出一题都等我回答,然後才出下一题。
  • 给他一个出题的范例,让他自己学会出题逻辑。

这部分,先在ChatGPT网页端用文字提问设定完成。…

MacWhisper 利用 OpenAI Whisper 技术将音讯影片自动转逐字稿

OpenAI 公司最为人所知的就是 ChatGPT 人工智慧聊天机器人(现在还有人不知道吗?),其实它还有其他也是很强大的专案研究,例如「DALL·E 以描述让 AI 创造图片,也能编辑现有图片呈现逼真效果」或是另一个对语音即时辨识、转为文字档的 Whisper 技术,都是当今 AI 领域的伟大发明,对於使用者来说或许不用很清楚这些技术背後的实际运作方式,只要善用对的工具就能提高工作效率。

本文要介绍「MacWhisper」是一个将录音或影片自动转为逐字稿的 Mac 应用程式,使用的正是 OpenAI 旗下的 Whisper 技术,无论是会议录音、讲座或是任何音讯档都能透过 MacWhisper 快速准确地转换为文字,同时标记时间轴,也能在辨识後直接修正错误的本文段落,支援超过 100 种语言。

更棒的是 MacWhisper 所有辨识、转录工作都在使用者的电脑上进行,不需要让任何资料离开电脑,即使遇到隐私、敏感的资料也很适合透过 MacWhisper 进行转换,应用程式本身有免费和付费 PRO 方案,差异在於可下载的训练模型(Models)大小不一样,即使如此,免费版模型就能获得相当不错的正确性,同时也能在很短时间完成音讯的识别工作。

MacWhisper 适用於 MP3、WAV、M4A、MP4 和 MOV 格式,付费後还能直接贴上 YouTube 影片网址、直接将影音内容转为文字逐字稿,转换後可保存为 SRT、VTT、TXT、CSV、DOCX(付费後还有 HTML、PDF 和 …

摩根士丹利喂 GPT-4 数万篇论文,打造「管理财富」 AI 顾问

【TechOrange 编辑部导读】

这周三(3/15)问世的 GPT-4 与上一版的 GPT-3.5 比起来 ,又是另一个等级的「怪物」。究竟 GPT-4 有多厉害,又会如何改变我们的生活呢?OpenAI 表示,已有许多企业 / 政府与他们合作,将 GPT-4 应用至生活中,本文带你看三个案例。

2022 年底 OpenAI 发布 ChatGPT 後短短几个月,就让「GPT」成为全球家喻户晓的名词。GPT 全名是 Generative Pre-trained Transformer,去年发表的 ChatGPT 则是 OpenAI 针对 2022 年已大幅最佳化後的 GPT-3.5 微调对话方式後打造出来的产品。

然而震慑全世界的 GPT-3.5 推出後不到半年,3 月 15 日 OpenAI …