MacWhisper 利用 OpenAI Whisper 技术将音讯影片自动转逐字稿

OpenAI 公司最为人所知的就是 ChatGPT 人工智慧聊天机器人(现在还有人不知道吗?),其实它还有其他也是很强大的专案研究,例如「DALL·E 以描述让 AI 创造图片,也能编辑现有图片呈现逼真效果」或是另一个对语音即时辨识、转为文字档的 Whisper 技术,都是当今 AI 领域的伟大发明,对於使用者来说或许不用很清楚这些技术背後的实际运作方式,只要善用对的工具就能提高工作效率。

本文要介绍「MacWhisper」是一个将录音或影片自动转为逐字稿的 Mac 应用程式,使用的正是 OpenAI 旗下的 Whisper 技术,无论是会议录音、讲座或是任何音讯档都能透过 MacWhisper 快速准确地转换为文字,同时标记时间轴,也能在辨识後直接修正错误的本文段落,支援超过 100 种语言。

更棒的是 MacWhisper 所有辨识、转录工作都在使用者的电脑上进行,不需要让任何资料离开电脑,即使遇到隐私、敏感的资料也很适合透过 MacWhisper 进行转换,应用程式本身有免费和付费 PRO 方案,差异在於可下载的训练模型(Models)大小不一样,即使如此,免费版模型就能获得相当不错的正确性,同时也能在很短时间完成音讯的识别工作。

MacWhisper 适用於 MP3、WAV、M4A、MP4 和 MOV 格式,付费後还能直接贴上 YouTube 影片网址、直接将影音内容转为文字逐字稿,转换後可保存为 SRT、VTT、TXT、CSV、DOCX(付费後还有 HTML、PDF 和 …

Google AI 有新招:强化学习训练打扫机器人,清桌子又快又乾净!

Google 团队於近期发表了新论文,透过视觉观察和强化学习(Reinforcement learning)并藉轨迹优化机器人动作,达到零样本(zero-shot)前提下让机器人成功擦拭桌面脏污。

像擦桌面、折衣服等重复性高的任务虽然适合交由机器人,但仍颇具挑战性。例如擦桌子的动作,机器人该如何根据图像来规划出最佳解方?该如何擦拭,以避免洒出来的脏污面积扩散开?又该如何在避免撞到附近障碍物的情况下,到达能擦到桌子的位置?

目前像强化学习等技术有望解决这些复杂的任务,但若要应用在机器人上,则须仰赖收集大量的数据,以及运用准确但昂贵的模型。

因此 Google 团队提出方法是在不需特定任务相关的训练数据下,就能基於图像观察规划出有效的强化学习策略,并零样本的转移此方法至硬体设备,促机器人成功擦拭桌子。

团队透过随机微分方程(SDE),生成了一个 SDE 模拟器,共具有四大功能,分别可描述被擦拭动作推动的乾物件,和在擦拭过程中被吸收掉的液体;同时捕捉到桌面上多个独立的脏污;将脏污与机器人互动後的不确定性模组化;模拟的速度比实际时间快。

SDE 模拟器能进而产生大量用於强化学习的训练数据。团队接着再将强化学习的策略,透过能快速计算底座和手臂关节轨迹的优化工具来执行。团队表示此种方法也可以避免碰撞障碍物,并实现在零经验模拟下将策略部属到真实世界,并已在模拟环境中和实际硬体设备上验证了此方法。

资料来源:Google Research

责任编辑:Jocelyn
核稿编辑:Chris…