生成式 AI 应用的一大突破,是 ChatGPT 开始支援多模态 (multi-modal),换句话说 ChatGPT 现在可以看、可以听,也可以说了。在社群上,大家会用 GPT-4V 来称呼可以读图片的 GPT (V 代表 Vision,也就是视觉的意思)。
举例来说,下面的截图是美国有个网友,分享他上传一个超复杂的停车告示牌照片,加上要停车的时间,ChatGPT 就直接帮忙判断现在能不能免费停车、可以免费停多久。

该网友评论“我从此不会再拿到违规停车罚单了”,只能说多模态真的开启非常多应用的可能性呀!
这边帮大家汇整网路上已经有的 GPT-4V 应用,只能说非常惊人:
实用
- ChatGPT 帮你看懂复杂的路边标示 [推文]
- ChatGPT 解析图片中以二进制(binary)方式编码的的秘密讯息 [推文]
- 用 ChatGPT 分析生态规划图 [推文]
- 连人都看不懂的 recaptha 验证,来看看 ChatGPT 表现怎么样 [推文] (目前看起来还没有辨识的很好)
- ChatGPT 透过图片分析道路安全 [推文]
工作与学习
- ChatGPT 能看懂白板的内容,帮你完成带有逻辑的代码 [推文]
- 完成 iPhone 计算机 UI 介面与逻辑代码 [推文]
- ChatGPT 根据照片与提供更好的教学建议 [推文]
- 上传算式图,ChatGPT 帮忙算出答案 [推文](小时候用计算机就觉得很厉害了…现在小学生直接用 ChatGPT 😂)

有趣
- 威利躲哪里去了?来让 ChatGPT 帮你找找看 [推文]
- 迷因图太难懂了?别担心 ChatGPT 耐心的解释给你听 [推文]

© 版权声明
文章版权归作者所有,严禁转载。
THE END