网民怎么玩 ChatGPT 多模态 GPT-4V

生成式 AI 应用的一大突破,是 ChatGPT 开始支援多模态 (multi-modal),换句话说 ChatGPT 现在可以看、可以听,也可以说了。在社群上,大家会用 GPT-4V 来称呼可以读图片的 GPT (V 代表 Vision,也就是视觉的意思)。

举例来说,下面的截图是美国有个网友,分享他上传一个超复杂的停车告示牌照片,加上要停车的时间,ChatGPT 就直接帮忙判断现在能不能免费停车、可以免费停多久。

1556910decfb405d9a8f1566e1860357.avif_

该网友评论“我从此不会再拿到违规停车罚单了”,只能说多模态真的开启非常多应用的可能性呀!

这边帮大家汇整网路上已经有的 GPT-4V 应用,只能说非常惊人:

实用

  • ChatGPT 帮你看懂复杂的路边标示 [推文]
  • ChatGPT 解析图片中以二进制(binary)方式编码的的秘密讯息 [推文]
  • 用 ChatGPT 分析生态规划图 [推文]
  • 连人都看不懂的 recaptha 验证,来看看 ChatGPT 表现怎么样 [推文] (目前看起来还没有辨识的很好)
  • ChatGPT 透过图片分析道路安全 [推文]

工作与学习

  • ChatGPT 能看懂白板的内容,帮你完成带有逻辑的代码 [推文]
  • 完成 iPhone 计算机 UI 介面与逻辑代码 [推文]
  • ChatGPT 根据照片与提供更好的教学建议 [推文]
  • 上传算式图,ChatGPT 帮忙算出答案 [推文](小时候用计算机就觉得很厉害了…现在小学生直接用 ChatGPT 😂)
db8a190a93df4a1f9bdd6e4aa1df328c
ChatGPT 解数学题
圖片來源:https://twitter.com/petergyang/status/1707119323729580416/photo/1

有趣

  • 威利躲哪里去了?来让 ChatGPT 帮你找找看 [推文]
  • 迷因图太难懂了?别担心 ChatGPT 耐心的解释给你听 [推文]
9410b94de50a4940b570e01653a85e91
ChatGPT 解释迷因图
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享