GPT-4V

このタグでブログを書く

言葉の解説

ネットで話題

GPT-4V

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

nikkie-ftnextの日記•1年前

LLMを使って画像やPDF中のテキストを構造化。知ってる事例まとめ（2024年3月時点）

はじめに（お財布が）試される仕掛け人、nikkieです。テキストを含んだ画像をLLMで扱い、情報を取り出す時に参考にできそうな事例をここに書き出します。目的は知っている事例の整理です。試行錯誤に進むうえで一度書き出します。テキストを含む画像の事例だけでなく、PDFを扱う事例も似ていそうだったので混ぜて扱っています。目次はじめに目次事例1️⃣ 画像をOCRして、テキストを構造化事例2️⃣ PDFから読み取ったテキストの構造化 LLMはテキストの構造化が得意？事例3️⃣ OCRも構造化もGPTで行う例手元にある事例のまとめ🌯 P.S. PydanticのParser 事例1…

#GPT-4#GPT-4V#OCR#JSON#vision API#Document AI

ネットで話題

260ブックマーク GPT-4Vができることをまとめてみた - 電通総研テックブログ

tech.dentsusoken.com

195ブックマーク GPT-4V: 驚きを隠せない進化！凄すぎて"ズキズキワクワク"が止まりません！！！ - Qiita

qiita.com

193ブックマーク AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも…… 【GPT-4V 使用例】

togetter.com

173ブックマーク AWSの構成図をChatGPT(GPT-4V)に読み込ませてIaCコードを生成してみた | DevelopersIO

dev.classmethod.jp

154ブックマーク【GPT-4V APIのおすすめ活用事例】OpenAIの最新モデルを使ったヤバい使い方10選 | WEEL GPT-4V APIとは？概要を紹介「GPT-4V API」はChatGPT APIのなかで唯一、画像入力に対応しているモデルです。アプリやWebサービス上からGPT-4モデルへの画像の転送を実現してくれます。その利用料金については、画像サイズに依存するのが特徴です。GPT-4V APIは2023年11月7日のリリース以降、AIチャットボットやAIツー...

weel.co.jp

93ブックマーク ChatGPTのGPT-4Vを使ってSQL文を画像から作成する - Taste of Tech Topics

acro-engineer.hatenablog.com

61ブックマーク GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

gigazine.net

57ブックマーク OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

ai-data-base.com

57ブックマーク GPT-4V x LINE Bot を Cloudflare Workers で実現するためにやったこと・やらなかったこと - hatappi.blog

hatappi.blog

関連ブログ

本能ブログ【東京とカメラといろいろと】•2年前

CHATGPTが”GPT-4V”にアップデート！絵やイメージを書いてくれる新機能がやばい

CHATGPTに昨年1年間でどれだけの機能が追加されたのでしょうか。末恐ろしく感じます、さじゃんです。以前はメンバーのホッピーが英会話スクール的利用法をご提案しました。すでにAIを利用した英会話や多言語学習アプリは様々登場しておりますが、CHATGPTが音声入力に対応したため英会話のラリーが可能に。本当に勉強になりますしレスポンスが非常に早いのと発音が上手く出来なかったり文法が間違っていても人間が相手ではないで気兼ねなく壁打ち練習が出来るのは大きなメリットかなと感じています。そんな万能感があるCHATGPTですが、昨年末（2023年）なんと画像生成機能が搭載されました。GPT-4Vと呼ばれ…

#ChatGPT アップグレード#ChatGPT 4#GPT-4V#画像生成AI#画像生成#チャットGPT#ミッドジャーニー#AI#人工知能

JBS Tech Blog•2年前

GPT-4VとUnreal Engineの融合：マルチモーダルAIによる仮想空間でのアプリ検証とメタバースの新たな可能性

先日、OpenAIのAPIでGPT-4Vが使用できるようになりました。 https://platform.openai.com/docs/guides/vision 画像認識機能を使用して作成できそうなアプリについてChatGPTに相談してみたところ、下記のような回答が得られました。どれも一度は使ってみたいと思えるようなアプリだったので、実際に実現することは可能なのか検証してみました。この記事では、OpenAIの最新モデルであるGPT-4Vを活用し、Unreal Engineで作成した3D環境の画像がGPT-4Vによってどのように解析されるのかを探ります。具体的には、3D空間のスクリーンシ…

#GPT-4V#Unreal Engine 5#OpenAI#ChatGPT Plus#マルチモーダルAI

電通総研テックブログ•2年前

GPT-4Vができることをまとめてみた

こんにちは。ISID 金融ソリューション事業部の若本です。先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision（GPT-4V）が発表されました。GPT-4Vは大規模マルチモーダルモデル（LMMs: Large multimodal models）と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴…

#AI#人工知能#ChatGPT#GPT-4V#LLM