前回の記事までで GLIGEN (Grounded Language-to-Image GENeration) を使ってみましたが、GLIGEN を使用するときは バウンディングボックス が必要となります。 (矩形 や 枠 と記載したりもしているので文言は定まってませんが...) バウンディングボックスを可視化したもの バウンディングボックスは 左上のXY座標 と 右下のXY座標 の4つの値で成り立っています。 [x1, y1, x2, y2] という感じです。 この記事では、Python でバウンディングボックスの座標をマウスのドラッグ&ドロップで取得していきます。