takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

2025/02/24第63回CV勉強会@関東「コンピュータビジョンでこんなプログラム作りました大LT大会5」資料まとめ

第63回コンピュータビジョン勉強会@関東は久しぶりの「CVでこんなプログラム作りました大LT大会」を株式会社サイバーエージェント様の様の渋谷スクランブルスクエアの会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetterあらためposfie

posfie.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
takmin CVの社会実装について考えていたら、なぜかゲームを作っていた話 https://speakerdeck.com/takmin/konpiyutabiziyonnoshe-hui-shi-zhuang-nituitekao-eteitaragemuwozuo-tuteitahua
ShibaTake Stable Diffusionを使ったアプリのプロトタイプ https://docs.google.com/presentation/d/1qrwkOB4pQkfdSlG85DYED17EMj175fba/
s_takahashi_st 深層学習と古典的画像アルゴリズムを組み合わせた類似画像検索内製化 https://speakerdeck.com/shutotakahashi/shen-ceng-xue-xi-togu-dian-de-hua-xiang-arugorizumuwozu-mihe-wasetalei-si-hua-xiang-jian-suo-nei-zhi-hua
あるふ 0から作る動画生成AI https://www.docswell.com/s/alfredplpl/K22JN9-2025-02-23-204416
peisuke AI for Kids:小学生に画像認識を教えてみた話
RyotaMaeda 偏光画像処理ライブラリを作った話 https://speakerdeck.com/elerac/pian-guang-hua-xiang-chu-li-raiburariwozuo-tutahua
いしたー 店舗向けにコンピュータビジョンを使ったサービスを作る
TakahiroAkimoto Faster R-CNNの限界をxAIで検証してみた
tomoaki_teshima 可視化と可視化と可視化とrclone https://speakerdeck.com/tomoaki0705/visualize-visualize-visualize-and-rclone
Keiichi-Ito HLACを使った欠点分類アプリ
SmartRig AIで24時間配信をする話
ほき 脳波を用いた嗜好マッチングシステム https://speakerdeck.com/hokkey621/noy-bo-woyong-itashi-hao-matutingusisutemu
losnuevetoros 会社を作った話 https://drive.google.com/file/d/18CB9setnln9uzCN5opLTTevS_ndIo_0P/preview

私の発表資料を埋め込んでおきます。 speakerdeck.com

2024/11/16第62回CV勉強会@関東「ECCV2024読み会」

第62回コンピュータビジョン勉強会@関東は「ECCV2024読み会」をセーフィー株式会社様の会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
tomoaki_teshima Factorized Diffusion: Perceptual Illusions by Noise Decomposition https://speakerdeck.com/tomoaki0705/factorized-diffusion-perceptual-illusions-by-noise-decomposition
lychee1223_Lab Long-CLIP: Unlocking the Long-Text Capability of CLIP https://speakerdeck.com/lychee1223/kantocv-62th-eccv-2024
shunk031 Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model https://speakerdeck.com/lycorptech_jp/miru2024-layout-corrector
chou VideoMamba: State Space Model for Efficient Video Understanding https://speakerdeck.com/chou500/videomamba-state-space-model-for-efficient-video-understanding-614d37bc-0664-4525-9ad2-397be4c9fdf0
frkake Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views https://speakerdeck.com/elith/eccv2024du-mihui-wei-xing-hua-xiang-karanodi-shang-hua-xiang-sheng-cheng
colum2131 Improving 2D Feature Representations by 3D-Aware Fine-Tuning https://speakerdeck.com/koheiiwamasa/fit3d-improving-2d-feature-representations-by-3d-aware-fine-tuning-di-62hui-konpiyutabiziyonmian-qiang-hui-eccvlun-wen-du-mihui
abemii_ MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping https://speakerdeck.com/abemii/cvmian-qiang-hui-at-guan-dong-eccv2024-du-mihui-onrainmatupingu-x-toratukingu-maptracker-tracking-with-strided-memory-fusion-for-consistent-vector-hd-mapping-chen-plus-eccv24
s_aiueo32 VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding https://speakerdeck.com/sansan_randd/visfocus-prompt-guided-vision-encoders-for-ocr-free-dense-document-understanding
hsmtta Minimalist Vision with Freeform Pixels https://speakerdeck.com/hsmtta/di-62hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-eccv2024du-mihui-lun-wen-shao-jie
Antonio Tejero-de-Pablos Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift https://www.slideshare.net/slideshow/eccv2024-paper-reading-robust-nearest-neighbors-for-source-free-domain-adaptation-under-class-distribution-shift-japan-computer-vision-study-group-2024-11-16/273390692
caprest UniCal: Unified Neural Sensor Calibration https://docs.google.com/presentation/d/19fFjuydR1zVj8KLJT-8WpLMuiaTKzjxt057Mm2jKOvM/

いろいろ告知:「コンピュータビジョン - デバイス・アルゴリズムとその応用-」と「AR謎解き”妖怪ハンター候補生”」

色々と忙しくてブログ書けませんでしたが、取り急ぎ2つほど告知させてもらいます。

「コンピュータビジョン -デバイスアルゴリズムとその応用 -」

www.coronasha.co.jp

こちらの本の第7章「CVをとりまく環境」を執筆させていただきました。

日浦先生からお話しをいただいた際、早々たる執筆者(私以外全員大学教授)の中に私が参加するのはかなり恐縮しましたが、せっかくの機会なのでお引き受けすることにしました。

逆に、これだけの各専門の先生方がいる中で、自分にしか書けないテーマはなんだろうと考えたときに、オープンソースソフトウェアまわりやビジネスについてであれば、本に価値を加えられるのではないかということで、提案しました。

特に私は、深層学習登場以前から、ながーくコンピュータビジョンでビジネスをしてきたので「コンピュータビジョンのビジネス」というのをある程度網羅的にまとめられる人間というのは、それほど多くはないのではないかと自負しております。

執筆してから出版まで時間がかかってしまったので、特に生成AIまわりなどは情報が古くなってますが、コンピュータビジョンのOSSやビジネスの俯瞰にはまだまだ役に立つ内容となっております。

AR謎解き「妖怪ハンター候補生 in 綱島商店街」

昨年11月にテストプレイを実施したARゲーム「妖怪ハンター候補生」綱島商店街様の「つなしまハロウィン2024」と「つなしまウィンターフェスタ2024」で採用していただけることになりました。

hunter.overlay-world.com

今回は、慶応大学謎解きサークルK-dush2さんの協力の元、謎解き要素を加えました。

謎を解くことで封印された妖怪たちを助けながら、悪い陰陽師をつかまえるのが目標です。

既に10/20の回は終わってしまったのですが、12/14(土)と12/15/(日)にもまたやりますので、ぜひ綱島商店街(東急東横線綱島駅)まで遊びに来てください。

2024/08/03第61回CV勉強会@関東「CVPR2024読み会」(後編)

前回の前編に引き続き第61回コンピュータビジョン勉強会@関東「CVPR2024読み会」(後編)をLINEヤフー様の会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
tomoaki_teshima Video Interpolation With Diffusion Models https://speakerdeck.com/tomoaki0705/video-interpolation-with-diffusion-models
kento-sasaki Generalized Predictive Model for Autonomous Driving https://speakerdeck.com/kentosasaki/generative-predictive-model-for-autonomous-driving-di-61hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-hou-bian
abemii PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving https://speakerdeck.com/abemii/cvmian-qiang-hui-at-guan-dong-cvpr2024-du-mihui-ji-hua-zhi-xiang-end-to-end-zi-lu-zou-xing-moderunibi-yao-nayao-su-toha
caprest Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It https://speakerdeck.com/caprest/cvpr2024du-mihui-localization-is-all-you-evaluate-data-leakage-in-online-mapping-datasets-and-how-to-fix-it
hirok.kawauchi Mip-Splatting: Alias-free 3D Gaussian Splatting https://speakerdeck.com/kwchrk/di-61hui-konpiyutabiziyonmian-qiang-hui-mip-splatting-alias-free-3d-gaussian-splatting
shunk031 Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation https://speakerdeck.com/shunk031/kantocv-61th-cvpr-2024
sgk-000 Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences https://speakerdeck.com/sgk/matching-2d-images-in-3d-metric-relative-pose-from-metric-correspondences
大政孝充 Generative Proxemics: A Prior for 3D Social Interaction from Images https://drive.google.com/file/d/1EIMXon-vCW2zWqhuBnk8-wSTpICvYwty/view?ts=66ada051
s_aiueo32 Image Processing GNN: Breaking Rigidity in Super-Resolution https://speakerdeck.com/sansan_randd/image-processing-gnn-breaking-rigidity-in-super-resolution
losnuevetoros Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods https://speakerdeck.com/yushiku/sincnn-vs-vit

次回は10月くらいに恒例のECCV2024読み会をやります。