HuggingFace全然使ったこと無いマンなのですが、面白いサービスを見つけたのでご紹介! 静止画→3Dモデルにするまでの手順 下記にアクセス huggingface.co 添付赤丸①に画像をD&Dして、「Keep occulusion edge」にチェックし、「送信」すると、右側に3Dモデルが出現!スピードが早い! ダウンロードは右上の「↓」ボタンより おわりに ダウンロードしたglbファイルは、Blenderや各種DCCツールで読み込むことができるので、サクッと立体的な背景を作りたい時に使えそうです! ちなみにAfterEffects2024からは glb ファイルも読み込めるみたいです…
まえがき 言語モデルを自分でガッツリ使う経験が今まで無かったので、勉強がてら先週火曜日まで開催されていたKaggle - LLM Science Exam というコンペに参加してました。 www.kaggle.com そこそこ頑張った結果、過去最高の成績(49th/2663, Top2%)を取ることができ、銀メダルを取ることができた。SolutionなどはKaggleの方に書いたのでそちらを。 www.kaggle.com で、この記事で触れるのは、今まで機械学習モデルのトレーニングにはPyTorchの標準的なやり方(ループ内で推論してloss計算してloss.backward()で逆伝播させ…
今回もDeepLearningについての記事です。 HuggingfaceのTrainerで学習させたときに、学習途中のログをTensorboard用に出力する方法についてまとめます。huggingface.co Tensorboardのログ出力設定 Tensorboardのログを出力するために必要なライブラリ コマンド引数でログの出力先を指定する方法
今回は深層学習の自然言語モデルである、BERTについて色々触っていたのでその記録を簡単にまとめたいと思う。 ひょんなことから、BERTの事前学習からやらなければならなかったので、実際に用いたライブラリや環境、学習に必要な時間などについて書いていく。 BERTのライブラリ 学習環境 AMI Instance Type inf1.2xlarge p2系 p3.2xlarge p3.8xlarge g4dn.8xlarge g4dn.12xlarge 今回学んだこと BERTのライブラリ BERTのライブラリとしては、huggingfaceのTransformersを利用。 huggingface.…
固有表現抽出のタスクでは、CoNLL2003というShared Taskのデータセットがある。 今回はCoNLL2003のデータセットを用いて、BERT-baseのモデルをfine-tuningする。 paperswithcode.com CoNLL2003のデータセットを取得 wget https://data.deepai.org/conll2003.zip unzip conll2003.zip ls -l train.txt valid.txt test.txt 使用する事前学習済みモデル 今回は、事前学習済みモデルとして、BERT-baseのuncasedモデルを利用する。 unca…
みなさんこんにちは。たかぱい(@takapy0210)です。 本日はTensorFlow×Transformers周りでエラーに遭遇した内容とそのWAです。 環境 実装内容 エラー内容 エラーの原因 ワークアラウンド なんでこれで解消できるのか? モデルの保存方法 参考 環境 実行環境は以下の通りです python 3.7.10 transformers 4.12.5 tensorflow 2.3.0 実装内容 一部抜粋ですが、TransformersのTFBertModel*1に、独自のレイヤーをいくつか追加した2値分類モデルの学習を行いました。 import tensorflow as t…
Huggingfaceのtransformersライブラリでv3.4.0を使う 固有表現抽出をtransformersライブラリで行う。 東北大学のBERTモデルを使う場合は、Huggingfaceのtransformersライブラリでv3.4.0を使う必要がある。 - 東北大モデル以外(NICT, 京大など)なら、最新のtransformersが使える(examples/pytorch/token-classification/run_ner.py)。入力ファイルはjsonにするのがおそらく楽で、jsonファイルは1行に1文の情報で、単語列とラベル列からなるもの。何か見落としなどあれば教えて…
スマホでも動くくらい高速だと謳われているMicrosoftの小規模言語モデルPhi-3を要約と和訳について試してみました。 環境・前提 モデル 環境 コード 要約させてみる 推論時間 日本語に翻訳させてみる Lambdaでの生成速度 まとめ 環境・前提 モデル 4bit量子化モデルを使用します huggingface.co 環境 以下のDocker Imageを使います FROM python:3.11 RUN pip install llama-cpp-python また、ローカルPCのスペックは以下の通りです。 OS: WSL Ubuntu 20.04 CPU: i7-10700K コード…
これは、なにをしたくて書いたもの? 今までQdrantのチュートリアルを試してきたのですが、今度はExampleを見てみようと思います。 Examples - Qdrant ただ、Exampleで見るのは「基本的なRAG(Basic RAG)」のみにしたいと思います。それから、Qdrant自体を集中的に扱うのもここで 区切りにしようかなと。 今回のExampleの狙い このExampleでは、Qdrant+Fastembed、OpenAIを使ってRAGを構成する例を示します。 ところでExampleは「Examples」ページにリストアップされている内容から、実際のページに移るとタイトルが大幅…
Microsoftから公開されたPhi3-miniをTransformers + MacのGPUを使ってで動かしました。 Phi-3とは Microsoftが公開している小規模言語モデルです。パラメータ数を抑えながら高い制度の回答を返すことができます。パラメータ数が少ないため、ラップトップやエッジデバイスなどで言語モデルを使うことが可能になります。 news.microsoft.com 準備 以下からモデルのダウンロードを行います。 huggingface.co モデルをダウンロードしたら同じディレクトリに以下のコードをmain.pyとして保存します。 import gradio as gr …
はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回は軽量モデルの「moondream2」を使ってみました。 huggingface.co その他のVision&Languageモデル(VLM)touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatenablog.com 画像と結果写真① 実行 python image2text.py -I image1.jpg -P "describe this image"結果 In the image, two children are sitti…
本記事ではDatabricksのDatabricks Container Serviceを用いてNVIDIA社の推論ライブラリであるTensorRT-LLMを実行可能なNotebook環境を構築する方法を紹介します。 目次 目次 はじめに Databricks Container Service NVIDIA TensorRT-LLM 解決したいこと TensorRT-LLM Container Imageの作成 Databricks Containers ベースイメージの変更 Pytorch バージョンの変更 TensorRT-LLMのインストール 動作確認 Databricks環境設定 T…
これは、なにをしたくて書いたもの? MetaからLlama 3がリリースされました。 Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に - ITmedia NEWS このLlama 3をOpenAI API互換のサーバーを持つllama-cpp-pythonおよびLocalAIで動かせそうなので、試してみることにしました。 Llama 3 Llama 3はMetaの公開しているLLMです。 Meta Llama 3 Introducing Meta Llama 3: The most capable openly available LLM to dat…
はじめに(なにか始まったぞ...) (この物語は、Python 3.11.8で作った仮想環境でお届けします) あるところにtransformersをインストールして開発を進めるPythonプロジェクトがありました。 % pip install transformers そのプロジェクトではrouge-scoreも追加でインストールしました1。 % pip install rouge-score プロジェクトが進む中でrouge-scoreだけをアンインストールすることになりました。 さあどうしますか? 目次 はじめに(なにか始まったぞ...) 目次 単にpip uninstallしては? tr…
はじめにWSL2上のOllamaで「Phi-3」を実行して、Windows上のChatUIでそれを利用してみました。無料で実行可能です。 github.com github.com 必要なものWSL2にDocker Engineのインストールが必要です。 Windowsにnpmのインストールが必要です。使用した環境WSL2 Ubuntu 22.04 on WSL2 CUDA 11.8Windows Windows 11WSL2側でやることDockerのインストールこちらに従いました。 WSL2の場合は最初に以下のコマンドを実行しないとDockerが起動しません。 sudo service do…
iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。
はじめにこちらのスクリプトをDiffusers用に書き換えました。 touch-sp.hatenablog.com スタイル画像こちらの画像を使わせてもらいました。 結果シードを変えて4枚の画像を作成しました。スタイルを維持しながらウサギを猫に変えています。 PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.2.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install git+https://github.com/huggi…
日本語対応の画像生成AI「Sakana AI」をつかってみた|画像生成と会話するAIの魅力と可能性https://note.com/chat_gpt777/n/n4afa51555ad0 画像生成AI「Sakana AI」が発表されたので使ってみた。プロンプトは日本語でも英語でも使える。そしてrunを押すと生成が始まるが2.3秒で完了。作成される枚数は1枚ですがすごく速い。今までの画像生成AIの中では一番速いかもしれない。Stable Diffusionを改良したものだと思う。生成された画像の質はそれなりにという感じで、高品質です。でもそれ以外でももっと品質のいいものもある。この「Sakana…
あのバイトダンスから高品質な生成AIモデル「HyperSD」がリリースされています。 画像比較が紹介されており、以下の画像では上部がハイパーSDXLとなっています。 よりシャープでめりはりのあるくっきりとした画像になっているのがわかります。 犬は「カメラマンが撮った犬」といった感じですし、ガラスのハートは非常にクリアで透明感がしっかりと再現されています。 Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis こちらでは右側がハイパーSD. 人物は非常にくっきりメリハリがついているのがわかりま…
先日「Llama-3-70Bを刈り込み(Pruning)で42Bに縮めたモデルが登場」というRedditの投稿が話題になっていました。 投稿者はおなじみのkindacognizant(kalomaze)さんですが、モデル作成者は別の方のようです。モデルのHuggFaceのRepoはこちら。 huggingface.co このモデルを実際に触ってみましたが、InstructモデルではなくBaseモデルを刈り込んだものなので正直なところ良し悪しはよくわかりませんでした。 投稿によれば、Pruned-Llama3のMMLUスコアは76-77(4bitでテスト)で、元の79から若干低下しているものの、…
この記事では AnimateLCM に触れていきます。 LCM は初めて登場するキーワードですが、併せて調べていきます。 リリースノートの一番上にあったけど既読スルーしてたやつ
こんにちは。Algomatic の宮脇(@catshun_)です。 本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation