量子化

このタグでブログを書く

言葉の解説

ネットで話題

量子化

(サイエンス)

【りょうしか】

連続な物理量を離散的な物理量で置き換えること．また，その置き換えによって理論を再構築すること．量子力学において基礎的な処理である．
さらに場の量子化（かつて第二量子化と呼ばれていた）という処理もある．

リスト::物理関連

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

ローカルLLM自由帳•7日前

llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

量子化時のモデル劣化を抑制する重要度行列（iMatrix; Importance Matrix）計算の話題です。最近はHuggingFaceにアップされるGGUFも多くがiMatrix版となっていますが、これらの量子化でよく使われているiMatrix計算用データセットは以下の2種類のようです。 wiki.train.raw：Wikitext（英語版）のトレーニング用データセット。llama.cppのサンプルでもwiki.train.rawが使われている。iMatrix計算では、このうち10kトークンほど計算すれば実用的には十分な様子。 groups_merged.txt：koboldcppに…

#LLM#llama.cpp#量子化

ネットで話題

479ブックマークニューラルネットワークの量子化についての最近の研究の進展と、その重要性 - SmartNews Engineering Blog

developer.smartnews.com

166ブックマーク盗聴を完全に不可能にする「量子化インターネット」の構築が本格的に進行中

gigazine.net

110ブックマーク BitNetから始める量子化入門

zenn.dev

50ブックマーク BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録

nmoriyama.hatenablog.com

46ブックマーク Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life

secon.dev

39ブックマーク CPUだけでも使える1ファイル版フリーの量子化省メモリローカルLLMのllamafileを入れてJava,PythonプログラムをAIに書かせてみた。Win,Mac,Linux,*BSDサポート。Dockerより簡単。ジャンクノートPCでおけ。LLM禁止職場に最適。

togetter.com

36ブックマーク日本語LLM 9種を量子化して回答内容を比較調査してみた - Qiita

qiita.com

35ブックマーク深層学習の極小量子化という新たなる希望 | 射撃しつつ前転 (スターウォーズのテーマをかけ、ゆっくりとスクロールしながらお読みください) この記事は LeapMind Advent Calendar 2019 25日目の記事です。もはや年1回の更新すら怪しくなってきたこのブログですが、今年もなんとか更新できました。来年はどうなるかな。概要LeapMindは極小量子化という技術にかなり注力しています...

tkng.org

25ブックマーク量子化について

blog.idein.jp

関連ブログ

ローカルLLM自由帳•17日前

ChatNTQ 7B と LightChatAssistant 2x7B の日本語性能を測定する

前回の記事で試した日本語チャットモデル「ChatNTQ-JA-7B-v0.1」と、そのMoEモデル「LightChatAssistant 2x7B（改称あり）」について、かなり性能が良さそうな感触が得られたので、追加でテストしてみました。 LLMの日本語チャット性能を測るベンチマークとしては「MT-Bench日本語版（GPT-4測定）」が最も代表的ですが、何度も測定するにはコスト面でヘビーそうなので、代わりにELYZAさんの考案した「ELYZA-tasks-100」を使うことにしました。 huggingface.co このベンチマークは5点満点の日本語記述問題100問から構成されています。本来…

#LLM#Command R#量子化#llama.cpp

ローカルLLM自由帳•1ヶ月前

llama.cpp: CPU+GPUのプロンプト処理が高速化される（#6083）

今さら知ったのですが、2週間ほど前にllama.cppでモデルをGPUに部分オフロードした場合のプロンプト処理速度が大幅に向上されていました。 github.com 従来のllama.cppではGPUフルオフロードから部分オフロードに移行すると急激にプロンプト処理（PP）が遅くなるため、CPU+GPUのハイブリッド推論の魅力を大きく損ねていました。このPRによって、CPU比率が増えた場合のPP速度低下が緩和され、部分オフロードの実用性が大幅に改善しています。以下はMixtral 8x7B のQ3_K_L量子化モデルで1024トークンのPPを実行したときのグラフです。モデルのレイヤー33層…

#LLM#llama.cpp#量子化

ローカルLLM自由帳•1ヶ月前

llama.cpp量子化：重要度行列(Importance Matrix)計算に使うテキストについて

以前にも取り上げている件ですが、現在のllama.cppでは重要度行列(Importance Matrix)計算を利用することで量子化精度が改善できます。特に4bit以下の低bit量子化を行う場合は、このiMatrix版の量子化が推奨されます（Metal環境などでは推論速度が遅くなるので要注意）。 Claude 3 Opusによると、重要度行列とは以下のように説明できます。 Importance Matrixは、言語モデルの量子化において、各パラメータの重要度を表現するために使用される行列のことを指します。量子化の過程では、モデルの精度を維持しつつ、パラメータを低ビット幅の整数値で表現しま…

#LLM#llama.cpp#重要度行列#量子化#GGUF

ローカルLLM自由帳•2ヶ月前

llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在）

https://github.com/ggerganov/llama.cpp/pull/5747 llama.cpp では最近、ikawrakow氏による量子化手法のアップデートが熱心に行われています。新しい量子化の実装が重なり個人的に分かりづらくなってきたので、簡単に整理しておこうと思います。 quantize.cppのオプションを参照すると、現在（2024.02）のGGUFバリエーションは以下のとおりです。 github.com 非量子化GGUF："F32", "F16"。量子化していない巨大なGGUF。旧量子化GGUF："Q4_0"、"Q4_1"、"Q5_0"、"Q5_1"、"Q8_…

#LLM#llama.cpp#量子化

ローカルLLM自由帳•2ヶ月前

llama.cpp：Importance Matrix による新しい量子化手法を試す

年明けにllama.cppに実装された「Importance Matrix（重要度行列？）」を使用したgguf量子化について調べてみました。 Importance Matrixは、llama.cppのikawrakow氏が取り組んでいる一連の量子化精度改善の中心的なアイディアのようで、特に2-3bitの極端な量子化においてモデルの劣化を大きく抑制する効果があるようです。 github.com 例によって技術的な仔細はわかりませんが、GPTQ量子化などと同じように量子化時にトレーニングデータセットを使うことで量子化の精度を改善する手法のようです。 llama.cppにおけるImportance …

#LLM#llama.cpp#量子化

ローカルLLM自由帳•2ヶ月前

llama.cpp：再量子化（requantize）による劣化を調べる

llama.cpp の量子化では、safetensorsなどの元モデルを一度FP16フォーマットのggufに変換した後で（convert.py）、このFP16モデルをもとに./quantizeによって8bitや4bitなどのggufに圧縮します。ただquantize.cppに目を通すと [--allow-requantize]（再量子化を有効にする）というオプションがあり、例えば8bitのggufから4bitのggufに再度圧縮することも可能なことがわかります。 github.com --allow-requantize: Allows requantizing tensors that h…

#LLM#llama.cpp#量子化

ENGINEERING BLOG ドコモ開発者ブログ•1年前

1=1+(1-1)の話

※この記事は同日投稿の"One Equals One Plus One Minus One"を翻訳したものです。 NTTドコモ R&D Advent Calendar 2022 の15日目の記事です。 1=1 私は DOCOMO Innovations, Inc. の Senior Research Engineer としてモバイル通信ネットワークの最適化に携わっています。ネットワーク最適化を考える上で，複雑な計算に頭を悩ませることがよくあります。ネットワークは相互に接続された多くのシステムで構成される複雑なシステムですが，単純なものから理解することで複雑なものの理解につながります。例えば次の…

#二次方程式#微積分#信号処理#画像処理#量子化

目指せ！電気主任技術者～解説ノート～•2年前

アナログ－ディジタル変換

アナログ信号をコンピュータで利用するには，アナログ－ディジタル変換（analog-to-digital conversion，略して A-D 変換）によりディジタル信号に変換する必要がある。連続したアナログ信号を適当な時間間隔で区切り，断続的な信号とすることを標本化という。標本化定理によると，入力信号を完全に復元するためには，その入力信号に含まれる最高周波数成分の 2 倍を超えたサンプリングレートとすればよい。標本化されたアナログ値を飛び飛びの不連続な数値で表すことを量子化という。量子化の段階数が増え，量子化の単位が小さくなるほど，量子化誤差は小さくなる。 A-D 変換器の方式積分形 …

#AD変換#標本化#量子化#サンプリング定理#ナイキスト周波数

パンデミック後の新世界を作るために (foussin’s blog)•3年前

3つの力(強い力・電磁気力・重力)の謎について考えた…

(思考実験：2021.4.17 Sat ～ 2021.4.19 Mon) この宇宙は「4つの力」が支配する空間と考えらている。強い力・弱い力・電磁気力・重力の4つだ。このうち「弱い力」については分かり易い説明と出会えていないので、自分には上手く説明できない。なので「弱い力」は言及しない事にした。今回の記事は、前回の「距離2乗」を、さらに応用したものだ。で、従来の常識から飛躍するための最大の要点は「空間は量子化できる有限個数の存在である」と解釈する事だ。つまり宇宙空間には、画像ソフトでお馴染みの「レイヤー構造」のようなものが存在していると考えるのだ。重力の謎について考えてみた：今回は、重…

#分室#思考実験#4つの力#次元#量子化

CLOVER🍀•2日前

Metaの「Llama 3」をOpenAI API互換のサーバーを持つllama-cpp-pythonとLocalAIで試す

これは、なにをしたくて書いたもの？ MetaからLlama 3がリリースされました。 Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に - ITmedia NEWS このLlama 3をOpenAI API互換のサーバーを持つllama-cpp-pythonおよびLocalAIで動かせそうなので、試してみることにしました。 Llama 3 Llama 3はMetaの公開しているLLMです。 Meta Llama 3 Introducing Meta Llama 3: The most capable openly available LLM to dat…

暇暇日記•2日前

【EXVS2OB】修正日(24/4/24)にフリマ固定擦った感想【EXVSOB】【オバブ】

フラッグスローネ天が下方されてない！と話題になっている今回の修正(24/4/24)ですが、バランス調整を経てどんな対戦環境に変化したか気になって当日遊んできました。修正概要は、上位30・25がちょっとだけ弱体化し、上位20はノータッチだった、という感じ。大抵の場合、こういう調整の時は「色んなキャラ強くなったけど、結局環境変わんないよね」「可もなく不可もなく」という(アケゲーとしては)微妙な評価以上になることがほぼ無い。では今回の調整はどうだったか。可もなく不可もなくだった。ということで、修正機体について雑に語っていきます。あとアッガイは専門外、かつあんまり見かけなかった為ノーコメントで…

ローカルLLM自由帳•4日前

【LLM論文を読む＆試す】LLMの刈り込み(Pruning)：深いレイヤーの不合理な非効率性

先日「Llama-3-70Bを刈り込み（Pruning）で42Bに縮めたモデルが登場」というRedditの投稿が話題になっていました。投稿者はおなじみのkindacognizant（kalomaze）さんですが、モデル作成者は別の方のようです。モデルのHuggFaceのRepoはこちら。 huggingface.co このモデルを実際に触ってみましたが、InstructモデルではなくBaseモデルを刈り込んだものなので正直なところ良し悪しはよくわかりませんでした。投稿によれば、Pruned-Llama3のMMLUスコアは76-77（4bitでテスト）で、元の79から若干低下しているものの、…

シンギュラリティ実験ノート•6日前

UM790 ProのNPUでLLM（Llama2-7B）を動かしてみた

NPUでLLM（opt-1.3b）のデモプロを動かすことができたので、今回はLlama2-7Bにチャレンジしてみた。結果的に動かすことはできたが、期待していた結果とは少し違っていた。導入手順とその中で気付いたことをここにまとめておきたい。 Copilotに頼んだらDALL E３が描いてくれました Step1 リポジトリのダウンロードと仮想環境の作成こちらのページを見ながら環境を作成する。AnacondaからCMDプロンプトを起動して以下を実行する。 git clone https://github.com/amd/RyzenAI-SW.git cd RyzenAI-SW\example\tr…

SEが最近起こったことを書くブログ•6日前

2024年4月15日の週に気になった記事などまとめ

ゼロから始める自作LLM 小さなLLMを多数組み合わせることで、単一の巨大モデルに匹敵する可能性コンテナ使うならAzureで決まり！個人的推しサービスのAzure Container Appsを語る_ ML system design: 300 case studies to learn from GUIと日本語環境が使えるお手軽Docker環境の使い方 101 real-world gen AI use cases featured at Google Cloud Next ’24 Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開 Intro…

シンギュラリティ実験ノート•6日前

UM790 ProのNPUでLLM（opt-1.3b）を動かしてみた

Ryzen AI Software version1.1 がリリースされた。リリース情報を良く読んでみると、version0.8の時点で既に「opt-1.3b」というLLMのデモプロが公開されていたことが分かった。「Llama2 7b」は難易度が高そうだったので、手始めにこのLLMのデモプロから試すことにした。 Copilotに頼んだらDall E3が描いてくれました opt-1.3bデモプロのダウンロード上記のリリース情報にあるリンクからダウンロードしようとするとアカウント登録を求められる。メールアドレス等を入力し、アカウント登録するとデモプロ（zipファイル）をダウンロードできる。デモ…

NS’s blog•7日前

【拡張子】<JPEG編> PDF, PNG, PSD, JPG, GIF, BMPとの違いは？

JPEG（ジェイペグ）は、静止画像の圧縮形式の1つです。正式名称は「Joint Photographic Experts Group」で、一般的には「ジェイペグ」と呼ばれます。写真などの自然画像の記録に向いており、高画質で保存できる一方で、ファイルサイズを小さくすることができます。 JPEGの歴史 JPEGの特徴 JPEGのメリット・デメリットメリットデメリット JPEG圧縮の仕組み JPEGとその他の画像形式との比較まとめ参考情報その他 JPEGの歴史 1980年代：JPEG誕生の背景 1980年代後半、デジタル画像技術の進歩に伴い、画像の保存や伝送におけるデータ量が飛躍的に増…

Volatile memory•8日前

で、結局買い替えどうするの？

いろいろ見たのでそろそろどうするか決めないとです。諸々の情報を加味して、いまのところこうしようかなと思います。 windows10のサポートが終わる件。 2025年10月14日。まだ1年以上あるし。そもそも、windows12はAI的な能力がいるからいまあるPCはだいたいだめとかそういう怪しい状況だし。 IntelもAMDも対応急いでるっぽいし。いまは、様子見でしょ。 AI的なやつが動かない件。 AI的なやつといってもいろいろあって、学習とかしようとおもうと中途半端じゃだめ。 VRAM 20GBとかでも怪しい。もう諦めよう！ね！実行の方は量子化がすごい。 4bitだと4GBとか…

制御工学ブログ•8日前

熊本大学情報電気工学科Webページ新設

熊本大学情報電気工学科は３つの教育プログラムに分かれています。この３つについて説明されているページが無かったことから新設したのが以下のサイトになります。熊本大学情報電気工学科・情報電気工学専攻熊本大学工学部情報電気工学科info infoページでは、概要や学生向けページ、企業向けページなどをまとめています。電気工学教育プログラム研究や教育についてまとめています。情報電気工学科 - 電気工学教育プログラム (kumamoto-u.ac.jp) 電子工学教育プログラム研究や教育についてまとめています。情報電気工学科 - 電子工学教育プログラム (kumamoto-u.ac.jp) 情…

くりっぱーとろにくすのブログ•8日前

PotenzaDSP Amigo 操作方法その1 〜基礎操作編～｜初心者でもわかる解説

0からのシンセサイザーのくりっぱーこと Kurippertronixxx@Kurippersynthです。伝説のコンピューター、Amigaのローファイなサウンドを再現するサンプラープラグインPotenzaDSP Amigoのくりっぱーチャンネル連動ブログです♪ ★PotenzaDSP Amigo その1 〜基礎操作編～ブログ連動動画 PotenzaDSP Amigo 操作方法その1 〜基礎操作編～｜初心者でもわかる解説 www.potenzadsp.com 今回はPotenzaDSP Amigoの基本的な操作の解説です。 ★PotenzaDSP Amigoとは？ PotenzaDSP …

シンギュラリティ実験ノート•9日前

UM790 ProのNPUでRyzen AIのデモプロを動かしてみた

Ryzen AI Software version1.1 がリリースされ、Llama2 7Bが機能追加された（情報はこちら）。70億パラメタのLLMをUM790 ProのNPUで動かすことができるらしい。最終的にはLlama2をNPUで動かすことが私の目標であるが、いきなりはハードルが高い。今回はNPUで画像認識するデモプロの動作確認ができたので、そこまでを記録しておきたい。環境の再構築 Ruzen AIを動かすために必要な環境は以下の通り。この辺りの導入については私のこちらの記事を見ていただきたい。私は既に上記環境を導入して、デモプロの動作確認もトライしていたが、何故かcmakeのコン…

5chアニ速•9日前

ガンダム00見たんだけど

5chアニメ速なんだこいつ…いやかっこいいじゃん！やっぱりなんだこいつ…なんだこいつ！？って感じでしたブシドーが自称じゃないのが一番混乱した5chアニメ速 1かっこいいと気持ち悪いは両立することがわかるね5chアニメ速 3ライバル枠のようでちがうようでちょっとライバル枠if(typeof(adingoFluct)!="undefined") adingoFluct.showAd('1000194985'); window.gnshbrequest.cmd.push(function() { window.gnshbrequest.applyPassback("1536626", "[data-…

nodchipのコンピューター将棋ブログ•11日前

tanuki- 2024-04-17 halfkp_1024x2-8-16

tanuki- 2024-04-17 halfkp_1024x2-8-16 実験内容 halfkp_1024x2-8-16 ネットワークを学習させ、レーティングを測定する。ランダムパラメーターからの学習には、 Hao を用いて生成した学習データを用いる。 Fine-tuning に Fine-tuning Suisho10Mn_psv を学習データとして用いる。棋譜生成ランダムパラメーターから学習させる際の学習データ生成ルーチン tanuki-棋譜生成ルーチン評価関数 Hao (tanuki-.halfkp_256x2-32-32.2023-05-08) 1手あたりの思考深さ最大 …

ローカルLLM自由帳•13日前

Chat Vector の効果 vs. MoEマージの効果

前回の続きです。次はChat Vector処理によってどれくらい日本語チャット機能が改善しているのかを具体的にみてみます。下記の記事で、Chat Vectorを使わなくても単純に2モデルをMoEマージするだけで一定の性能向上が観察できることは確認しています。 sc-bakushu.hatenablog.com では、Chat Vectorを加えることでモデルのチャット性能はどのように影響を受けるののでしょうか。単体の7BモデルにおけるChat Vectorの効果まず「LightChatAssistant 2x7B」の再現過程で得られた「ChatNTQ 7BにMistral-7B-v0.2…

関連ブログ

llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

ネットで話題

関連ブログ

ChatNTQ 7B と LightChatAssistant 2x7B の日本語性能を測定する

llama.cpp: CPU+GPUのプロンプト処理が高速化される（#6083）

llama.cpp量子化：重要度行列(Importance Matrix)計算に使うテキストについて

llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在）

llama.cpp：Importance Matrix による新しい量子化手法を試す

llama.cpp：再量子化（requantize）による劣化を調べる

1=1+(1-1)の話

アナログ－ディジタル変換

3つの力(強い力・電磁気力・重力)の謎について考えた…

Metaの「Llama 3」をOpenAI API互換のサーバーを持つllama-cpp-pythonとLocalAIで試す

【EXVS2OB】修正日(24/4/24)にフリマ固定擦った感想【EXVSOB】【オバブ】

【LLM論文を読む＆試す】LLMの刈り込み(Pruning)：深いレイヤーの不合理な非効率性

UM790 ProのNPUでLLM（Llama2-7B）を動かしてみた

2024年4月15日の週に気になった記事などまとめ

UM790 ProのNPUでLLM（opt-1.3b）を動かしてみた

【拡張子】<JPEG編> PDF, PNG, PSD, JPG, GIF, BMPとの違いは？

で、結局買い替えどうするの？

熊本大学情報電気工学科Webページ新設

PotenzaDSP Amigo 操作方法 その1 〜基礎操作編～｜初心者でもわかる 解説

UM790 ProのNPUでRyzen AIのデモプロを動かしてみた

ガンダム00見たんだけど

tanuki- 2024-04-17 halfkp_1024x2-8-16

Chat Vector の効果 vs. MoEマージ の効果

PotenzaDSP Amigo 操作方法その1 〜基礎操作編～｜初心者でもわかる解説

Chat Vector の効果 vs. MoEマージの効果