コンピュータに自然言語*1を処理させること。
主な処理技術
*1:人間の扱う言語。日本語、英語など
Mistral7BベースとしたMoEモデルでなかなか流暢な日本語を生成するらしいので試して見ました。ColabでT4でトライしてみました。 モデルはこちら。作者に感謝。 huggingface.co 質問:まどか☆マギカでは誰が一番かわいいか名前と理由を教えてください。 答え:「まどか☆マギカ」というアニメ作品において、様々な可愛いキャラクターが登場しますが、特に多くの人から支持を得ているキャラクターは「冴香美晴」と言われています。理由としては、彼女は普段はおとなしく内気でありながらも、魔法少女に変身すると豹変して元気いっぱいに戦う様子や、親友のほむらちゃんとの関係性が可愛らしいからです。また…
概要 Whisperなどで日本語の文字起こしをした後の文章にほとんど句読点が入っておらず、そのまま文字起こし文章を結合すると利用しにくいことがありました。 そこで何らかの手法で句読点を挿入したいと思ったのですが意外と手軽な古典的な手法が見つかりませんでした。このようなタスクはpunctuation restorationと呼ばれるタスクのようです。 ちょっと調べて見つかったのは次のような日本語BERTモデルのMask Fillを逐語的に適応していく方法でした。 qiita.com この手法でもできなくはないのですが思ったほど精度が良くないこと、さらに処理時間が文章の長さに比例してだんだん無視で…
command-R-plusが話題なのでcolabでお試し。非商用ライセンス。GPT4並みと言われるが、Q2量子化モデルだと23GBでも動くらしいので、先人の有難いトライを参考にcolabでチャレンジしてみた。colabでのコードは最後にgithubへのリンクで示した。 質問その1 日本の観光地でおススメは? 日本には全国各地に多くの魅力的な観光地がありますが、その中でも特にオススメの観光地をいくつかご紹介します。 - 東京:東京は日本の首都で、近代的な高層ビルや伝統的な神社仏閣など、さまざまな顔を持つ都市です。浅草の浅草寺や東京スカイツリー、お台場の東京タワーやレインボーブリッジ、新宿の新宿…
Qwenの新しいモデルQwen1.5-MoE-A2.7Bを試して見ました。少し期待しつつ・・・。 モデルのページはこちら。 huggingface.co 質問:日本で2番目に高い山は?日本で2番目に高い山は富士山です。 なかなか正解は難しい。 質問:日本の観光地でおススメを教えてください。その理由も詳しく。日本には素晴らしい観光スポットがたくさんあるため、選択肢は広いです。以下にいくつかのおすすめの観光地をお推荐します。 1. 京都 - もちろん日本の古都であり、美しい寺院や神社、そして伝統的な文化和食文化が魅力的です。特別な祭りや行事がある時期には特に人気があります。2. 東京 - 大都市で…
楽天からもLLMモデルが発表された。日本語のモデルが沢山出てきてどんどんよくなるといいですね。 huggingface.co さっそく試して見ました。 まどか☆マギカで一番かわいいのは? まどか☆マギカには、個性豊かなキャラクターがたくさんいます。人それぞれ好みや基準が異なるので、「一番かわいい」という答えは一概には言えません。 ここでは、まどか☆マギカに登場するキャラクターを紹介しますので、自分なりに「かわいいキャラクター」を選択してみてください。 ・巴마どか・キュゥべえ・暁美ほむら・綺星きらび・巴マミ 優等生の答えだ。「どか」とは何だか分からないが。 "日本で二番目に高い山は? 標高245…
RWKVは、RNNとTransformerを組み合わせた推論が軽いという。継続して学習させているというので、時々チェックしていた。Eagle 7Bというモデルが出たので試してみる。翻訳性能も高くなっていて期待しつつ。 blog.rwkv.com というわけで、colabのメモリup+GPU T4でチャレンジしました。 先例に倣ってウォーミングアップ。 User: まどかマギカで一番かわいいのは? Assistant: この質問に対する答えは、人によって異なる可能性があります。しかし、一般的に、「まどかマギカ」という作品に登場するキャラクターの中で、一番かわいいと思われるキャラクターは、個人の好…
オープンなモデルでかつ一歩進んでいる感じのあるSwallow。MS-7Bは7Bとしては高い性能があるらしいということで試して見ます。 huggingface.co npakaさんの記事を見ながらColabで構築します。 note.com gist.github.com ColabのGPU T4で動かせるようなのでT4をGPUとして選択します。少々、回答に時間がかかりるようですが、答えは返ってくるようなので続けます。 太字が与えたプロンプト部分 魔法少女まどか☆マギカで一番かわいいキャラクターは、さやかちゃんですね。 でも、まどかも、ほむらも好きなので、3人の関係にほっこりしたり、ときめいたりし…
はじめに X上でなぜかしばしば直接的・間接的に絡んでくださる谷口一平氏が、次のようなポストを投稿していた。 永井哲学と入不二哲学の基本的な関係は、 θ=π/2つまり90度の回転である。すなわちそこでは、タテのもの(超越論的構成)はヨコ(横方向への展開運動)とされ、ヨコのもの(山括弧の存在)はタテ(垂直に働く現実性の力)とされるからである。もちろん、ただ回転しただけでは全然ないが。— 谷口一平 A.k.a.hani-an (@Taroupho) 2024年3月14日 永井哲学と入不二哲学の関係は π/2 らしい。 永井哲学か入不二哲学の一方のノルムが0の場合でも、内積は0になるけどね。 本記事で…
Tinyllamaをお気軽に量産?できる、infinite-tinyllamaをcolabで動作させてみました。ファインチューニングがお手軽にできると、きっと楽しくなるのだろうと思ってローカルで動かそうとしたのだが、何かとめんどくさいのでColabで動かしてみた。 github.com Colabはこちら。 infinite-tinyllama.ipynb · GitHub あっという間に鍛え終わるのだが、coloristだと以下の様な感じに・・・。 Pure Black: A shade that completely absorbs light and does not reflect a…
alfred さんのコードを参考にcolabで動かして見ました。折角なので「OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセット」を使ってみます。 github.com 参考: Gemma初心者ファインチューニングコードです。HFの設定などはよしなにやってください。 · GitHub まだまだじっくり学習させないといけないのだろうけれども、効果を確かめてみました。 <bos><start_of_turn>user日本で一番高い富士山高さは3776メールです。80%まで登ると標高は何メートルですか。ステップ・バイ・ステップで考えてくだ…
原理的にITテクノロジーはアメリカが有利にできている。 TwitterやAmazonやFaceBookには新規性もなければ、特殊なテクノロジーも使われていない。誰でもできることだ。しかし、こういったプラットフォームは英語圏でないとまず無理なのだ。 ついでいえば、プログラミングというのはコモディティの極致のようなもので、誰が作ってもまあ大差ない。 半世紀前なら天才プログラマーもありえたが、今はどうでもいい。マシンパワーと膨大なライブラリとサンプルコードがすべてを解決してくれる(まあ99.9%の話で、0.1%の分野では天才が必須。AIとかね)。 ITテクノロジーに幻想を抱きすぎているきらいが、世間…
hapicom Inc.ことハッピーコンピューター株式会社では、様々な業界におけるご相談やご依頼の中で「一筋縄ではいかない問題」に直面することが多々あります。 本シリーズでは、過去にあった一筋縄ではいかない問題について、公開できる範囲でストーリー仕立てにしてご紹介していきます。 あまりオープンな場ではみられないような案件が多いので、こんな世界もあるのかと楽しんで読んでいただければ幸いです。 地獄の黒塗り作業から解放せよ!問題編 地獄の黒塗り作業から解放せよ!解決編 方法の模索 検証と実践 指摘と修正 地獄の黒塗り作業から解放せよ!後日談 (付録)PDF文書に黒塗りするコード 地獄の黒塗り作業か…
キングオブマネーメーカー 文章力がなくても大丈夫!AIが作る魅力的な記事の秘密とは?現代の情報社会において、魅力的な記事は重要な存在となっています。しかし、文章力に自信がない人にとっては、そんな魅力的な記事を作ることは容易ではありません。しかし、AIが登場したことで、その難しさを解消する道が開けました。では、AIが作る魅力的な記事の秘密とは一体何なのでしょうか?本記事では、その秘密に迫ります。AIが人間の文章力を超えることができる理由や、魅力的な記事を作る方法について具体的に解説していきます。文章力に自信のない方にとって、AIは頼もしいパートナーとなることでしょう。では、さっそくその秘密に迫っ…
この記事について バックグラウンド 本業はTypeScriptを主に書いているWebエンジニアで社会人5年目。副業ではデータサイエンティスト/機械学習エンジニアをやっていてこちらも5年目。 この記事を書いた理由 最近読んだ「科学的根拠に基づく最高の勉強法」という本の中に、「思い出す頻度が高ければ高いほど定着する」という話があった。 なので、読んだ本の内容を思い出し定着させるきっかけとするためにこの記事を書いている。 科学的根拠に基づく最高の勉強法作者:安川 康介KADOKAWAAmazon 紹介する本のラインナップについて 統計や機械学習の理論をガチガチにするのは難しいと判断して、理論寄りの書…
生成AIが登場してしばらく経って、一時期よりも「人工知能に仕事を奪われる」みたいな論調というか、煽りがトーンダウンしてきた気がする。生成AIは今までのチャットボットや、限られたゲームにだけ注力していたニューラルネットワークとは異なり、自然言語を扱うという点でインターネット上の人間関係を再現出来るかのような「人間へ一歩近付いた」技術だったが、今までの所社会を劇的に変化させたという程ではない。そういう意味で「幻滅の谷」入りしたとも言えると思う。ガートナーってすげぇや。 生成AIの走りとしてブランド価値を持つ ChatGPT 、OSやオフィスソフトとの統合でユーザビリティを高めんとする Bing A…
この本は私の書棚にある Excel に関する唯一の本かもしれません.研究で Excel を使ったことは一度もありませんが,地質関係の方々だと,Excel で分析というような話はしょっちゅう聞きますし,ガチの Excel 使いの方に下手なことを言うとまずいという話もあるようです.どんな道具でも使い方を極めれば大丈夫だという話だと思います.ただ,Excel のすごわざが出てくる本というわけではなく,この本を読んで R や python で処理するということだって普通にできそうです. この本で本格的に使うのは茶筅という形態素解析のソフトで,現在どうなっているかわかりませんが,私もテキストデータ解析で…
こんにちは。Algomatic の宮脇(@catshun_)です。 本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
AIはテクノロジー革命と生産性の向上を図れるのか テクノロジー革命と生産性向上の新たな時代 AIの進化と生産性向上 AI(人工知能)技術の急速な進歩は、生産性向上の新たな時代を切り開いています。機械学習、自然言語処理、ディープラーニングなどの技術が組み合わさり、従来の業務プロセスを劇的に変革しています。この記事では、AIが生産性向上にどのような影響を与えているかについて探ってみましょう。 1. 自動化による業務効率化 AIは、繰り返しのタスクやルーチン作業を自動化することによって業務効率を大幅に向上させます。例えば、AIを用いたロボットプロセスオートメーション(RPA)は、データ入力やファイル…
AI(人工知能)技術の進化は、ビジネスの世界に革新をもたらしています。ビジネスパフォーマンスの向上や業務効率化のために、さまざまなAIツールが開発され、活用されています。ここでは、ビジネスにおけるAIツールの効果的な活用方法やその利点について考察してみましょう。 1. AIツールのビジネスへの適用範囲の拡大 近年、AI技術はビジネスのあらゆる領域に適用されています。例えば、営業、マーケティング、顧客サービス、人事管理など、さまざまなビジネス機能でAIツールが活用されています。これらのツールは、業務プロセスを自動化し、データ分析や予測分析などのタスクを効率化することができます。 2. データドリ…
AI(人工知能)発展の変化とは? AI(人工知能)技術の発展により、私たちの仕事環境は大きく変化しました。日々の業務を効率化し、生産性を向上させるために、さまざまなAIツールが開発されています。ここでは、社会人が仕事で活用できるAIツールについて、その効果的な活用方法や利点について考察してみましょう。 1. AIツールの活用範囲の拡大 近年、AI技術の進化により、様々な業界でAIツールの活用範囲が拡大しています。例えば、自然言語処理(NLP)を活用したチャットボットや音声認識技術を利用した仕事効率化ツールなどがあります。これらのツールは、日常業務の多くを自動化し、社会人の負担を軽減することがで…
ディープラーニングは、機械学習の一分野であり、複雑な問題を解決するために使用される強力な手法です。以下に詳しく説明します。 ディープラーニングの基本ディープラーニングは、人工ニューラルネットワークを使用して学習を行います。ニューラルネットワークは人間の脳の仕組みを模して設計された機械学習モデルで、多層の処理層から構成されています。各層は入力データを分析し、特徴を抽出していきます。この多層構造により、ディープラーニングは複雑な問題に対して優れた性能を発揮します。 ディープラーニングの特徴ディープラーニングの大きな特徴は、大量のデータを自動的に学習し、高度な特徴を抽出できることです。従来の機械学習…
○資料 管理工学科とキャリアステップ メーカー・コンサル・エンジニアからの知見 アジェンダ 今日のゴールと留意点 (余談) 私のキャリアステップ 自己紹介 人生グラフ 学生時代 学業・英語・アルバイト 学生時代 研究 学生時代 就活 (余談) 過去のキャリア メーカー時代 会社概要 メーカー時代 職務概要 メーカー時代 事例 メーカー時代 学びと同期からのコメント (余談) コンサル時代 会社概要 コンサル時代 同期からのコメント コンサル時代 職務概要 コンサル時代 事例 研究にも役立つおすすめビジネス書 ⓪ビジネスルールの基礎 ①システム思考(システムシンキング) ②解像度 ③数値分析 (…
株式市場の心理学入門 株式市場は数字やデータだけで動いているわけではありません。市場を形成しているのは生身の人間です。投資家たちの喜びや怒り、不安、興奮、期待、恐怖といった感情、心理が市場に大きな影響を与えています。株式市場における心理学の基本を解説し、その力がいかにして市場動向に影響を及ぼすのかを見ていきましょう。 心理学と株式市場 心理学は、人間の行動や心理状態を科学的に研究する学問です。株式市場の文脈では、特に投資家の意思決定プロセスに注目されます。人間の判断は、常に合理的なわけではなく、恐怖や貪欲、群衆心理など、多くの非合理的な要素に影響されます。株式市場の波は、このような心理的要因に…
はじめに 『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。 本の補助として読んでください。 この記事では、MeCabを利用して各種モデルによる推論用の頻度データをRで作成します。 【前節の内容】 www.anarchive-beta.com 【他の節の内容】 www.anarchive-beta.com 【この節の内容】 はじめに 2.1 トピックモデルの文書集合の作成 文字コードの変換 文書データの整形 語順を記録しない場合 語順を記録する場合 データの可視化 文書データの作図 参考書籍 おわりに 2.1 ト…
チャットボットとは、人間とのコミュニケーションを模倣するソフトウェアシステムです。その主な特徴は以下のようなものが挙げられます。 チャットボットは、自然言語処理や機械学習などの技術を用いて、ユーザーとの対話を行うことができます。ユーザーからの質問や要求に対して、事前に定義された応答ルールに基づいて適切な返答を行います。これにより、人間同士のようなやりとりを再現することが可能になります。 チャットボットは、さまざまな分野で活用されています。例えば、顧客サポートや情報案内、教育支援など、人間が行う業務の一部を代替できるため、企業や組織において効率的な業務遂行を実現することができます。また、個人でも…