コンピュータに自然言語*1を処理させること。
主な処理技術
*1:人間の扱う言語。日本語、英語など
Mistral7BベースとしたMoEモデルでなかなか流暢な日本語を生成するらしいので試して見ました。ColabでT4でトライしてみました。 モデルはこちら。作者に感謝。 huggingface.co 質問:まどか☆マギカでは誰が一番かわいいか名前と理由を教えてください。 答え:「まどか☆マギカ」というアニメ作品において、様々な可愛いキャラクターが登場しますが、特に多くの人から支持を得ているキャラクターは「冴香美晴」と言われています。理由としては、彼女は普段はおとなしく内気でありながらも、魔法少女に変身すると豹変して元気いっぱいに戦う様子や、親友のほむらちゃんとの関係性が可愛らしいからです。また…
概要 Whisperなどで日本語の文字起こしをした後の文章にほとんど句読点が入っておらず、そのまま文字起こし文章を結合すると利用しにくいことがありました。 そこで何らかの手法で句読点を挿入したいと思ったのですが意外と手軽な古典的な手法が見つかりませんでした。このようなタスクはpunctuation restorationと呼ばれるタスクのようです。 ちょっと調べて見つかったのは次のような日本語BERTモデルのMask Fillを逐語的に適応していく方法でした。 qiita.com この手法でもできなくはないのですが思ったほど精度が良くないこと、さらに処理時間が文章の長さに比例してだんだん無視で…
command-R-plusが話題なのでcolabでお試し。非商用ライセンス。GPT4並みと言われるが、Q2量子化モデルだと23GBでも動くらしいので、先人の有難いトライを参考にcolabでチャレンジしてみた。colabでのコードは最後にgithubへのリンクで示した。 質問その1 日本の観光地でおススメは? 日本には全国各地に多くの魅力的な観光地がありますが、その中でも特にオススメの観光地をいくつかご紹介します。 - 東京:東京は日本の首都で、近代的な高層ビルや伝統的な神社仏閣など、さまざまな顔を持つ都市です。浅草の浅草寺や東京スカイツリー、お台場の東京タワーやレインボーブリッジ、新宿の新宿…
Qwenの新しいモデルQwen1.5-MoE-A2.7Bを試して見ました。少し期待しつつ・・・。 モデルのページはこちら。 huggingface.co 質問:日本で2番目に高い山は?日本で2番目に高い山は富士山です。 なかなか正解は難しい。 質問:日本の観光地でおススメを教えてください。その理由も詳しく。日本には素晴らしい観光スポットがたくさんあるため、選択肢は広いです。以下にいくつかのおすすめの観光地をお推荐します。 1. 京都 - もちろん日本の古都であり、美しい寺院や神社、そして伝統的な文化和食文化が魅力的です。特別な祭りや行事がある時期には特に人気があります。2. 東京 - 大都市で…
楽天からもLLMモデルが発表された。日本語のモデルが沢山出てきてどんどんよくなるといいですね。 huggingface.co さっそく試して見ました。 まどか☆マギカで一番かわいいのは? まどか☆マギカには、個性豊かなキャラクターがたくさんいます。人それぞれ好みや基準が異なるので、「一番かわいい」という答えは一概には言えません。 ここでは、まどか☆マギカに登場するキャラクターを紹介しますので、自分なりに「かわいいキャラクター」を選択してみてください。 ・巴마どか・キュゥべえ・暁美ほむら・綺星きらび・巴マミ 優等生の答えだ。「どか」とは何だか分からないが。 "日本で二番目に高い山は? 標高245…
RWKVは、RNNとTransformerを組み合わせた推論が軽いという。継続して学習させているというので、時々チェックしていた。Eagle 7Bというモデルが出たので試してみる。翻訳性能も高くなっていて期待しつつ。 blog.rwkv.com というわけで、colabのメモリup+GPU T4でチャレンジしました。 先例に倣ってウォーミングアップ。 User: まどかマギカで一番かわいいのは? Assistant: この質問に対する答えは、人によって異なる可能性があります。しかし、一般的に、「まどかマギカ」という作品に登場するキャラクターの中で、一番かわいいと思われるキャラクターは、個人の好…
オープンなモデルでかつ一歩進んでいる感じのあるSwallow。MS-7Bは7Bとしては高い性能があるらしいということで試して見ます。 huggingface.co npakaさんの記事を見ながらColabで構築します。 note.com gist.github.com ColabのGPU T4で動かせるようなのでT4をGPUとして選択します。少々、回答に時間がかかりるようですが、答えは返ってくるようなので続けます。 太字が与えたプロンプト部分 魔法少女まどか☆マギカで一番かわいいキャラクターは、さやかちゃんですね。 でも、まどかも、ほむらも好きなので、3人の関係にほっこりしたり、ときめいたりし…
はじめに X上でなぜかしばしば直接的・間接的に絡んでくださる谷口一平氏が、次のようなポストを投稿していた。 永井哲学と入不二哲学の基本的な関係は、 θ=π/2つまり90度の回転である。すなわちそこでは、タテのもの(超越論的構成)はヨコ(横方向への展開運動)とされ、ヨコのもの(山括弧の存在)はタテ(垂直に働く現実性の力)とされるからである。もちろん、ただ回転しただけでは全然ないが。— 谷口一平 A.k.a.hani-an (@Taroupho) 2024年3月14日 永井哲学と入不二哲学の関係は π/2 らしい。 永井哲学か入不二哲学の一方のノルムが0の場合でも、内積は0になるけどね。 本記事で…
Tinyllamaをお気軽に量産?できる、infinite-tinyllamaをcolabで動作させてみました。ファインチューニングがお手軽にできると、きっと楽しくなるのだろうと思ってローカルで動かそうとしたのだが、何かとめんどくさいのでColabで動かしてみた。 github.com Colabはこちら。 infinite-tinyllama.ipynb · GitHub あっという間に鍛え終わるのだが、coloristだと以下の様な感じに・・・。 Pure Black: A shade that completely absorbs light and does not reflect a…
alfred さんのコードを参考にcolabで動かして見ました。折角なので「OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセット」を使ってみます。 github.com 参考: Gemma初心者ファインチューニングコードです。HFの設定などはよしなにやってください。 · GitHub まだまだじっくり学習させないといけないのだろうけれども、効果を確かめてみました。 <bos><start_of_turn>user日本で一番高い富士山高さは3776メールです。80%まで登ると標高は何メートルですか。ステップ・バイ・ステップで考えてくだ…
自己紹介 問題にチャレンジ ターゲットマシンを起動します チャットボットを使ってみます プロンプト インジェクション攻撃 AIを活用したセキュリティ対策 まとめ 0-WANについて 一緒に働いて頂ける仲間も募集しています 自己紹介 こんにちは、エーピーコミュニケーションズiTOC事業部 BzD部 0-WANの田中と申します。 弊社でEDR製品を導入いただいたお客様のインシデント調査を主に担当しております。 その傍らプログラマーとしての経験と知識を生かしてセキュリティに関するウェブアプリケーションを設計構築するなどSOCチームのメンバーとして日々サイバーセキュリティと共に在るエンジニアです。 T…
ChatGPTをはじめとする、AIチャット。この背景にあるのがLLMで、日本語では、大規模言語モデルと呼ばれています。どのような仕組みで、テキストの意味を理解して、テキストを生成しているのか。LLMに関する用語を中心に解説します。 LLMとNLP(自然言語処理)の関係 人間が使う言語をコンピュータに理解させるための技術として「NLP(自然言語処理)」があります。 たとえば、日本語や英語などで書かれた文章が与えられたとき、その質問に答えたり、翻訳したり、要約したりすることが該当します。これらの処理をするためには、与えられた文章の文法的な構文を把握しなければなりません。 英語であれば、スペースで区…
タイトル: 「未来を体感する10の革新的なガジェット」 イントロ:テクノロジーの進化は我々の日常生活に革新的な変化をもたらしています。この記事では、未来を体感する10の革新的なガジェットを紹介します。これらのガジェットは、我々の生活をより便利で快適なものにするだけでなく、時には驚きや喜びをもたらします。さあ、未来を垣間見る準備はできていますか? 1. ハイパーリアルなVRヘッドセット近年、仮想現実(VR)技術は驚異的な進化を遂げました。ハイパーリアルなVRヘッドセットは、まるで別世界にいるかのような没入感を提供します。最新のモデルは、より軽量で快適な設計と、リアルな視覚と音響体験を実現する高度…
こんにちは! 技術部機械学習グループの山口 (@altescy) です。 先月、神戸にて開催された言語処理学会第30回年次大会 (NLP2024)に同じく機械学習グループの深澤 (@fufufukakaka)と共に参加してきました。 昨年に引き続き今年も過去最多の参加者数となり、言語処理研究の盛り上がりを実感しました。 特に去年の年次大会 (NLP2023) のタイミングで GPT-4 が発表されて以降、自然言語処理の研究は大きな転換期を迎えていると感じます。 大規模言語モデル (LLM) が研究の主流となる中、どんな課題や発見があるのか、期待をもって参加する大会となりました。 この記事では …
AI副業の世界へようこそ。 このガイドでは、AI技術を活用した副業の可能性について探求し、その魅力と挑戦、そして成功への道を解き明かします。 AIの進化は止まることを知らず、その波に乗ることで、あなたも新たなキャリアの地平を開くことができます。 では、未来への一歩を踏み出しましょう。
世界的課題である創薬ターゲットの枯渇 国も期待するAI創薬 ライフサイエンスのための産学AIコンソーシアム AI創薬に欠かせない研究者の勘 人の知恵:問いかけとデータ 揺らぐ自然言語をAI可読にするという課題 一つのプロジェクトの実現には、複数のAI サイエンスは国民のしあわせのために 取材協力 近年、薬の開発にAIを活用する、AI創薬の進化が凄まじい。創薬には長い時間と莫大な費用を要するが、AIを活用することで時間の短縮やコストカットにもつながる。各製薬メーカーが開発にしのぎを削る中、国立研究開発法人医薬基盤・健康・栄養研究所(以下、医薬健栄研)AI健康・医薬センター上席研究員として、日本の…
原理的にITテクノロジーはアメリカが有利にできている。 TwitterやAmazonやFaceBookには新規性もなければ、特殊なテクノロジーも使われていない。誰でもできることだ。しかし、こういったプラットフォームは英語圏でないとまず無理なのだ。 ついでいえば、プログラミングというのはコモディティの極致のようなもので、誰が作ってもまあ大差ない。 半世紀前なら天才プログラマーもありえたが、今はどうでもいい。マシンパワーと膨大なライブラリとサンプルコードがすべてを解決してくれる(まあ99.9%の話で、0.1%の分野では天才が必須。AIとかね)。 ITテクノロジーに幻想を抱きすぎているきらいが、世間…
hapicom Inc.ことハッピーコンピューター株式会社では、様々な業界におけるご相談やご依頼の中で「一筋縄ではいかない問題」に直面することが多々あります。 本シリーズでは、過去にあった一筋縄ではいかない問題について、公開できる範囲でストーリー仕立てにしてご紹介していきます。 あまりオープンな場ではみられないような案件が多いので、こんな世界もあるのかと楽しんで読んでいただければ幸いです。 地獄の黒塗り作業から解放せよ!問題編 地獄の黒塗り作業から解放せよ!解決編 方法の模索 検証と実践 指摘と修正 地獄の黒塗り作業から解放せよ!後日談 (付録)PDF文書に黒塗りするコード 地獄の黒塗り作業か…
キングオブマネーメーカー 文章力がなくても大丈夫!AIが作る魅力的な記事の秘密とは?現代の情報社会において、魅力的な記事は重要な存在となっています。しかし、文章力に自信がない人にとっては、そんな魅力的な記事を作ることは容易ではありません。しかし、AIが登場したことで、その難しさを解消する道が開けました。では、AIが作る魅力的な記事の秘密とは一体何なのでしょうか?本記事では、その秘密に迫ります。AIが人間の文章力を超えることができる理由や、魅力的な記事を作る方法について具体的に解説していきます。文章力に自信のない方にとって、AIは頼もしいパートナーとなることでしょう。では、さっそくその秘密に迫っ…
この記事について バックグラウンド 本業はTypeScriptを主に書いているWebエンジニアで社会人5年目。副業ではデータサイエンティスト/機械学習エンジニアをやっていてこちらも5年目。 この記事を書いた理由 最近読んだ「科学的根拠に基づく最高の勉強法」という本の中に、「思い出す頻度が高ければ高いほど定着する」という話があった。 なので、読んだ本の内容を思い出し定着させるきっかけとするためにこの記事を書いている。 科学的根拠に基づく最高の勉強法作者:安川 康介KADOKAWAAmazon 紹介する本のラインナップについて 統計や機械学習の理論をガチガチにするのは難しいと判断して、理論寄りの書…
生成AIが登場してしばらく経って、一時期よりも「人工知能に仕事を奪われる」みたいな論調というか、煽りがトーンダウンしてきた気がする。生成AIは今までのチャットボットや、限られたゲームにだけ注力していたニューラルネットワークとは異なり、自然言語を扱うという点でインターネット上の人間関係を再現出来るかのような「人間へ一歩近付いた」技術だったが、今までの所社会を劇的に変化させたという程ではない。そういう意味で「幻滅の谷」入りしたとも言えると思う。ガートナーってすげぇや。 生成AIの走りとしてブランド価値を持つ ChatGPT 、OSやオフィスソフトとの統合でユーザビリティを高めんとする Bing A…
この本は私の書棚にある Excel に関する唯一の本かもしれません.研究で Excel を使ったことは一度もありませんが,地質関係の方々だと,Excel で分析というような話はしょっちゅう聞きますし,ガチの Excel 使いの方に下手なことを言うとまずいという話もあるようです.どんな道具でも使い方を極めれば大丈夫だという話だと思います.ただ,Excel のすごわざが出てくる本というわけではなく,この本を読んで R や python で処理するということだって普通にできそうです. この本で本格的に使うのは茶筅という形態素解析のソフトで,現在どうなっているかわかりませんが,私もテキストデータ解析で…
こんにちは。Algomatic の宮脇(@catshun_)です。 本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
AIはテクノロジー革命と生産性の向上を図れるのか テクノロジー革命と生産性向上の新たな時代 AIの進化と生産性向上 AI(人工知能)技術の急速な進歩は、生産性向上の新たな時代を切り開いています。機械学習、自然言語処理、ディープラーニングなどの技術が組み合わさり、従来の業務プロセスを劇的に変革しています。この記事では、AIが生産性向上にどのような影響を与えているかについて探ってみましょう。 1. 自動化による業務効率化 AIは、繰り返しのタスクやルーチン作業を自動化することによって業務効率を大幅に向上させます。例えば、AIを用いたロボットプロセスオートメーション(RPA)は、データ入力やファイル…
AI(人工知能)技術の進化は、ビジネスの世界に革新をもたらしています。ビジネスパフォーマンスの向上や業務効率化のために、さまざまなAIツールが開発され、活用されています。ここでは、ビジネスにおけるAIツールの効果的な活用方法やその利点について考察してみましょう。 1. AIツールのビジネスへの適用範囲の拡大 近年、AI技術はビジネスのあらゆる領域に適用されています。例えば、営業、マーケティング、顧客サービス、人事管理など、さまざまなビジネス機能でAIツールが活用されています。これらのツールは、業務プロセスを自動化し、データ分析や予測分析などのタスクを効率化することができます。 2. データドリ…