プログラミング言語などに対して、人間が一般の意思の疎通に用いる言語。
語順で文意が決定するもの、語形(活用)で文意が決定するもの、その複合があり 多種多様である。
現在数千の言語が知られているが、少数民族に特有の言語などは、その話者が限られるため 次第に失われていく傾向にあり、保護が叫ばれている。
本記事では、Azure Machine Learning(以下、AML)のPrompt Flowにある、評価フローの基本的な使い方について解説します。 評価フローを使用することによって、作成したフローの精度評価を簡単に行うことが可能になります。 AML Prompt Flow 評価するフローの準備 接続とランタイムの作成 フローの作成 精度評価に用いるデータセット データセットの作成 データセットのマウント フローの精度評価 設定 バッチ実行 & 精度評価 結果 QnA GPT Similarity Evaluation QnA Ada Similarity Evaluation おわりに A…
私が工学部の情報工学科に入学したのは、1974年のこと。クラスは44名が在籍していて、あれから50年にもなろうというのに何人かで集まることができるのは望外である。何人かは鬼籍に入ったが、比較的早い時期に2/3ほどのメンバーのメルアドが共有できていたので、連絡は容易だった。 もちろん理系のクラスで、数学の得意な学生が多かったが、私ともう一人が作家志望だった。彼とは今でも付き合いがあり、同じくデジタル政策やサイバーセキュリティで議論する立場だ。なぜこの話を思い出したかというと、情報工学がついに文学の領域に入って来たか、文学に情報工学が寄与するようになったから。もちろん、直接的な原因は「生成AI」の…
ジップの法則(Zipf's law)は、統計的な観点から自然言語や他の領域における単語の出現頻度と順位の関係性を表した法則です。この法則は、言語学者であるジョージ・キングズリー・ジップ(George Kingsley Zipf)によって提唱されました。 ジップの法則によれば、あるテキスト(例えば、文章やコーパス)において、単語の頻度が逆順の順位に比例する関係が成り立つとされています。つまり、最も頻出する単語は順位1位であり、2番目に頻出する単語は順位2位であり、n番目に頻出する単語は順位n位というように、単語の出現頻度と順位は逆比例するということです。 具体的に言えば、最も頻出する単語の出現頻…
※本ブログはChatGPTの文章生成機能を活用して執筆しています。 この記事では、ChatGPTとは何か、ChatGPTのこれからについてお話ししたいと思います。 読者ターゲットは、ChatGPTに興味がある皆さまです。では、早速始めましょう。 ChatGPTとは何か ChatGPTのこれから ChatGPTがどのように活用されているのか。 チャットボットとしての活用。 文章生成としての活用。 語学学習支援としての活用。 さいごに ChatGPTとは何か ChatGPTは、OpenAIが開発した自然言語処理技術の一種です。 GPTは、Generative Pre-trained Transfo…
人間とほとんど区別がつかないと話題の自然言語AI「ChatGPT」を試してみました。その機能と性能、現時点で考えうるリスクなどについては、こちらの「テレ東BIZ」の動画が参考になります。www.youtube.com「ChatGPT」に関する私自身のおぼろげな認識では、文章で質問を投げかけると、とても自然な返事が帰ってくるというもので、要するにSiriとかAlexaみたいなものの文章版かなという感じだったのですが、この動画を見るとどうやらそんなところだけに留まるようなものではなさそうです。そのひとつが「要約を作ってくれる」というものです。文章の要約や映像を視聴したうえでの口頭での要約(通訳訓練…
LDAで個人的に良かったサイトまとめました。いや、手抜きじゃないよ笑。 概要 tips-memo.com 原著論文の解説。これでLDAの概要をサクッと把握できる。 さらに深掘り トピックモデルの話 from kogecoo www.slideshare.net LSIとかLDAの前の経緯とかについて書いてくれているスライド。 これで歴史がさらっと学べる。LDAの精度に関しても書かれている。deepage.net 単語をベクトルにするってどういうこと?に答えてくれる良サイト。 コード系 qiita.com これでコードもバッチリ!
こんにちは、技術開発の三浦です。 あっという間に10月になりました。昔の好きな曲の歌詞に「10月の夕暮れ」というフレーズが出てくるのですが、この時期になるとそのフレーズを思い出します。夕方になると、「今日の夕暮れはどんな感じだろう?」って気になる10月です。 インターネットショッピングなどで、他のユーザのレビューを参考にしながら商品を選んだという経験、けっこうあるのではないでしょうか。私はパソコン周辺機器やお菓子などを選ぶとき、レビューを参考にすることが多いです。レビューの文章の中には対象の商品に関する、そのユーザが考える特徴を表す表現が含まれています。この表現をレビューの中から上手く捉えるこ…
自然言語処理において文章分類は一つの重要なタスクである。その際に,各文章に出てくる形態素の数の分布をとることでその文章の特徴として調べる方法があるが,Aさんは,ネット上のいくつかのブログ記事(少なくとも300文字程度はある文章)を分類しようと考え,各ブログ記事のテキストデータをそのままMeCabを用いて形態素に分割し,それぞれのブログ記事において出現回数が最も多かった上位3つの形態素をそれぞれのブログ記事の特徴とした。参考までにMeCabを用いた形態素の分割結果を下記に示す。(/で分割されている) これ/は/、/形態/素/に/MeCab/を/用い/て/分け/た/例/です/。【問題】以下の問に対…
www.pon-x.jp 前回の続きで今回はリストのちょっとした応用です。 文字列操作 自然言語処理を扱うときなど、文字列をハンドリングする機会があります。 今回はその基礎の基礎です。 区切り文字でリストにする まず、スペース区切りでリストにしてみます。 s = "あ い う え お" s.split() スペース以外ならsllitの中に区切り記号をいれてあげればOKです。 s = "あ,い,う,え,お" s.split(",") 逆に、リストを文字列にする もちろん上記の逆も可能です。 l = ["あ", "い", "う", "え", "お"] "".join(l) joinに引数を与えると…
※本記事は、ChatGPTによる意訳+翻訳を活用し、レイアウト調整したものです。 ※感想は、オリジナルです。 原文 意訳+要約 GoogleのChatGPTに対抗する新たな取り組み"Gemini"が登場 主なポイント: まとめ ChatGPTさんに聞いてみた Q:今後、どのような影響を与えると思いますか? Q:競合となるAIは、どんなものがありますか 感想+雑記 原文 Google Launches Gemini, an AI Model to Rival ChatGPT [Here's How to Access It] 意訳+要約 GoogleのChatGPTに対抗する新たな取り組み"Ge…
The Graph New Era:世界のデータニーズに応えるロードマップ The Graph The Graphの各コンテンツをフォローしてご参加ください! The Graphが新時代へ The Graphの新ロードマップは、クエリやアナリティクスからLLMに至るまで、The Graphがあらゆるデータサービスのニーズに対応するという未来像を表現したものでもあります。 The Graphは2018年以来、web3を基本理念に沿ってサポートし、開発者がサブグラフを使ってアプリを構築できる環境を提供してきました。3年前にメインネットをローンチしたThe Graph Networkは、99.9%以…
こんにちは、皆さん。アソビュー! Advent Calendar 2023の10日目(B面)です。 11月にアソビューにジョインしました竹村です。今日は、私が最近趣味で作成した、RustとChatGPTを使用したチャットボットの開発についてお話しします。なぜこの二つの技術に焦点を当てたのかというと、Rustの堅牢なメモリ管理と高いパフォーマンス、そしてChatGPTの自然な会話能力に魅力を感じたからです。両者を組み合わせることで、お一人様用の分散SNS上で話し相手になってもらえるのか、その可能性を模索していきたいと思います。 この記事では、RustとChatGPTの選択理由、開発プロセスの紹介…
※本記事は、ChatGPTによる意訳+翻訳を活用し、レイアウト調整したものです。 ※感想は、オリジナルです。 原文 意訳+要約 AIアプリケーション構築時のビジネス課題を克服する方法 ChatGPTさんに聞いてみた Q:AIアプリケーションの構築に必要な人材を教えてください Q:AIアプリと普通のアプリは、どこが違うのでしょうか? Q:ソフトウェアエンジニアから、それぞれの役割に移行する際は、どういったスキルを伸ばす必要があるのでしょうか? 感想+雑記 原文 How to Overcome Business Challenges When Building AI Applications 意訳…
はじめに この記事は慶應義塾大学の派遣交換留学を使ってドイツのアーヘン工科大学に留学をしている筆者の留学体験記です。まだ留学をして3ヶ月しか経っていないのですが、何らかの形で自分の意見をまとめたいと思っていたところ、KCSでアドベントカレンダーを書く人を募っていることを知り、せっかくなので書こうと思った次第です。詳しく聞きたい場合は、慶應の国際センターが出している留学報告書に私のメールを貼ったのでそちらから連絡してください(KCSの方はdiscordでDMを送ってください、おそらくLT会でも同じような内容を話すつもりなのでそのテーマを話している人です)。 また、この記事は留学に行きたいなと考え…
『ライティングの哲学 書けない悩みのための執筆論』を読んだ。 本書はWorkflowyを使いこなしている文筆家をTwitterで募ってそれぞれの活用法を紹介する座談会を4名で開催したら、文章執筆についての精神性の話題がメインになってしまい、それはそうと3年後に参加者に実際に原稿書かせてみて再度Zoomで座談会して1冊の本にしてみた。という変わった企画だった。 ライティングの哲学 書けない悩みのための執筆論 (星海社 e-SHINSHO)作者:千葉雅也,山内朋樹,読書猿,瀬下翔太講談社Amazon あとがき、が一番この本全体で起っていることを体裁立てて書いてあるので先に読むと分かりやすい。 僕は…
Googleが米国時間2023年12月6日にGeminiという新しいAIモデルが発表されました。 japan.googleblog.com Geminiのテクニカルレポートにあるように、インプットはテキストだけでなく、テキスト、音声、画像、動画といったマルチモーダルになっているそうです。さらにアウトプットもテキストと画像での出力ができるものとなっていることが分かります。 gemini_1_report.pdf (storage.googleapis.com) Geminiには、Nano、Pro、Ultraの3バージョンがあり、中間のGemini ProはBardに実装されているそうですが、投稿…
はじめに この記事は UEC Advent Calendar 2023 10日目になります。 9日目はへるくんさんの「免許合宿に行きました」でした。 helkun.dev さらに、免許取得したら色んな場所に行きやすくなり、フットワークが軽くなります。世界は広いと実感させられます。 これはかなり真で、普通自動車を運転できることで人類が到達可能な陸地の99%に行けるようになり、さらに限界旅行の手段が格段に増えることが一般に知られている。したがって人類は軽率に普通運転免許を取得し、努めて移動などをするべきです。 また、 UEC 2 Advent Calendar 2023 9日目の記事はこうくんの「…
この記事は HowTelevision Advent Calendar 2023 10日目の記事です。昨日は(id:harizumizu)さん の「dev環境もう必要ない?GitHub Codespaces を使ったインスタントな実行環境の用意 - ハウテレビジョンブログ」でした。 qiita.com はじめに こんにちは!ハウテレビジョンで採用・組織開発を担当している(id:rinrin_how)です。 ハウテレビジョンにやってきて4年目の今年、今まで8年取り組んできた経理から、採用・組織開発への道に進むという新たなチャレンジをしています! そんな私から見る、ハウテレビジョンってこんなところ…
これは、なにをしたくて書いたもの? 最近llama-cpp-pythonを使っていろいろ遊んでいるわけですが、埋め込みAPIを使ってテキストをベクトル化してみました。 llama-cpp-pythonで立てたOpenAI API互換のサーバーで、テキストをベクトル化してみる - CLOVER🍀 ベクトル化したデータを保存するには、データベースを使うようなのですが、その一例がOpenAI APIのドキュメントに記載されて いました。 Embeddings / Limitations & risks / How can I retrieve K nearest embedding vectors …
こんにちは、クラウド事業部の山路です。 AWS re:Invent 2023に参加し、いくつかのセッションを見て回ったのですが、特に行ってみたかったセッションについて紹介します。 このセッションは同じタイトルのものを去年も実施していたのですが、個人的にIaCに関心が強いこともあり、興味深く視聴していました。今年も同じタイトルで発表があることを知り、せっかく現地に行けるのだから聞いてみたい!ということで参加してまいりました。 ただし、私の英語力が足りず当日の発表内容を十分理解できたわけではないため、今回はYoutubeの動画内容+現地の雰囲気をちょっとだけお伝えする形とします。 動画はこちら。 …
言語処理100本ノックとは 言語処理100本ノックとは、自然言語処理の基礎的な技術や応用的な問題に取り組むことで、プログラミングやデータ分析のスキルを楽しく学べる問題集です。 この問題集は、東京工業大学の岡崎直観教授によって制作・保守されており、2020年に最新版が公開されました。 この問題集は、文字列操作や文章の前処理、モデルの作成方法など自然言語処理における基本要素を問題を解くことで体系的に学ぶことができます。また、深層ニューラルネットワークや機機学習など実用的でワクワクするような課題もあります。 以下はURLになります。 言語処理100本ノック 2020 (Rev 2) - NLP100…
本記事は、情報検索・検索技術 Advent Calendar 2023 9日目の記事です。 SIF/uSIFという文埋め込み手法と、そのRust実装であるsif-embeddingを紹介します。最後にちょこっとベクトル検索もします。
こんにちは、オルターブースの中島です! オルターブースのアドベントカレンダー9日目を担当いたします。 もう12月ということが信じられないくらい一年が早く過ぎ去りました。今年が残り少しになってしまい気持ちが焦る感じがしますが、焦らずにひとつずつちゃんと片づけて行こうと思いゆっくり作業しています。 みなさん11月にあった Microsoft Ignite 2023 はご覧になりましたか? たくさんの発表があったかと思いますが、最近はどこでも生成AIの話がたくさんありますね!Microsoft も Copilot の話題が多く見受けられます👀 Microsoft Copilot Studio という…
この記事はスターフェスティバル Advent Calendar 2023 9 日目の記事です。 qiita.com 最近社内で可読性について会話をするタイミングがあり、可読性について思っていることを言語化してみるか〜と思ったので書いてみます。 可読性って難しいしよくわからないよね〜 この記事では、可読性という単語をコードの把握しやすさといった認知負荷的な意味だったり誤読しにくさみたいな意味で使っています。 メンタルモデルに起因するものなのか、そうではないのかを意識する メンタルモデル? メンタルモデルというものは「XXとはこういうもの」や「こうしたらこうなるはず」のような人それぞれが持つ思い込…