定型化されていない文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステム。主に数値をマイニングするデータマイニングよりも、技術的には高度になるが、データマイニングよりも顧客嗜好に近い分析が可能で、マーケット戦略にはメリットが多いとされている。
品川区は1月31日、「品川区民アンケート結果報告(概要版)」を公表。 2か月前に公表された「速報版」との違いについて、羽田新ルートを中心にザっと整理しておいた。 もくじ 品川区民アンケート結果報告「概要版」が公表された 2か月前に公表された「速報版」との違い 自由意見の記載(2枚)が追加された テキストマイニング分析結果の図が掲載された 雑感(中途半端な分析内容) 品川区民アンケート結果報告「概要版」が公表された 品川区は1月31日、「品川区民アンケート結果報告(概要版)」を公表。 年代別・地域別との集計等を記載した結果報告(詳細版?)は、2月中旬に公表予定。また、自由意見(個人情報等を除く)…
自分のブログ記事をテキストマイニングで分析し、過去の興味やトピックを言葉の出現頻度から探ります。12月のブログ記事の総文字数約4万字を分析し、どのようなキーワードが頻出しているかを調査しました。 先日「叡智の三猿」ブログのスロトレ様が紹介されていた記事があまりにも興味深いものだったので、私もまねしてみました。テキストマイニングを用いたワードクラウドの作成です。スロトレ様のテキストデータは昨年1年分のブログ記事を読み込ませて作成されたとのこと。 紹介されているのワードクラウドは、ブログのテーマである「情報セキュリティー」が大きく表示されていますが、その下に「韓流ドラマ」があります。韓国ドラマには…
どうも、じゅんいちです。 今回はPythonのライブラリを用いてテキストマイニングをしてみます。 堕落論は小説家坂口安吾の作品です。 戦後の本質を洞察した本になります。 NHKの100分d名著で詳しく記載しているので、見てみてください。 下記の画像が結果になります。 堕落論はあくまで一例で取り上げているだけですので、作り方についてフォーカスいたします。 外部から取り寄せたファイルは2つあります。 ・小説のデータ 図書カード:堕落論 テキストファイル(ルビあり)のZIPファイルをダウンロードし、文字コードをUTF-8に変更し保存しなおします。 今回実行する.pyデータと同じフォルダに格納しましょ…
キンプリ平野くんの「思わなんだ...」 すごいファンというわけではないが、King & Prince (を脱退することが発表された)平野紫耀くんは愛知県の出身なのは知っていた。 私が近畿地方以外で(むしろ関西よりも)長い時間過ごした日本の都市は名古屋だ。 だから「ネイティブ」としての日本語が形成される上で大きな影響を受けたのは「名古屋弁/愛知県方言)だと思う。 しかし、友だちは名古屋弁を話す子が多かったものの、名古屋市の中では比較的(私の両親を含め、仕事の都合などで)他の地域から来た人が多いエリアに住んでいた。 また、親は私が「名古屋弁」を使うことを禁止していたため、私は標準語を話しながら名古…
子供たちに「どのように学んだか」という観点のリフレクションをテキストマイニングして、実践(3回分)の全体像を確認してみました。 2校の子供たちの学び方、関係性の変化が大まかに見えました。 1日目は、タブレットや教科書を中心にしていて、あまり子供同士が繋がらなかった印象でしたので、なるほどと感じました。 2日目は、相手を意識し始めて交流が生まれてきたためか、それぞれの校名が大きく表示されるようになっています。(画像では校名を加工)また、話し合うというワードが大きく表示されました。他にも他者、他校の子供との関わり合いが生まれてきた回です。 3日目は、生かす、助ける、繋がるといった語句のほかにも、楽…
婦人民主クラブの全国協議会東京南部支部が品川区に情報開示請求した羽田新ルートへの苦情・相談実績が8月22日、羽田問題解決プロジェクトHPで公開された。598件(20年2月14日~22年6月6日)の苦情・相談は約7万文字と膨大な量なので、全体像を把握すべく、テキストマイニング手法を駆使し可視化してみた。 ※婦人民主クラブは、1946年に結成された共産党系の組織。 もくじ 苦情・相談件数の推移 苦情・相談の属性 地区 年齢層 性別 受付方法 共起ネットワーク分析 品川区が開示した羽田新ルートへの苦情・相談実績は598件(20年2月14日~22年6月6日)。 開示された情報には通し番号が付けられてい…
みなさん、こんばんは藤崎です。 日常を取り戻すつつあるとは、コロナウイルス感染者数も増加傾向にありますし、まだ我慢の日々が続いてますね。。。 国会ではコロナウイルス対策として、どのようなことが議論されているのか気になり、調べてみました。 すると、国会で議論されていることが議事録として、公表されているようでした。 以下は厚生労働省のページになりますが、他省庁も同様に議事録が公表されていると思います。 厚生労働省では、1か月に1回のペースで新型コロナワクチンについて議論されているようです。 参加者には製薬会社の方々もいますね。 議題として、「新型コロナワクチン」はもちろん、「副反応」など我々が気に…
みなさん、こんばんは藤崎です。 本日正午に乃木坂46 30thシングルに収録される4期生楽曲「ジャンピングジョーカーフラッシュ」のMVが公開されましたね。 www.youtube.com センターには筒井あやめさん、フロントメンバーには佐藤璃果さん、林瑠奈、賀喜遥香さん、遠藤さくらさんが勤めるフォーメーションとなっています。 佐藤璃果さんは最近「らじらーサンデー」にて偶数週のMCに就任されていたりと活躍が目まぐるしいですね。 メンバーが泡まみれ、水まみれと夏らしいMVとなっています。 みんなの楽しそうな表情満載で、何度見ても飽きないですね。 メッセージ性の強い歌詞になっていたり、踊りも可愛かっ…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズ 連載シリーズの目次 まずは、実行環境 形態素のワードクラウドに関するイントロダクション RMeCab形態素解析済みの結果の読み込み .Rdsをロードする場合 .txtをロードする場合 ワードクラウドによる形態素頻度の可視化 品詞情報から「名詞」のみ抽出した場合のワードクラウド 品詞情報から「名詞」「形容詞」「動詞」を抽出した場合のワードクラウド 品詞情報から「名詞」と「複合語」を抽出した場合のワードクラウド 坊ちゃん第2章以降のワードクラウドによる可視化 坊ちゃん第2章のワードクラウド 坊ちゃん第3章のワードクラウド 坊ちゃん第1…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 名詞、接頭辞、接尾辞をくっつける、品詞のルールベースの複合語抽出 pytermextractを使った複合語抽出 ターミナル環境上での、pytermextractを使った複合語抽出 R環境上での、pytermextractを使った複合語抽出 まとめ 補足 テキスト処理の関連記事 R Script - Compound_calc() はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 テキストマイニングは、テキストデータを定量的に扱って、有益な情報を抽出するデータマイニング手法の1…
先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼ…
オンライン統計コース「STIPS」 「統計やデータ分析を学んでみたい。でも、ネット記事やYouTubeには、いいコンテンツがない」 こう思って心が折れたことはありませんか? 文系出身で統計ソフト会社に勤める私もそうでした。 実際、インターネットには統計学習コンテンツが、それこそ無尽蔵に溢れていそうです。ですが、いざ探してみると、 ・長尺の動画をいくつも観続ける必要がある ・動画内容の正確性に疑問 ・テストがないため確認・定着が難しい 等の事情から、どれも一長一短。自分にピッタリなものが、なかなか見つかりません。学びたいのに適切な教材がすぐに見当たらないのは、本当にもどかしいものです。 一方、今…
お題箱回141 833.ゲームプランナーです。KPIの分析に苦手意識があります。(売上、DAU、DRU、PU、ARPPU、課金率、継続率など)仕事は数年続けていますが、分析方法は我流ではっきりと定まっておらず、実際の施策に活かせている実感もあまりありません。LWさんはどのように分析していましたか。参考にした書籍やサイト等もあれば教えてほしいです。 無職の身で仕事のアドバイスをするのは気が引けますが聞かれてしまったので答えます(聞き方的にコンシューマーではなくソシャゲ運営プランナーという前提で答えます)。 KPIには立場によって色々な見方があるので、KPI分析に着手する前にまず立場に応じた目的を…
こんにちは、京良城です。 自然言語処理についてPythonで学び始めてからというもの、日々エラーに躓いております。 今回は、'Torch not compiled with CUDA enabled'というエラーを吐く件について。 私の使っているPCがM1 MacbookAirということもあり、GPUが使えないっぽい。。。 そのため、例えば、こんなコードを書いたときにエラーを吐く。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーー from transformers import AutoConfig, AutoModelForMaskedLM masked_model = AutoM…
こんにちは、京良城です。 「Pythonで学ぶテキストマイニング入門/著:石田基広」などを使って自然言語処理の勉強をしています。 苦戦しまくっていますが、楽しんで勉強を続けられていると思う(と言ってもまだ二ヶ月ほどしか経っていないが)。 で、まあとにかくエラーに何度もぶち当たり、その度に「どうすればいいんだーー!?」となっている。 自分の学びの記録(アウトプット)として、今回は表題の 「'CountVectorizer' object has no attribute 'get_feature_names'」 について。 自分の環境 -------------------- JupyterLa…
キラキラした東京湾を眺めながら、ビッグサイトで開催されている『DX総合EXPO』に参加。なんと今回は1,140社が出展、大盛況でした。3時間しか滞在時間が取れなくて広く浅くの情報収集でしたが、僅かな時間でも勉強になりました。 <目次> 今回の展示会で増えたと感じた訴求 ①生成AI関連 ②エンゲージメント関連 ③NFTビジネス関連 虫の目、鳥の目、魚の眼 今回の展示会で増えたと感じた訴求 ここ数年の感覚でいうと、3,4年前の、具体的業務のデジタル化ツール(例えばマーケティング領域のテキストマイニングやSEO関連)のブースが多かったのが、一昨年から昨年あたりはDX人材教育や独自AI作りませんか、の…
貧乏性なので課金してない とっても貧乏なので、「3.5でいいだろう!」とお布施を払わずに使っている。 そのせいか、R4.0以降はなんだか見放されてると感じる瞬間もしばしば、特にテキストマイニング(ここは諦めてpython) そんなわけで、表題の話。 3.5で問題はないのだけれど、会話がループするときがある。 設定で解決できるのかもしれないけれど、VScodeのターミナルが、長いプログラムを$で省略するせいで 「プログラムが間違っています」と$以降を書いてくれる時がある。 すると会話が堂々巡りになるので、必ず元のプログラムとエラーを書くようにする。 あとは、プログラムを信用しないこと。 変数名と…
こんにちは 最近スタジオで行っているトレーニングで 自分の中にいる神様にコンタクトするトレーニングがあります これだけ聞いても??な感じですが、簡単にいうと、 神様(という存在)はどこかでなく、自分の中に存在し、すべての解決や創造は自分の中で起こる、 そこまで奥深く、自分だと思っている殻を破って集中するトレーニングです。 もちろんやり方はあるのですが、たくさんの自分の中の自分がみえ、また新しい創造が起こります。 これがなぜ重要か? 最近見かけたニュースの中に、自殺を考えている人の相談メールには「嫌」という言葉が頻発するという記事がありました。(※) 自殺率の低い場合は、xxが嫌、と人の名前がで…
こんばんは、ジェミニです。 きのうの昼、ハウスのうまかっちゃんを2袋食べました。 うまかっちゃんばかりだと、飽きてしまう。いいえ、飽きないです。でも、たまには醤油や塩を食べたい。ドラッグストアに買いに行こうとする。なんか雨音がする。窓を開けると降雨でした。 日清出前一丁とサッポロ一番塩ラーメン。 みそラーメンは既に家にある。 チャリで出撃しませんでした。天候があんまりでした。変な天候です。はっきりくもりじゃなく、空はどんよりです。 ーーーーーーー 最近はチャリに乗らなくてもグラサンをするようになりました。アイウェアです。フレンダー氏の散歩で第5公園に行ったときに、木の幹から枝が出ていて、枝が目…
やあ 甘口です 最近は日記をサボってしまいました. まあ,テストが終わったと言ってもレポートが大量に残っているし,そういう履修にしたのでね..というかテストも数が少なければ全然楽しいですね.正直テストの数が多すぎると1つにあまり対策時間が避けないのであまり良くないのですが,今回は正直楽しめました. さて,書くことがあまりありません.なんか勉強のこととかを書いてもいい気がするのですが,この日記はべつに多様体の話をしたりする趣旨のものではないのでね,全く理系的なことを書きません. 最近の私はというと,どこに院進しようか迷っていますね. このまま計数の大学院に行って機械学習エンジニアの順当なコースを…
マジか? togetter.com お知らせはこちら。 www.yomiuri.co.jp 会員になる気は無いので(直球)、非会員用を見てみる。 www.yomiuri.co.jp 第4条禁止事項等を見てみる。 5. 当社の事前の許可を得ずに、記事や写真、図表などのコンテンツ(以下、「当社コンテンツ」といいます)をコピー、転載、インターネット送信などの方法で利用する行為6. データマイニング、テキストマイニング等のコンピューターによる言語解析行為7. 当社コンテンツを、クローリング、スクレイピング等の自動化された手段を用いてデータ収集、抽出、加工、解析または蓄積等をする行為8. 生成AI等(人…
自分の作業に特化したアプリやソフトがあれば、毎日は多分楽しくなります。 やりたいことを全部やってくれるアプリやソフトがないので、ChatGPTに外注してPythonのプログラムをちょこちょこ作っています。まだまだ低次元のものですが、Python関係のことを忘れないように記録しておきます。
ブログのテキストを利用してちょっとした実験を行いました。 12月に書いた記事中、私がよく使う語句を抜き出します。それをChatGPT渡して作文をさせたらどんな文章が出てくるか?そんな実験です。