定型化されていない文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステム。主に数値をマイニングするデータマイニングよりも、技術的には高度になるが、データマイニングよりも顧客嗜好に近い分析が可能で、マーケット戦略にはメリットが多いとされている。
品川区は1月31日、「品川区民アンケート結果報告(概要版)」を公表。 2か月前に公表された「速報版」との違いについて、羽田新ルートを中心にザっと整理しておいた。 もくじ 品川区民アンケート結果報告「概要版」が公表された 2か月前に公表された「速報版」との違い 自由意見の記載(2枚)が追加された テキストマイニング分析結果の図が掲載された 雑感(中途半端な分析内容) 品川区民アンケート結果報告「概要版」が公表された 品川区は1月31日、「品川区民アンケート結果報告(概要版)」を公表。 年代別・地域別との集計等を記載した結果報告(詳細版?)は、2月中旬に公表予定。また、自由意見(個人情報等を除く)…
自分のブログ記事をテキストマイニングで分析し、過去の興味やトピックを言葉の出現頻度から探ります。12月のブログ記事の総文字数約4万字を分析し、どのようなキーワードが頻出しているかを調査しました。 先日「叡智の三猿」ブログのスロトレ様が紹介されていた記事があまりにも興味深いものだったので、私もまねしてみました。テキストマイニングを用いたワードクラウドの作成です。スロトレ様のテキストデータは昨年1年分のブログ記事を読み込ませて作成されたとのこと。 紹介されているのワードクラウドは、ブログのテーマである「情報セキュリティー」が大きく表示されていますが、その下に「韓流ドラマ」があります。韓国ドラマには…
どうも、じゅんいちです。 今回はPythonのライブラリを用いてテキストマイニングをしてみます。 堕落論は小説家坂口安吾の作品です。 戦後の本質を洞察した本になります。 NHKの100分d名著で詳しく記載しているので、見てみてください。 下記の画像が結果になります。 堕落論はあくまで一例で取り上げているだけですので、作り方についてフォーカスいたします。 外部から取り寄せたファイルは2つあります。 ・小説のデータ 図書カード:堕落論 テキストファイル(ルビあり)のZIPファイルをダウンロードし、文字コードをUTF-8に変更し保存しなおします。 今回実行する.pyデータと同じフォルダに格納しましょ…
キンプリ平野くんの「思わなんだ...」 すごいファンというわけではないが、King & Prince (を脱退することが発表された)平野紫耀くんは愛知県の出身なのは知っていた。 私が近畿地方以外で(むしろ関西よりも)長い時間過ごした日本の都市は名古屋だ。 だから「ネイティブ」としての日本語が形成される上で大きな影響を受けたのは「名古屋弁/愛知県方言)だと思う。 しかし、友だちは名古屋弁を話す子が多かったものの、名古屋市の中では比較的(私の両親を含め、仕事の都合などで)他の地域から来た人が多いエリアに住んでいた。 また、親は私が「名古屋弁」を使うことを禁止していたため、私は標準語を話しながら名古…
子供たちに「どのように学んだか」という観点のリフレクションをテキストマイニングして、実践(3回分)の全体像を確認してみました。 2校の子供たちの学び方、関係性の変化が大まかに見えました。 1日目は、タブレットや教科書を中心にしていて、あまり子供同士が繋がらなかった印象でしたので、なるほどと感じました。 2日目は、相手を意識し始めて交流が生まれてきたためか、それぞれの校名が大きく表示されるようになっています。(画像では校名を加工)また、話し合うというワードが大きく表示されました。他にも他者、他校の子供との関わり合いが生まれてきた回です。 3日目は、生かす、助ける、繋がるといった語句のほかにも、楽…
婦人民主クラブの全国協議会東京南部支部が品川区に情報開示請求した羽田新ルートへの苦情・相談実績が8月22日、羽田問題解決プロジェクトHPで公開された。598件(20年2月14日~22年6月6日)の苦情・相談は約7万文字と膨大な量なので、全体像を把握すべく、テキストマイニング手法を駆使し可視化してみた。 ※婦人民主クラブは、1946年に結成された共産党系の組織。 もくじ 苦情・相談件数の推移 苦情・相談の属性 地区 年齢層 性別 受付方法 共起ネットワーク分析 品川区が開示した羽田新ルートへの苦情・相談実績は598件(20年2月14日~22年6月6日)。 開示された情報には通し番号が付けられてい…
みなさん、こんばんは藤崎です。 日常を取り戻すつつあるとは、コロナウイルス感染者数も増加傾向にありますし、まだ我慢の日々が続いてますね。。。 国会ではコロナウイルス対策として、どのようなことが議論されているのか気になり、調べてみました。 すると、国会で議論されていることが議事録として、公表されているようでした。 以下は厚生労働省のページになりますが、他省庁も同様に議事録が公表されていると思います。 厚生労働省では、1か月に1回のペースで新型コロナワクチンについて議論されているようです。 参加者には製薬会社の方々もいますね。 議題として、「新型コロナワクチン」はもちろん、「副反応」など我々が気に…
みなさん、こんばんは藤崎です。 本日正午に乃木坂46 30thシングルに収録される4期生楽曲「ジャンピングジョーカーフラッシュ」のMVが公開されましたね。 www.youtube.com センターには筒井あやめさん、フロントメンバーには佐藤璃果さん、林瑠奈、賀喜遥香さん、遠藤さくらさんが勤めるフォーメーションとなっています。 佐藤璃果さんは最近「らじらーサンデー」にて偶数週のMCに就任されていたりと活躍が目まぐるしいですね。 メンバーが泡まみれ、水まみれと夏らしいMVとなっています。 みんなの楽しそうな表情満載で、何度見ても飽きないですね。 メッセージ性の強い歌詞になっていたり、踊りも可愛かっ…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズ 連載シリーズの目次 まずは、実行環境 形態素のワードクラウドに関するイントロダクション RMeCab形態素解析済みの結果の読み込み .Rdsをロードする場合 .txtをロードする場合 ワードクラウドによる形態素頻度の可視化 品詞情報から「名詞」のみ抽出した場合のワードクラウド 品詞情報から「名詞」「形容詞」「動詞」を抽出した場合のワードクラウド 品詞情報から「名詞」と「複合語」を抽出した場合のワードクラウド 坊ちゃん第2章以降のワードクラウドによる可視化 坊ちゃん第2章のワードクラウド 坊ちゃん第3章のワードクラウド 坊ちゃん第1…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 名詞、接頭辞、接尾辞をくっつける、品詞のルールベースの複合語抽出 pytermextractを使った複合語抽出 ターミナル環境上での、pytermextractを使った複合語抽出 R環境上での、pytermextractを使った複合語抽出 まとめ 補足 テキスト処理の関連記事 R Script - Compound_calc() はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 テキストマイニングは、テキストデータを定量的に扱って、有益な情報を抽出するデータマイニング手法の1…
著者:牛澤賢二 発行元:朝倉書店 やってみようテキストマイニング増訂版まとめ やってみようテキストマイニング増訂版を読んだ理由 やってみようテキストマイニング増訂版で仕事に活かせるポイント やってみようテキストマイニング増訂版の目次 やってみようテキストマイニング増訂版の感想 やってみようテキストマイニング増訂版まとめ なんだろう「テキストマイニング入門 ExcelとKH Coderでわかるデータ入門」に内容が似ていたなぁ。まぁ、そういうことなんだな。 やってみようテキストマイニング増訂版を読んだ理由 テキストマイニングについて知りたかったので やってみようテキストマイニング増訂版で仕事に活か…
著者:石井哲 発行元:東洋経済新報社 顧客と知識を見える化する テキストマイニング概論まとめ 顧客と知識を見える化する テキストマイニング概論を読んだ理由 顧客と知識を見える化する テキストマイニング概論で仕事に活かせるポイント 顧客と知識を見える化する テキストマイニング概論の目次 顧客と知識を見える化する テキストマイニング概論の感想 顧客と知識を見える化する テキストマイニング概論まとめ しっかりとしてテキストマイニングができると、テキスト情報って宝の山になるのね 顧客と知識を見える化する テキストマイニング概論を読んだ理由 テキストマイニングについて知りたかったので 顧客と知識を見える…
著者:末吉美喜 発行元:オーム社 テキストマイニング入門まとめ テキストマイニング入門を読んだ理由 テキストマイニング入門で仕事に活かせるポイント テキストマイニング入門の目次 テキストマイニング入門の感想 テキストマイニング入門まとめ テキストマイニングの基礎的な話と、ExcelとKH Coderの使い方を教えてくれる本。使えるよ、これ。 テキストマイニング入門を読んだ理由 テキストマイニングについて知りたかったので テキストマイニング入門で仕事に活かせるポイント テキストデータを形態素解析にかけて、出現単語のリスとやグラフを作って、それこら分析。語の共出現なら共起ネットワーク、文書の分析な…
週に1回くらいはこういう日記でやっていきたい。じゃないとありえん勢いで読みたい記事がたまるし 新米エンジニアが [Zennの記事タイトルがいいね数にどのくらい影響するのか] テキストマイニングで分析してみた 意外と Gemini の登場頻度があってびっくり。 なんだかんだタイトルでハンズオン記事だと分かる記事が強いみたいだし、あとはやっぱ JS 筆頭にみんなが使っているものが結構読まれやすいのかな(それでいうと Python とかが見えなかったのは理由が気になるけど) IME変換中のエンターキーで送信される!への対処法 - Classi開発者ブログ Google Meet で困ってるのわかるな…
4月から山野美容芸術短期大学2年生の授業がスタートしました。美しく生きることを学び探究する「美道プロジェクト」を大きなテーマに、他の先生方と協働しながら「EQベースの協働プロジェクト」を担当しています。山野美容芸術短期大学 美道プロジェクト 美道プロジェクト | 学びについて | 美容を学校で学ぶなら 山野美容芸術短期大学 ■授業のグランドルールづくり私の授業ではプロジェクト毎にグランドルールを設けています。グランドルールとは、会議やプロジェクトを意義ある場にするためにあらかじめ定めておく決まり事や前提のこと、です。企業のコンサルティングプロジェクトでも必ず設定するグランドルールは、私は10~…
先日はこちらを読みました。 cir.nii.ac.jp 「テキストマイニングってなに?」という感じですが、でも面白かったです。私は実証研究なんてものはやったことがないのでよく分かりませんが、14人って少ないなぁ......(という部外者の感想)。 それはともかく、内容が面白そうだったので読んでみたのですが、これが別方向に面白くてですね......。電車の中で読んでたんですけど、途中で笑いが込み上げてきて危なかった。要約の時点ですでに危うかったのだけれど、14,15ページに差し掛かった辺りで 「あかん、わろてまう」 と思ったので急いでスマホをズボンのポケットに仕舞い、しばらく流れる地下鉄の景色を…
物流業の事業計画に関する次の記述を読んで,設問に答えよ。 B社は,運送業務及び倉庫保管業務を受託する中規模の物流事業者である。従業員数は約100名で,関東甲信越エリアを中心に事業を行っており,高速道路や幹線道路へのアクセスの良い立地に複数の営業所と倉庫を構えている。主に,地場のメーカーと販売店との間の配送などを中心に事業を行ってきたが,同業他社との競争が激しく,ここ数年は収益が悪化傾向にあり,このままでは経営は厳しくなる一方である。B社のC取締役は,この状況の打開に向けて,顧客への新たな価値の提供を目指すべく,経営企画部のD部長に事業計画の立案を指示した。 〔B社の環境分析〕 D部長は,自社の…
今日は応用情報技術者を受けてきました。2度目の挑戦。 前回は午後試験で53点しかとれず無事不合格だったんだけど……今回はどうでしょうか。 所感 午前試験 午後試験 再現答案 午後試験 情報セキュリティ 経営戦略 システムアーキテクチャ データベース サービスマネジメント 所感 午前試験 そこそこ難しかった。 午前は応用情報の過去問しかやってなかったので、初見に見える問題が結構多かった。 あとはまあ、JIS 規格を全然読んでないので全然わからなかった。こういうのも今回の過去問んで勉強したらいいんじゃないすかね。 それから……デジタルガバナンス・コード2.0 とかいうボケを言い出した経産省許さんか…
株式市場の心理学入門 株式市場は数字やデータだけで動いているわけではありません。市場を形成しているのは生身の人間です。投資家たちの喜びや怒り、不安、興奮、期待、恐怖といった感情、心理が市場に大きな影響を与えています。株式市場における心理学の基本を解説し、その力がいかにして市場動向に影響を及ぼすのかを見ていきましょう。 心理学と株式市場 心理学は、人間の行動や心理状態を科学的に研究する学問です。株式市場の文脈では、特に投資家の意思決定プロセスに注目されます。人間の判断は、常に合理的なわけではなく、恐怖や貪欲、群衆心理など、多くの非合理的な要素に影響されます。株式市場の波は、このような心理的要因に…
オルタナティブデータ(Alternative Data)とは、金融市場の分析や投資判断に用いられる、従来の市場データ以外の非構造化データのことを指します。株価、財務諸表などの伝統的なデータソースに加え、衛星画像、SNSの投稿、ニュース記事、クレジットカードの取引データなど、多岐にわたるデータが活用されます。 オルタナティブデータの主な目的と利点は以下の通りです: 1. より深いインサイトの獲得:オルタナティブデータを分析することで、企業や経済の状況について、従来のデータからは得られない洞察を得ることができます。 2. 投資判断の精度向上:オルタナティブデータを用いることで、投資判断の精度を高め…
ワードクラウドを作成しました。 WordCloud ライブラリを使用しています。 日本語の単語分解と品詞付与には mecab-python3 ライブラリを使用しました。 それらの使い方をソースコードと併せて紹介します。
【2024年3月前半】今月の一日一論文。 3月前半は「アウトリーチ」「ものもらい」「杖太刀」に関する論文を読んでいた感じである。 3月はバタバタしてたり、花粉症で体調最悪でいまいちだったが、改めて整理すると、なんとなく、結構今後の研究に繋がりそうな論文を読んでいたような気がする。 投稿しようと思ってる生活改善運動の論文が勿論最優先なんだけど、やることは多い 今回のアイコンはものもらいの俗信をテキストマイニングで分析したもの。 【宗教学】 #一日一論文 今井 功一 「柄澤照覚の神誠館と高島暦──易・暦書出版と宗教の接点──」 【食文化】 #一日一論文 稲井千紘 「本物」のタイ料理とは? ~料理が…
ワードクラウドを作成しました。 テキストデータを単語に分解して使用頻度の高い単語を大きく表示してランダムに並べたものです。 ネット上にテキストをアップロードすればワードクラウドを作成できるサービスは存在しますが、ローカルで使えるようにアプリにしました。 Windows 版フリーソフトです。
この番組は、2022年12月の再放送で、私はこれを初めて見て興味を惹かれた。 番組は、「松本清張と帝銀事件」という題で、ドラマ(90分)、ドギュメンタリー(60分)の2部構成である。 ドラマは、松本清張と文芸春秋社の田川編集長が、帝銀事件の真相に迫るが、真相を書ききれなかったという内容である。 清張は、帝銀事件(1948年1月に起きた帝銀・椎名町支店で12名が毒殺された事件)の裁判結果(画家平沢貞道が犯人、1955年死刑確定)にいろいろ疑問があり、田川編集長・文芸春秋の協力を得て調査を進める。 その結果清張は、平沢は無実で、これは冤罪ではないかと疑う。 調査対象は、同事件弁護士、雑誌記者(読売…
先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼ…