Comma Separated Value の略。
主に表計算ソフト間の互換フォーマットとして用いられる。「カンマでカラムが区切られ、改行で行が区切られる」という漠然としたルールで明確なフォーマットの仕様や標準は存在しなかったが、2005年10月にCSVの仕様について書かれたRFC 4180が公開された。
また、タブ区切りなどもCSVに含める場合がある。これは "Character-Separated Values" の略である。
バージョン管理システムのCVSと間違いやすい。
GitHubのtcsvレポジトリをアップデートしました。 少々大きいプログラムで全体を見直したので、時間がかかり、その間ブログの更新ができませんでした。 CSVとは CSVとは、コンマと改行で区切られた2次元データ形式のことです。 2次元データとは、エクセルデータのように縦横に長方形状に広がったデータです。 そして、CSVはテキストファイルで、データひとつひとつがコンマと改行で区切られます。 1行に含まれるデータ数は、すべての行において同一でなければなりません。 また、最初の行は見出し行(ヘッダー)となります。 CSVは簡単なデータ構造なので、様々な2次元データ、例えばエクセル、データベースな…
Copy codeimport numpy as np # (640, 480) のアレイを作成data = np.random.rand(640, 480) # numpy アレイを csv ファイルに保存np.savetxt('data.csv', data, delimiter=',') 上記のプログラムで、numpyアレイのデータを「data.csv」という名前でCSVに保存することができます。データはカンマ区切りで保存されます。
検証した環境 ExcelのワークシートをCSV形式を指定して保存することができるが・・・ PowerShellを経由してCSVの項目をダブルクォーテーションで囲む PowerShell 7.2以降ならもう少し柔軟に設定可能 参考 ExcelでCSV形式で保存したファイルをダブルクォーテーション付きに変換するための備忘録です。 検証した環境 Windows10 Excel 2019 WindowsPowerShell 5.1 ExcelのワークシートをCSV形式を指定して保存することができるが・・・ Excelブックを保存するときにファイルの種類をCSV(コンマ区切り)とすることでアクティブなシ…
Excelの便利な機能として、並べ替えがある。データベース機能を使って表のなかの任意の列をキーとして選び、そのキー列の内容を昇順、降順などに並べると同時に、行を1つのデータレコードとみなして、一緒に並べ替えてくれる。 blog.houkoku-doh.com この並べ替えのキー列の順序だが、数字やアルファベットなどについては、そのままで実にきれいに並べてくれる。また、ユーザー設定リストとして、月や曜日、干支などがデフォルトで設定されているので、活用できる。 この並べ替えの機能も進化していて、日本語についてもひらがなは当然のこと、いまでは漢字もExcel入力時のタイピングを「ふりがな記録」として…
承前 ここまで10回 + おまけ1回の記事を読んでくださり、1世紀……いえ、1週間でしたか、それくらいの期間にわたるお試し活用をしたことで、テキストデータを作る方法のひとつである「テキストエディタを活用した文章などの記録」に関する基礎的な技が習得できたと信じています。まだテキストエディタを3分しか開いていない方は、少なくとも30分くらい遊んでみてください。すると明日のご飯が真鯛の刺身になります。高級なものはなかなか食べられませんが、近所のスーパーには養殖真鯛のサクが数百円くらいで並んでいたりします。九州は真鯛が全国よりも安いらしいのですが、詳細を調べたことはないので地域価格差を調べてみたいです…
仕事で、データ処理に関わることがあり、 大量レコードを扱う際に、CSVファイルの行頭(1列目)に行番号を挿入したい場面があったので備忘録になります。 ファイルはこんな感じのデータ $ cat test.csv FirstName,Gender,Age,PhoneNumber,CustomerID,City A,男,10,111111111,111222,東京 B,男,15,222222222,222333,札幌 C,男,20,333333333,333444,名古屋 D,男,25,444444444,444555,福岡 E,男,30,555555555,555666,大阪 これで、CSVの行頭…
M式言語で複数の表を合体させたい M式言語ではTable.Unionではなく、Table.Combine 複数のテキストやCSVデータを合体する 複数のテキストやCSVデータを合体しつつさらに新しいカラムを追加する 複数のテキストやCSVデータを合体しつつさらに新しいカラムを追加する 指定したカラムだけを抽出する 終わりに 参考 M式言語で複数の表を合体させたい ある大量のログファイルを全て合体させなくてはならない場面に遭遇しました。 そのログファイルは全部同じ項目で構成されたテキストファイルでした。 こんなときこそM式言語の出番!! というわけで同じファイル、つまり表を合体させるときのM式言…
CSV ファイルって何よ CsvHelper CSV ファイルを一行ずつ読み込む 複数行をまとめて読み込む CSV ファイルの書き込み ヘッダーのマッピング フィールドのバリデーション BOM 付きにする
11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 PDFMiner使い、東証株式相場表(日報、PDF)からデータ抽出し日別CSVにする 恥ずかしながらのPyhtonスクリプト MySQLへ放り込むまで三つのステップ 11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 Python:「PDFMiner」と「PDFMiner.six」で東証株式相場表を解析 PDFMiner使い、東証株式相場表(日報、PDF)からデータ抽出し日別CSVにする 一度公開したものの、拾いきれてないデータがあったり、エラーが出だしたりして、スクリプト公開やめてました。 その後、必死の努力(効…
MySQLへのデータ形式変えたら1割くらい容量減った 株価データには、数字のほか「-」というのがあって… 「LOAD DATA INFILE 」つかい約59万行のCSVデータを約6秒でMySQLへ放り込めた。 MySQLへのデータ形式変えたら1割くらい容量減った (1)東証株式相場表(日報、PDF)をDLし、(2)PDFMinerで解析しCSV保存。(3)CSVをMySQLに放り込む、という流れの(3)に関係する備忘録です。 株価データには、数字のほか「-」というのがあって… 始値、高値、安値、終値が前場・後場で計8値あります。それ以外に、加重平均値、株式売買数を含め、約定してたら数字(数値)…
20230204 現在、吉野家・松屋・すき家のアルバイト募集状況(日中、各店舗下限値。高校生時給・研修時給除く)は以下のとおりです。 Storetype 求人中店舗数[件] 上昇件数[件] 下落件数[件] 上昇-下落[件] 新規件数[件] 停止件数[件] 新規-停止[件] 吉野家 1185 0 2 -2 0 1 -1 松屋 1195 211 2 209 0 0 0 すき家 1734 208 0 208 1 1 0 合計 4114 419 4 415 1 2 -1 20230204 において、前回集計時( 20230128 )以降、日中求人時給が上昇した店舗は下記 419 件です。 Storet…
エンジニア・プログラマーの学習に約立つコンテンツのセール情報を集めました 1位 現役シリコンバレーエンジニアが教えるPython 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイル ¥27,800 → ¥1,900 93%OFF!! ⭐ ⭐ ⭐ ⭐ (19,715件) 現役シリコンバレーエンジニアが教えるPython入門!応用では、データ解析、データーベース、ネットワーク、暗号化、並列化、テスト、インフラ自動化、キューイングシステム、非同期処理など盛り沢山の内容です! 2位 【キカガク流】人工知能・機械学習 脱ブラックボックス講座 - 初級編 - ¥15,800 → ¥1,800 …
国民の祝日のデータは内閣府がCSVで配布している 以下のサイトから。 www8.cao.go.jp CSVファイルはShiftJISってところがポイント。 ファイル名が今年になってしれっと変わったと言うのはちょっとアレ。 blog.kenall.jp と思っていたら、これまでのURLに直された。
Pythonでいろいろと作成している時に扱っているデータをどこかから読み込みたい、どこかに取っておきたいとかデータを受け渡したいような場合が発生します。 そのような場合の1つの方法としてCSVファイルからのデータの読み込みや書き込みがあります。 今回はその中のCSVファイルからの読み込み方法の説明をしていきたいと思います。 目次 1.CSVファイルからの読み込み方法1 2.CSVファイルからの読み込み方法2 3.区切り文字の変更 4.辞書型のデータとして読み込む方法 CSVファイルからデータを読み込む場合にはcsv.readerクラスを使用します。 1.CSVファイルからの読み込み方法1 まず…
先日、昨年から作ってた宿検索アプリのβ版が完成した。 今、1日3回自動でスクレイピングしてくれるようにスケジュール組んで動かしているんだけれども、まだまだ改良の余地あり。 試運転中にふと、別のアプリ(ブログタイトルのやつ)を作成したくなったのでちょっと寄り道。 ボッチ体質の私に、毎朝メールを送ってくれるアプリを作りたい。 メールの内容はとりあえず偉人の名言で。 手始めに、ネットからいくつかの名言を拾ってきてCSVに保存。 プログラムの内容は以下 1,名言CSVファイルをプログラム上で読み込む(pandas使う) 2,乱数を発生させて名言をランダムに抽出 3,抽出した名言と偉人の名前をメール送信…
備忘録がてらメモ。 最近ビッグデータを扱うプロジェクトでは「Parquet」という列指向フォーマット(カラムナフォーマット)が好まれるようになってきた。 parquet.apache.org Parquetの利点は、なんといってもデータの読み込みの速さとストレージ容量の節約にあるだろう。 今回はPythonのpandasを利用して、CSV形式のファイルを読みこんでParquet形式のファイルに変換する簡単な方法をメモしておく。 今回は、次のようなCSVファイルを用意した。 例: data.csv "id","name","rating","birthday","registered_at" "…
こんにちは、メディアプラットフォーム事業部の多保です。 当社は動画配信のプラットフォームを提供しており、 動画配信の開発プロセスにおいて避けて通れないのが負荷試験になります。 どのくらいの負荷に耐えうるアーキテクチャになっているか? 実装になっているか? 負荷試験によって事前に把握し、改善することが重要です。 今回は当社で活用している負荷試験のツールの紹介と環境構築、その使い方について簡単に紹介しつつ 最終目標として「秒間1万リクエストの負荷をかけることができる負荷試験環境の構築」を行います。 本記事の内容はMacでの操作を想定しています。 負荷試験ツールLocustについて Locustをイ…
反映されるのは翌月5営業日目 Google広告の「請求とお支払い」を確認すると以下のように記載されている。 4営業日目になってもダウンロードできないため、Google広告に問い合わせたところ以下の回答を得た。 先月分の明細の発行は、翌月5営業日目以降となっております。 結論、明細の発行は翌月5営業日目らしい。 Google広告の機能、テキストは不具合が放置されがち Google広告は性能が高い一方、提供している機能の不具合やドキュメントの誤謬を放置していることが多い。 例えば、問い合わせページに「ダミーテキスト」を挿入したままだったり、(ヘルプ内検索「ダミーテキスト」でヒットするのは笑える) …
エンジニア・プログラマーの学習に約立つコンテンツのセール情報を集めました 1位 現役シリコンバレーエンジニアが教えるPython 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイル ¥27,800 → ¥1,900 93%OFF!! ⭐ ⭐ ⭐ ⭐ (19,706件) 現役シリコンバレーエンジニアが教えるPython入門!応用では、データ解析、データーベース、ネットワーク、暗号化、並列化、テスト、インフラ自動化、キューイングシステム、非同期処理など盛り沢山の内容です! 2位 【キカガク流】人工知能・機械学習 脱ブラックボックス講座 - 初級編 - ¥15,800 → ¥1,800 …
revコマンドを使う。以下は、次のようなテキストファイルorder.csvをカレントディレクトリに置き、動作させてみた例。 1,A 3,abc 5,1234 7,@_@_@_ 動作させてみる。 $ cat order.csv 1,A 3,abc 5,1234 7,@_@_@_ $ rev order.csv A,1 cba,3 4321,5 _@_@_@,7
ブクログ(booklog)とは?ブクログ(booklog)は、新しい本に出会えるブックレビューサイトです。本の感想や評価をチェックしたり、web上に本棚を作成し、感想やレビューを書いて蔵書を管理したりできます。CDやDVD・雑誌・ゲームも登録できます。スクレイピングツールの概要ScrapeStormとは、強い機能を持つ、プログラミングが必要なく、使いやすい人工知能Webスクレイピングツールです。違う基盤のユーザーに二つのスクレイピングモードを提供し、1-Clickで99%のWebスクレイピングを満たします。ScrapeStormにより、大量のWebデータを素早く正確的に取得できます。手動でデー…
この記事は個人ブログと同じ内容です www.ritolab.com // 運動会や花火大会って、当日になるまで開催されるのかがわかりません。それは天候に左右されるからですが、 例えば 「購入される・されない」「合格する・しない」も同じようなことで、 こんな風に「yes」or「no」を予測したい時があります。 今回はロジスティック回帰分析を用いてイベントの発生有無を予測してみます。 ロジスティック回帰分析 ロジスティック回帰分析は、複数の説明変数からイベントが発生する確率をモデル化する統計モデル。 「イベントの発生」とは、そのイベントが起こる・起こらないを表す。つまり「勝つか負けるか」「選択され…
ありがとうchatGPT! import re import requests import pandas as pd url = "http://ke.kabupro.jp/doc/down40.htm" res = requests.get(url) # XLSファイルのリンクを取得 match = re.search(r'<a.*href="(.*\.xls)".*>', res.text) if match: xls_link = match.group(1) xls_link = "http://ke.kabupro.jp/doc/" + xls_link xls_file = re…
G-gen の神谷です。本記事では、Batch を使って、大容量の CSV ファイルを BigQuery に ETL してみます。 Cloud Functions や Cloud Run といった類似サービスに比べて Batch の使いどころはどこかを検証します。 基本的な情報 Batch とは Batch の利点 ユースケース 料金 類似プロダクトとの比較 検証要件と設計 要件 設計ポイント 実装方式 実装 ディレクトリ構成 main 処理 コンテナ作成 Batch の設定 ジョブの実行 性能検証と結果 検証結果 わかったこと Batch の使いどころ 補足(BigQuery ロード時のメモ…
普通のNodeとDBNodeの処理速度を比較するWFを作成したので記事にする 使用Node:多いので割愛 DBNodeとは 参考WFの例と解説 【結果】処理にかかった時間を比較 ■普通Nodeのルート ■DBNodeのルート DBNodeとは データベースを扱うためのNode 普段のNodeより処理が速くなるかとおもって今回比較WFを作成した ※微妙なWFだが参考程度のものなのでご勘弁を… 今回DBの入力にH2 Connectorを使用したが、つかえなければ手っ取り早く空のMSAccessをつないでも良いのかと ▼DBNodeについてよくわかる解説▼ KNIME - データベースノードとは? …