Hatena::ブログ(Diary)

R七転八倒

2011-05-31

不正なマルチバイト文字に七転八倒した。

分散分析までなんとかかんとかできるようになったので、本格的に自分の研究のデータを分析しようと思ったのだ。

本当は時間がないのでSPSSを使おうとしたのだけど、N先生から
"逃げ場を無くせ!!"との激。

ちなみにN先生は、ヒゲ付き棒グラフを美しく仕上げるために七転八倒している。

よーーしわかったよ。やるぜ!!

ということで、データを読み込むところから始める。

データの概要は、

だいたい300人分のデータで看護師さんと准看護師さんのデータ。
前半部は、年齢、性別、勤務形態などのデモグラフィックデータで後半部は3つの質問紙の質問項目のスコア
ファイルは、nslpnsとしてcsv方式で保存(もちろん作業ディレクトリに)

これを読み込んだら、subset関数などを使ってソートを掛けながら少しずづ分析に向けて進めていくのだ。

エクセル変数名を分かりやすく形成して、よし読み込むのみ。

Rでやれば、あとからどんなふうにデータを形成したのかがよくわかるのだ。

まずはRstudioを開いて、file→new→Rscript でエディタを開く。

f:id:jigawa91:20110531222122p:image

今回は、看護師准看護師さんのデータなので、nslpnsと名前をつけとこう。

エディタの左上のフロッピーマークをクリック。

こんな感じのが出てくるのでファイル名を付けて保存。
この時にwhereの部分をRの作業ディレクトリに変えておくのを忘れちゃだめ。


f:id:jigawa91:20110531222124p:image

フフ。コマンドをエディタにいれてみる。
データの読取はもう出来るもんね。

s<- read.csv("nslpns.csv",header=T,sep=',')

!!

f:id:jigawa91:20110531222125p:image

なんだよ。不正なマルチバイト文字って。


この後、約3時間ほどマルチバイト文字と戦う。

txt方式で読み込もうとしたり、csvデータをいじってみたり。


よくわかんないが、マルチバイト文字という奴は文字形式の問題らしいが、元データはきっちりしてるつもりなんだけどな。。。
UTFとshift JISの問題だとかなんとかようわからんので誰か教えてください。


いろいろ四苦八苦して、新たなコードをネット上で見つける。一応これで読み込めた。

lowdate1<-file("nslpns.csv",encoding="Shift-JIS")
lowdate2<-read.csv(lowdate1,,header=T,sep=',')

よくわかってないけど、たぶん一行目はcsvを読み込むときにShiftJISで読み込んでねということみたい。

膨大な量のデータなので、どっかで間違えて邪悪な文字を使ってしまってだんだろう。

ふう。燃え尽きた。続きはまた今度にしよう。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/jigawa91/20110531/1306849846