chalk-less::weblog::thecla

※ ここでの商品へのリンクは、Amazonアソシエイトを利用しています。*

2003 | 08 | 09 | 10 | 11 | 12 |
2004 | 01 | 02 | 03 | 04 | 05 | 07 | 09 | 10 |
2005 | 02 | 04 | 05 | 07 | 11 |
2006 | 03 |
2009 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 08 | 09 | 10 | 12 |
2011 | 01 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 |
2012 | 01 | 03 | 05 | 06 |
2013 | 05 | 06 |
2014 | 01 | 03 | 08 |
2016 | 03 | 06 | 07 | 09 |

2016-09-05(Mon.)

[][][] PlatanusをMacで使う  PlatanusをMacで使うを含むブックマーク

縁あって、ゲノム解析とか発現解析をしています。

de novoでゲノムデータをassembleするというので、Platanus ( http://platanus.bio.titech.ac.jp/ ) というのを使ってみることとしました。現在のバージョンは1.2.4のようで(去年に出たようだ)。サイトでは1.2.1ってのも配られていて、こちらはMacバイナリもあるようですが、最新版の1.2.4はLinux 64 bit binary (precompiled)かソースで、という状況。

そこいらのマシンで自分のMacProが一番性能がよさげなので、これで動かすべくソースを落としてみました。

一応、trimmerも使おうかと思うので、まずはこちらから。ほどきまして、makeしますと、

nakazato@grouper:~/Downloads/Platanus_trim_v1.0.7$ make

g++ -o common.o -c common.cpp -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -DRUN_MODE=\"\"

clang: warning: argument unused during compilation: '-s'

In file included from common.cpp:2:

./common.h:13:10: fatal error: 'omp.h' file not found

#include <omp.h>

^

1 error generated.

make: *** [common.o] Error 1

はい、怒られました。もろもろ調べたところ、Macのg++はclangの方で(イミフ。でもよし)OpenMPは使わないようになっているとか。そこで(brewbrew install gcc49してからか?)Makefile

CXX = g++

 ↓

CXX = g++-4.9

しますと

nakazato@grouper:~/Downloads/Platanus_trim_v1.0.7$ make

g++-4.9 -o common.o -c common.cpp -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -DRUN_MODE=\"\"

g++-4.9 -o trim.o -c trim.cpp -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -DRUN_MODE=\"\"

g++-4.9 -o main.o -c main.cpp -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -DRUN_MODE=\"\"

g++-4.9 -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -o platanus_trim common.o trim.o main.o

ld: warning: option -s is obsolete and being ignored

g++-4.9 -o main.oo -c main.cpp -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -DRUN_MODE=\"internal\"

g++-4.9 -s -std=c++0x -O3 -funroll-loops -fomit-frame-pointer -fopenmp -o platanus_internal_trim common.o trim.o main.oo

ld: warning: option -s is obsolete and being ignored

なにやら怒られましたが、platanus_internal_trimとplatanus_trimができたのでよしとしましょう。(ちゃんと動きました)。

はてさて、今度はPlatanus本体ですが

nakazato@grouper:~/Downloads/Platanus_v1.2.4$ make

g++ -o main.o -c main.cpp -std=c++0x -O3 -funroll-loops -Wall -fopenmp -finline-limit-50000 -lm -Dnullptr=0

clang: error: unknown argument: '-finline-limit-50000'

clang: warning: -lm: 'linker' input unused

make: *** [main.o] Error 1

はい、やっぱり怒られました。で、trimmerのと同様に直したわけですが

nakazato@grouper:~/Downloads/Platanus_v1.2.4$ make

g++ -o main.o -c main.cpp -std=c++0x -O3 -funroll-loops -Wall -fopenmp -finline-limit-50000 -lm -Dnullptr=0

clang: error: unknown argument: '-finline-limit-50000'

clang: warning: -lm: 'linker' input unused

make: *** [main.o] Error 1

nakazato@grouper:~/Downloads/Platanus_v1.2.4$ cp Makefile.org Makefile.arrange

nakazato@grouper:~/Downloads/Platanus_v1.2.4$ vi Makefile.arrange

nakazato@grouper:~/Downloads/Platanus_v1.2.4$ make clean

rm -f platanus main.o assemble.o scaffold.o scaffoldGraph.o gapClose.o common.o baseCommand.o seqlib.o mapper.o gapCloseOLC.o

nakazato@grouper:~/Downloads/Platanus_v1.2.4$ make -f Makefile.arrange

g++-4.9 -o main.o -c main.cpp -std=c++0x -O3 -funroll-loops -Wall -fopenmp -finline-limit-50000 -lm -Dnullptr=0

In file included from assemble.h:25:0,

from main.cpp:22:

counter.h:455:263: error: redeclaration of 'void Counter<KMER>::countKmerOrWriteTemporary(bool&, const typename KMER::keyType&, DoubleHash<typename KMER::keyType, short unsigned int>*, FILE*, omp_lock_t*, const KMER&, unsigned int)' may not have default arguments [-fpermissive]

inline void Counter<KMER>::countKmerOrWriteTemporary(bool &loopFlag, const typename KMER::keyType &key, DoubleHash<typename KMER::keyType, unsigned short> tmpOccurrenceTable, FILE *unmappedFP, omp_lock_t lock, const KMER &kmer, const unsigned iterateTimes=32)

^

counter.h:684:190: error: redeclaration of 'void Counter<KMER>::countKmerOrWriteTemporary(bool&, const typename KMER::keyType&, FILE*, omp_lock_t*, const KMER&, unsigned int)' may not have default arguments [-fpermissive]

inline void Counter<KMER>::countKmerOrWriteTemporary(bool &loopFlag, const typename KMER::keyType &key, FILE *unmappedFP, omp_lock_t lock[], const KMER &kmer, const unsigned iterateTimes=32)

^

In file included from assemble.h:26:0,

from main.cpp:22:

graph.h:1764:80: error: redeclaration of 'void BruijnGraph<KMER>::cutBranchIterative(long long unsigned int)' may not have default arguments [-fpermissive]

void BruijnGraph<KMER>::cutBranchIterative(const unsigned long long numThread=1)

^

make: *** [main.o] Error 1

やっぱり怒られました。で、うねうね調べまして、むりくり先に進めるみたいなオプションをつけるとうまくいくとかで、上記のに加えて

CXXFLAGS = -std=c++0x -O3 -funroll-loops -Wall -fopenmp -finline-limit-50000 -lm -Dnullptr=0

CXXFLAGS = -std=c++0x -O3 -funroll-loops -Wall -fopenmp -finline-limit-50000 -lm -Dnullptr=0 -fpermissive

としますと、まぁやっぱりくどくど怒られるんですが、無事にplatanusの実行ファイルができまして、ちゃんととりあえず、動き始めたんで一安心みたいなところですかね。

週末を越えて動かしているんですが、ちょっとファイルが大きかったのか、スレッド数とかメモリが小さかったのか、"WARNING: Sorry, memory exceeds specified value!!"と怒られつつ、まだ計算しております。。。(そのあたりはまた後日?

2016-07-25(Mon.)

[] MacでのJavaバージョンアップ  MacでのJavaのバージョンアップを含むブックマーク

Javaって、まぁ、セキュリティのごにょごにょもあって最新版にせーとか何とか言われたりするわけでありますが、今般、8でないと動かないソフトを入れるにあたり、6から8にバージョンアップしようとしたわけであります。

そのソフトターミナルで入れるので、ならJavaバージョンターミナルで確認しますわな。

nakazato@gardeneel:~$ java -version

java version "1.6.X_XXX"

Java(TM) SE Runtime Environment (build 1.6.X_XXX-bXX)

Java HotSpot(TM) 64-Bit Server VM (build XX.XXX-bXX, mixed mode)

今はもう8になっているのでちとごまかしてますが。で、ググると、システム環境設定の中にJavaの項目があって、そこからアップデートできるというわけです。確かにそうなっていて、アップデートを促され、ポチッとやることで6から8にアップデートされたかのようになってめでたしめでたし、とは行かなくてですね。上のコマンドをたたいてもバージョンは6のままでございまして。なんかインストールするところが変わったのか、一部しかインストールされていないのか。

で、またごにょごにょ調べまして、インストールされているところにシンボリックリンクをはるかどうかの寸前まで行ったわけですが、結局、システム環境でインストールされるのはJREの方でございまして、コマンドラインの方で見てるのはJDKである、ということがわかりまして、普通にJavaダウンロードページJava SE - Downloads | Oracle Technology Network | Oracleに行って、JDKのを落としてきてインストールしたらば

nakazato@gardeneel:~$ java -version

java version "1.8.0_101"

Java(TM) SE Runtime Environment (build 1.8.0_101-b13)

Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)

無事にアップデートできましたとさ。

2016-06-16(Thu.)

[][] サンタ  サンタを含むブックマーク

毎度おなじみ BioHackathon で山形は あつみ温泉に来ている。

外国からも交えて100人くらいか。今年は大所帯。

夜にNCBIとうちのと話していたらば、そのうちのが今日は何をやっていたかと訊かれていて、リストを作っていたと返事をしたところ、チェックは2回したか、お前はサンタか、ということを真顔で言われたわけである。実はこれは以下をふまえたジョークである。今度どこかで使いたい。

Santa Claus is Coming to Town(サンタが町にやってきた)

He's making a list

And checking it twice

Gonna find out Who's naughty and nice

Santa Claus is coming to town

2016-03-28(Mon.)

[][][] 昆虫学会+応動昆@大阪  昆虫学会+応動昆@大阪を含むブックマーク

来てます。

今回はポスター発表にしてます。内容は、まぁ、いつもどおり。本当はもっとモノに根ざした発表をしたいんですが。

せっかくなので、公共NGS中の昆虫データについて調べてみました。

f:id:thecla:20160328143749p:image

ポスターの図より。数字はプロジェクト数。1つのプロジェクトで複数の生物種が出てきた時は複数にカウントされているから、厳密にはこの表現はおかしいのかとも思う。

ハエが多いのはDrosophilaとかその近縁とかカが含まれているから、と思われ。

チョウ目はカイコタバコスズメガか?、セミ目にはウンカやアブラムシが入っているから。甲虫が少ないですね、という話もあったが、生活環が長いから研究には不向きなのだ、という別の指摘が入った。

生物種は何種類か、という質問を受けたのでその場で調べてみたところ、1256種類だった。

上位の方。

770 7227 Drosophila melanogaster

83 7165 Anopheles gambiae

51 7460 Apis mellifera

40 7091 Bombyx mori

37 7159 Aedes aegypti

36 7240 Drosophila simulans

24 76194 Papilio polytes

24 7160 Aedes albopictus

23 7237 Drosophila pseudoobscura

21 7245 Drosophila yakuba

21 7029 Acyrthosiphon pisum

19 7173 Anopheles arabiensis

19 7038 Bemisia tabaci

15 7244 Drosophila virilis

15 7070 Tribolium castaneum

なんか、上の図と合わないんだが、なんで合わないかは、そのtaxonomy ID決め打ちか、下も見ているかの違いだったかと記憶している。(グラフのDrosophila melanogasterはDrosophila melanogaster なんちゃら/なんちゃらグループみたいのも含んでいる、ということ)

だいぶdryをやっていると忘れそうな感覚だが、この学会に来ている人はこういう学名を見てだいたいあれね、というのがわかる。(まぁ、自分も有名どころとか日ごろ図鑑を見つめている蝶関係とかならだいたいわかるが)。それは、wetの研究者が遺伝子発現で発現量が変動した遺伝子上位20とか見せられて、あー、あの遺伝子ね、とわかるのと同じことである。

oral聞いていると、なんちゃらアザミウマとかにわかに姿が浮かばない昆虫が乱発してニッチェ感が満載である。それに対して、私のやっているなんちゃらハマキガでは、とか細かいどうしで質問していてむしろこの人たちの研究対象をこうやってリスト化したいw。

2016-03-16(Wed.)

[][][] BioProjectとかBioSampleを眺めてみた(続き)  BioProjectとかBioSampleを眺めてみた(続き)を含むブックマーク

普段の職場を飛び出してなので、(いまだに書類をこさえたり調整してメールしたりもありますが)コード書いたりするのがなんか久しぶりな気がします。ま、こうやってわいわいやった方が、ひとりでこもってやるよりシナジー効果が出ますわな。

昨日の続きとして、接頭辞のをちゃんと見たりもしてみた。(この後ろに数字が来る)

27780 SAMD

17 SAME

480372 SAMEA

3628607 SAMN

ついでにBioProjectでも同じことをしてみた。

288 PRJDA

3167 PRJDB

499 PRJEA

9964 PRJEB

143180 PRJNA

それから、仕事柄、文献とのリンクも見たいのだが、実際に文献で引用されている正例がとれずに、まだそこは野ざらしである。

本業の方だが、懸案の自動でAmazonのデータを更新の部分で、データベースをこちらでこさえて、転送するところまでは済。きちんとそれがcronでまわるのか(自分で打つ分には実行できるけど)、向こうできちんとロードできるかはまだなので、それはある程度 時を待ちたい。

あ、あとは15日をすぎたので、定例の月イチの統計情報の更新もdone

なかなか目に見えるものができないってのはアレですなぁ。

2016-03-15(Tue.)

[][][] BioSampleを改めて眺めてみた  BioSampleを改めて眺めてみたを含むブックマーク

このブログも昨年は書いていなかったので、これは再開するのはいかがなものかと思ったのだけれども、よく見たら(自宅でブログを書いていたので)3年くらい書いていなかった時期があって、まぁいいか、と思い、また書いてみました。

次世代シーケンサーの公共データベースSRA(Sequence Read Archive)の検索エンジンを仕事で作ったりなどしています。もともとはSRAだけで閉じていたのですが、発現情報はもともとマイクロアレイのデータのレポジトリであるGEOにも入るようになり、つまり、発現情報はGEOとSRAの両方に入ることとなって、両方見ないといけなくなって、共通であるプロジェクト部分はBioProjectに、サンプル情報はBioSampleに外だしされることとなりました。

で、BioSampleのFTPサイトを改めて眺めてみたのですが、

DDBJの方

<BioSampleSet>

<BioSample access="public" publication_date="2014-04-07T00:00:00+09:00" last_update="2014-11-12T09:53:22+09:00">

<Ids>

<Id is_primary="1" namespace="BioSample">SAMD00000001</Id>

</Ids>

<Description>

<SampleName>Bradyrhizobium sp. DOA9</SampleName>

<Title>MIGS Cultured Bacterial/Archaeal sample from Bradyrhizobium sp. DOA9</Title>

<Organism taxonomy_id="1126627">

<OrganismName>Bradyrhizobium sp. DOA9</OrganismName>

</Organism>

</Description>

NCBIの方は

<BioSampleSet>

<BioSample submission_date="2008-04-04T08:44:24.950" last_update="2015-02-12T15:57:53.867" publication_date="2008-04-04T08:44:25.077" access="public" id="2" accession="SAMN00000002">

<Ids>

<Id db="BioSample" is_primary="1">SAMN00000002</Id>

<Id db="WUGSC" db_label="Sample name">19655</Id>

<Id db="SRA">SRS000002</Id>

</Ids>

<Description>

<Title>Alistipes putredinis DSM 17216</Title>

<Organism taxonomy_id="445970" taxonomy_name="Alistipes putredinis DSM 17216"/>

全然 違うじゃないですか。。。(NCBIの方はDDBJのを含んでいるようなのでこっちを見るか)

とりあえず、IDprefix(ようするに頭の方)を調べてみました。とりあえず5文字分

27780 SAMD0

17 SAME5

480372 SAMEA

3628607 SAMN0

SAMと来て、DとかEとかNとか来て(DDBJ、EBI、NCBIなのは想像に難くない)で、なんちゃらだが、その後ろが数字かと言うとそうでもない、ということ。

2014-08-12(Tue.)

[][][] BioPerl でTaxonomy IDだの生物種名だの  BioPerl でTaxonomy IDだの生物種名だのを含むブックマーク

BioSampleっていうデータベースができまして、実験サンプルの情報が収載されるようになったわけですが、今までTaxnomy IDで管理されていたのがBioSample IDになってTaxonomy IDが振られなくなったなどと騒いでいるのが世に言うTaxonomy ID問題ってやつだったりします。

そんな中、自分のやっておるDBCLS SRA ( http://sra.dbcls.jp/ ) では、前のバージョンで(って現バージョンにがっちゃんこできていないってやつですが)生物種からの検索機能を強化していまして、イネで調べたらその下のindicajaponicaも出るようにするなどという機能をつけております。

最近、どうもそのデータベースの更新がコケていたようで、それはそれでご迷惑をおかけしとったわけですが、さらによく調べると、この機能が重い重い。全然 反応が返ってこない。いろいろと調べた結果、IDと名前の対応、親子関係を抽出するのに、ローカルファイルを見ていたところであったことがわかりました。具体的には

my $dbh = Bio::DB::Taxonomy->new( -source => 'flatfile',

-directory => '/tmp/',

-nodesfile => '/share/data/taxonomy/nodes.dmp',

-namesfile => '/share/data/taxonomy/names.dmp');

これをやると、nodes.dmp と names.dmp から/tmpにインデックスファイルを作成して、それをみてうねうねする、というような仕様のようで、で、処理の度にインデックスファイルを作成→終わったら消すをやっていた模様。どうせなら、そのインデックスファイルをそのままにしておいて、そこ指定するとひっぱってこれる、というような仕様にするとかすればよいのに。

ちなみに、こうやって読み込んだ後の処理の例として

$taxon_in_obj = $dbh->get_taxon(-name => $taxon_in);

if ($taxon_in_obj ne "") {

$taxon_id = $taxon_in_obj->id;

}

生物種名を入れて、Taxonomy IDを出すあたりがこれです(本当はもっと短く書ける)。

で、つどつどインデックスファイル作って消して、が時間がかかるようなので、つどつどNCBIに訊くに変更。

my $dbh = Bio::DB::Taxonomy->new( -source => 'entrez');

それだけで、読み込んだ後の処理の部分はまったくいじらずで大丈夫。

これで数十秒(場合によっては分単位)かかっていたのが、数秒で結果で返ってくるようになりましたとさ。

2014-03-07(Fri.)

[][][] STAP細胞関連のNGSデータを論文から読み取ってアクセスしやすくしてみた  STAP細胞関連のNGSデータを論文から読み取ってアクセスしやすくしてみたを含むブックマーク

3行まとめ

どうも、公共NGSデータをアクセスしやすくしている者です。

一応、ベタに背景を述べるとですね。NGSデータはDDBJ/EBI/NCBI (アルファベット順)の3つのセンターに登録窓口があって、どこに登録されてもいずれはデータ交換されるからどこに登録してもいいんですけど、SRA (Sequence Read Archive) (広義。DDBJのとEBIのとNCBIのを合わせた名称)として公開されて、誰でも利用できるようになっております。で、うちらはDDBJと協力をして、この登録データをいろんな観点から+簡単に見つけられるようにしよう、ってことをやっていて、DBCLS SRA ( http://sra.dbcls.jp/ ) ってのを作って公開しております。

このいろんな観点から、というのは、目的別(ゲノムか、発現か、エピゲか)、機器別(MiSeq とか HiSeq とか PacBio とか)、生物種別とかで、加えて、論文からというのをやっております ( http://sra.dbcls.jp/cgi-bin/publication.cgi ) 。今回みたいに、この論文のデータがほしいな、とかいうときに便利なんでね。

さっそく、実際の記述を見てみると、こんな感じになっておりました。

Bidirectional developmental potential in reprogrammed cells with acquired pluripotency

http://www.nature.com/nature/journal/v505/n7485/full/nature12969.html

RNA-seq and ChIP-seq files have been submitted to the NCBI BioSample databases under accessions SAMN02393426, SAMN02393427, SAMN02393428, SAMN02393429, SAMN02393430, SAMN02393431, SAMN02393432, SAMN02393433, SAMN02393434 and SAMN02393435.

オープンアクセスになったので、こういうときに便利ですゎね。

しかし、ここに出てくるのはSRAのIDではないんですよね。。。まぁ、順々に。

ここで皆様にまず訴えたいのはですね、SRAに登録されたデータの構造ですね。そこは本家DDBJの図がよくできているので、それを引用。

f:id:thecla:20140307111703p:image

実際のシーケンスデータに加えて、メタデータとして実験情報の書かれたファイルがあってですね、そこに記載の情報を元手に検索をかけるわけですが、以下の感じになっております

  • study:プロジェクト情報(例:1000人日本人ゲノム読みますプロジェクト)
  • experiment:実験情報。使用機器とか試薬の条件とか(例:1000人読む各々の個人に対しての測定)
  • sample:実験サンプル情報(例:1000人各々の個人についての情報。性別とか年齢とか)
  • run:実際に読んだシーケンスについての情報
  • analysis:解析した情報(optional)
  • submission:上のをまとめて登録した際の登録そのものに対しての情報(てかIDとか登録日とか)

で、各々、SRP000001とかSRXとかそういうIDが振られていて、それで論文に引用すればいいわけです。

All Solexa reads have been deposited in the Read Archive at DDBJ http://www.ddbj.nig.ac.jp/ with accession number DRA000001, ...

ちょっと凝るとこんなのもありますわな。

we chose to analyse the largest samples: ERR011058 (10BF), ERR011062 (12BF) and ERR011080 (5EU) (21811, 25724 and 22714 sequences, respectively), ...

こういうのも内部ではヨサゲに処理しております。

で、見ていると、こんなのも出てきます。

All the DNA sequencing data in this work is deposited at GEO with an accession number of GSE15188.

一見、マイクロアレイっぽいんですが、DNA sequencing とあるのでNGSデータであります。とある事情*1により、発現データは、GEOに(も)登録されるようになっております。実際には、発現関連のNGSデータはまずGEO(とかEBIだとArrayExpress)に登録されて、内部(NCBIとかEBI)でそのデータがSRAに送られてそちらでも公開、という流れですわな。

すると、同じデータがGEOとSRAに登録されるという状況があるわけです(他に、NGSデータはSRAに、それをつないだゲノムデータはGenBank/EMBL/DDBJ に登録ということもある)。とすると、そいつを束ねるデータベースがいりそうですよね、ということで、プロジェクトのデータベースとサンプルのデータベースができて、各々が BioProject と BioSample というデータベースになっております。図式化すると、以下のような感じ。

f:id:thecla:20140307173622p:image

ゆくゆくはSRAなら、StudyとSampleの部分が、BioProjectとBioSampleに置き換えられる予定(だったはず)。

さてさてお待たせしました。で、件の記述はこのBioSampleのIDでの記述だったわけです。

で、記述にあるIDをBioSampleのページ( http://www.ncbi.nlm.nih.gov/biosample )で検索すると*2http://www.ncbi.nlm.nih.gov/biosample/?term=SAMN02393426 な感じになりまして、これを見ると、下にBioProjectへのリンクが。で、これをたどると、真ん中の表に SRA Experiments: 42とあるので42コあるんだな、と。この42をクリックすると、NCBIのSRAのサイトに飛んで、確かに42コのSRA Experiment IDが並んでいるわけですが、これをぽちぽちたどってデータを落とすか??? ということになったわけですよ。で、先ほど訴えたSRAのデータ構造に戻るわけですが、Experimentをまとめる形でStudyとかSubmissionのIDがあるはずだと。NCBI のSRAのサイトはラビリンスですから、入らないのが懸命です。さっそく、DDBJのサイト( http://trace.ddbj.nig.ac.jp/DRASearch/ )で検索しましょう。とりあえず、BioSample → BioProject → SRA Experiment ときてますが、一番上のID検索して http://trace.ddbj.nig.ac.jp/DRASearch/experiment?acc=SRX472668 が得られるわけです。すると右の表にStudy IDはSRP038104だとあるので、これをぽちっとして http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=SRP038104 でゴールです。(全部のExperimentがこのStudyにぶら下がることを確認済)。右の表からわしわし落として、遊びましょう。

ちなみに、作っているDBCLS SRA ( http://sra.dbcls.jp/ )には、Hot Publicationsという欄が一番下にあって、そこからもリンクしてあります。

*1:通称:NCBI SRAやめます事件。オバマ大統領予算カットだとか言ったあおり(←ちょっと話が歪んどるな)http://www.nlm.nih.gov/pubs/techbull/jf11/jf11_ncbi_reprint_sra.html とか

*2:DDBJにもBioSampleがありますが、現時点で検索できるのはDDBJに登録されたもののみ

theclathecla 2014/03/07 17:59 3行まとめを途中で書いたので、本文のまとめになっていない件

2014-01-23(Thu.)

[] 名古屋議定書に関するパブコメ明日まで。  名古屋議定書に関するパブコメ明日まで。を含むブックマーク

適当にとりあえずメモっとくわ。

名古屋議定書のって、ある国から何か(植物でも昆虫でも)もってきた → 薬作った(そして儲けた)→ 作った方の国だけ儲けて不公平でね? という背景だと記憶しているので、生き死には関係ないのではないか( https://twitter.com/chalkless/status/426275932815364096 )

平成25年12月27日

名古屋議定書に係る国内措置のあり方検討会報告書(案)」 に対する意見の募集(パブリックコメント)について (お知らせ) http://www.env.go.jp/press/press.php?serial=17565

dantyuteiさんによるよくわかる解説:http://d.hatena.ne.jp/dantyutei/20140121

とりあえず書いた理由(こんなに長くなくていいと思う。あと、あっているかどうか)

名古屋議定書は、遺伝子資源利用国が、その遺伝子資源を活用し、

過剰な利益を得ることによって、本来、遺伝子資源提供国が得られる利益が

著しく減ることによる不公平を是正するためのものであると理解している。

我が国は、人々の動植物への関心が非常に高く、端的には、一般の書店

花、草木、魚、昆虫小動物といった幅広い動植物に渡る大小の図鑑

容易に手に入るが、欧米をはじめとした諸外国では、このような状況に

ないのが現状である。

このことは、これらの動植物を趣味で収集、飼育栽培する一般の人々が

多いという環境を生んでおり、また、趣味を究めた在野の研究者が多い

というのも我が国の特徴と言えよう。

在野の研究者の例では、日本では蝶の生態(食草、産卵や幼虫期の時期、

越冬態等)が非常に詳細に明らかにされているが、これらは、もともと

一般の人々が趣味で観察、飼育をし、明らかにしたものである

(著名な人としては五十嵐邁 氏が挙げられよう)。

昆虫を例にとれば、定期的に標本や生体を交換・売買する

インセクトフェアといった催しが行われ、また、むし社をはじめ、

店舗で昆虫を購入することにより、自宅等での飼育、観察を行う環境が

現状ある。(そしてたとえば飼育のノウハウはブログ書籍にまとめられ

誰もが情報を得られるようになっている)

名古屋議定書の趣旨からすると、このような個人の趣味や在野の研究は

遺伝子資源を活用する範疇からは明らかに外れており、

遺伝子資源提供国の利益を妨げるものではない。

逆に、工芸品としてアジアを中心に売られている蝶やコガネムシ

標本の購入ができなくなると思われ、手続きを要求する方が利益を妨げると思われる。

よって、これら個人の趣味や在野の研究、あるいは、それらを対象にした

標本商や零細輸入業者に関しては、手続きの免除、あるいは大幅な簡素化が

適当であるという結論に至るものである。

→実際に報告書のどこにツッコミを入れるんだよ、というところはまだ見きれていない。

2013-06-18(Tue.)

[] SuSeにハマる  SuSeにハマるを含むブックマーク

ぞっこんです。ってそっちじゃなくて、謎の挙動を解明するのに時間が。

user@localhost:~$ emacs

/usr/bin/emacs: symbol lookup error: /lib64/libgobject-2.0.so.0: undefined symbol: g_date_time_unref

まいったなー、と思ったのですが、X11版のemacsを一生懸命あげようとしていたようで

$ sudo zypper install emacs-nox

で解決。が、今のところ明示的にemacs-nox呼ばないと同じエラーが出る。(emacs自体はシェルスクリプト

2013-05-07(Tue.)

[] Mac miniSSDを増設してみた(落ち穂拾い)  Mac miniにSSDを増設してみた(落ち穂拾い)を含むブックマーク

落ち穂拾いという言葉は、意外と便利な言葉な気がします。差分だけ書いて落ち穂拾いって言えばいいんですからね。まぁ、そんなことはどうでもいいのですが、個人的には垣間見るも便利な言葉だと思っています。はい、どうでもいいです。

えっと、3月だかにMac miniを購入しました。いつもはメモリにディスク増し増しで注文なのですが、今回は自宅用ですし、そこはシンプルプランにして、秋葉原でメモリSSDを購入し、自分でトッピングしました(トッピングいうな)。

実際の増設は[Mac] Mac mini 2012のHDDを「SSD」に換装して快適Macライフを手に入れる! | Tools 4 Hackあたりとか、まぁ、YouTube探せば動画もあると思いますが、いくつかのを参考にしながらやっていたら、各々で順番が違うので、一つ、コネクタを外し忘れ、断線させました。。。電源ランプのLED用だったので事なきを得ていますが、あぶないあぶない。。。メモリの増設はやさしいですが、ディスク換装はけっこう覚悟がいるなぁ、などと思いました。。。

で、今回は換装でなくて増設していて、元ある1TBのHDDに、250GBのSSDという構成になっております。システムがSSDで、データがHDDね。

Macでは、こうやってSSD+HDDの構成だと、あたかも1つのドライブであるかのようにするFusion Driveのにできたりします。が、今回はFusion Driveにしてません

その後、Command + R で電源ON(これでダメなら オプションキーを押しながらONかな)。すると、いろいろメニューが出てきたりするわけです。で、SSDのフォーマットをしよう、などと書いてあったりするわけですが、今回はFusion Driveにしないので、ディスクユーティリティを立ち上げてはいけません。なんかエラーっぽいメッセージが出てですね、うっかりOKしたりすると、無理矢理 Fusion Driveにさせられるのです。。。(しかも数時間の時間がかかる)。そこをすっ飛ばして、いきなりOSインストールです。申し遅れましたが、今回は10.8のMountain Lionなのでネット経由でのインストールなのであります(そもそもCDとかDVDを入れるスロットがない)。再インストールを選択すると名称未設定みたいな名前のディスクが2つ並んでどっちかなーみたくなるのですが、そこは容量でわかるでしょ。

もし仮にFusion Driveになってしまったら、ディスクユーティリティとかOSインストールとか出るメニューで上の文字メニュー(一般的にファイルとか編集とか書いてあるところ)のユーティリティあたりを開くとターミナルがあるのでそれを開いてコマンドで設定解除です。具体的には[Mac] 噂のFusion Driveを自分のSSD&外付けHDDを使って自家製で構築してみる。 | Tools 4 Hackに書いてあります(ちなみにこの記事の本題はFusion Driveにする方で逆操作なのですが)。

で、無事にOSが起動されるわけです。

で、ここからまた設定なわけですね。

まずは、SSDの設定でTRIMの有効化ってのがあるらしい。これは最初の記事に載ってます。TRIM Enablerってのを落としてきて有効にするだけ。もしくは、ドメインパーキングを参考に。

で、その次で、この記事にも載っているのですが、ホームディレクトリHDDの方にすること。システム環境設定 > ユーザとグループ → ユーザアイコン右クリック → 詳細オプション → ホームディレクトリを選択。な感じらしい。

ここが原因かわからんのですが、QuickTimeおかしくてですね、終了できなかったり、ウインドウが消えなかったり、ボタンが表示されなかったり、いろいろ起きて結局 再インストールになったのですが、もうちょっとエラーを探ってみたいとは思っとります。

というのも、10.7から ~/Library はFinderから非表示になっているようで、うっかりここを壊したんじゃないか、もしくはPermissionが変なのではないか、などと思っているからなのですが。常に表示させたいので非表示のユーザーライブラリフォルダーにアクセスする方法(Mac OS X 10.7 以降)を参考にすることに。

あとは何だ。Web共有か。前は共有でWeb共有とすると~/Sites/以下が公開されていたけれども、そのメニューがなくなったと。OS X 10.8 Mountain Lion 向け、Web共有を手動で有効にする方法 | Macとかの雑記帳を見て設定(再起動しても自動であがるんだっけか?)

とりあえず、こんなもんかな。また書くことがあれば追記するってことで。

2013-05-02(Thu.)

[][] Google Chart のグラフベクターで扱う(そんなんかよ)  Google Chart のグラフをベクターで扱う(そんなんかよ)を含むブックマーク

ぶはは。ここに書くのも1年ぶりかよ。いったい今まで何やってたんだよ感も漂いますが、まぁいろいろやってましたってことで(だから何を)

えーっと、昨日、論文のreiviseを投稿しました。

reviewerのコメントの中に、図が汚いというのがあって、まぁ、これは新規投稿の際にわかっていたのですが、なぜか図のquality checkプログラムを通ってしまったため(って、人の目ににじんだ画像は機械ににじんでいるとはわからない気もするわけで)、ほったらかしていたわけです。

てなわけで、こんなグラフを載せております。

f:id:thecla:20130502122202p:image

もともとは、 http://sra.dbcls.jp/sra.stat.html あたりに載せているグラフなわけですが、Google Chart を利用しております。が、このグラフSVG で出力されているにもかからわず右クリックで(PNGでも)保存とかできないんですよね。

なら、Google ドキュメント(現:Google Drive)で数値を入れて、で、それを保存しようってぇと、このページは見つかりません。 - Google ドライブ ヘルプ PNG保存はできるっぽい。しかし、グラフに補足でラベルをつけたいし、どうにかベクター画像にしてイラレで編集したいなーと。

いろいろググったけれども、よさげなサイトは出ず。。。

で、もうメンドイから、ダメもとで、元のサイトで印刷とやってPDF保存(こちとらMac + Chrome なので印刷ダイアログPDFプレビュー)とやって、それをイラレで開いてみた。らば、ちゃんと折れ線グラフベクター化されて、太さとか選べるし。文字はアウトライン化されてしまったので、ラベルが長すぎて ... とかにされたところを直すために打ち直したけれども、そのままくいっと拡大・縮小できるし、よかったよかった。

2012-06-07(Thu.)

[][] 文献リストの手直しメモ  文献リストの手直しメモを含むブックマーク

毎度おなじみながら、NGSの公共データベースであるSRAで、メタデータのまとめをして統計的なところから検索するっていう SRAs ってのをやってます ( http://sra.dbcls.jp/ )。この中で、文献からデータを検索するってのがあるわけですが、5月下旬にNGS現場の会 第2回研究会ってのに参加しまして、いろんなベンダーあるなーとか思ったわけです。んでもって、(あくまでこちらでつかんでいる情報でだけですが)文献が出ているデータを機種別に検索してみまして

+------------------------------+----------+

platform count(*)

+------------------------------+----------+

Illumina Genome Analyzer II 4298
454 GS FLX 3701
Illumina Genome Analyzer 2927
454 GS FLX Titanium 847
Illumina Genome Analyzer IIx 645
Illumina HiSeq 2000 377
AB SOLiD System 3.0 154
454 GS 20 154
Helicos HeliScope 115
AB SOLiD System 2.0 114
AB SOLiD System 66
AB SOLiD 4 System 56
454 GS 21
NULL 18
unspecified 15
PacBio RS 13
Complete Genomics 4
454 GS Junior 2
Ion Torrent PGM 2
Illumina MiSeq 1

+------------------------------+----------+

こんな結果を得ました。

で、ほほぅ。Illumina MiSeqもあるのかー、とMySQLをたたいたらば

+-----------+----------------+----------+

RA PLATFORM pmid

+-----------+----------------+----------+

SRA048303 Illumina MiSeq 22185227

+-----------+----------------+----------+

確かにあったわけです。

ところが、実際にサービスしているページ ( http://sra.dbcls.jp/cgi-bin/publication.cgi ) では出ない。これはおかしい。

もうちょっと調べてみますと

+-----------+--------------------------------+------------------------------+

RA study_title platform

+-----------+--------------------------------+------------------------------+

SRA048303 Ultra-Deep Targeted Sequencing Illumina Genome Analyzer IIx
SRA048303 Ultra-Deep Targeted Sequencing Illumina MiSeq

+-----------+--------------------------------+------------------------------+

と、1つの登録で複数のプラットフォームであったわけです。なるほどなるほど。

で、どこでコケるのかなーっと思ったらば、取ってきた文献とデータのペアをMySQLに登録するプロセスで

if len(rows) != 1: # データは一種類だけ入っているはずなので、複数あると

おかし

とある行を発見したのですが、データは一種類ではなかった。。。(残念)

というわけで、今度 直してねー(と、とりあえず書いておく)

2012-06-05(Tue.)

[][][] 通りすがりの縁ってやつですかね  通りすがりの縁ってやつですかねを含むブックマーク

前回、遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―という本を紹介したのだが、って、紹介したってほどじゃないよな、めくった記録をつけたくらいが正しいと思うが、それに対して、著者の方から、その本にかける情熱を書き付けていただいて(ryamadaの遺伝学・遺伝統計学メモ − 分子生物学とオミックスと統計遺伝学と http://d.hatena.ne.jp/ryamada22/20120605 )、前書きと後書きくらいは読んでおいた方がよかったかなー、といまさらに思ったりしております。

一応、『そんなつもりでまとめたのが、この本だったのだけれど、「わかりにくい」らしい』とあったので、自分の書いたものをctrl-Fして「わかりにくい」が0件であることを確認して、

まぁ、私なんぞが、本屋でのわずか10分にも満たない、ぱらぱらめくっただけの感想に一喜一憂させては非常に忍びないと思うとともに、『大量データ科学時代の「遺伝」学の解析を勉強するのに、どこから、どう攻めるのがよいかは、画一的なアプローチがない(と思う)ので、難しい』は まったくそのとおりなわけで(いや、ここで述べられている分野に限らず)、そんな中で、どうやって勉強するか、ってのは試行錯誤だなー、と思うわけです。

まぁ、まわり(=研究者でない。というかぶっちゃけメディアとかサイエンスコミュニケーションとかの人ですよ)からすると同門らしく、自分としては専門外のGWASの解析の話とか訊かれて、で、なんで自分が、とくすぶりつつも、こういうことですかね、と連帯責任のようにこたえている、というのは、前にも書いたことですが(いや、そこまでは書いてないが)、その度に、専門の人に申し訳ないと思いつつ、精進を誓っているわけです。

いくら教科書を読んだって、それが研究活動に役立つのか(+役立たないか)は、自分もwetをやっていたからわかりますが、結局、ニーズとか現場がヘテロであるだけにOJT (on-the-job training:ようするにやって覚えろ) なわけで、そんな中、書いていただいたように、結局、そういう形式に落ち着いた、というのは、確かにそうだよなー、とじわじわ共感がわいてきます。

っちゅうか、どうして本にこたえを求めた > 自分、って感じですよね。本としてのありよう、ウェブコンテンツとしてのありようってのがあるわけで、どうしても本という媒体はコストとか儲けとかに縛られる。本では対応できない次々に出てくる「新しいこと」もウェブなら対応できる。えてして、ウェブだとルーズリーフに書かれたものが五月雨式にアップされていて的な感じで、その目次がつくられる文化さえできれば、系統だってとりこぼしなくその部分をおさえられるようになるわけで、本という媒体の必要性はさらに価値を失うのではないか、と思ったりするのですが。(一応 書きますが、本を否定しているのではないです。ウェブだと五月雨になりがちな知識を本は系統だって勉強できる、ウェブだととかく行方不明になりがちだけれども、本は手元に置いて付箋も付けて、すぐに参照できる)

それに、この界隈では言い出しっぺの法則というのがあって、こんなのがほしーなー、と言うならば、そういう自分が始めればいいんですよね。で、最初こそど素人なんで、と断りは必要かもしれませんが、論文を読むための分子遺伝学の基礎の基礎、みたいなのを始めればいい。で、自分の精進をそこに記録すればいい(いや、多分やらない、というかやれないけど)。

えっと、この文章も相変わらず支離滅裂だし、久しぶりの超口語体だけれども、なんだかんだいって、適当に本を書いて学生に教科書だから買えみたいな人には、このくらいホネのある本をつくってほしい、とは思いますね。それより何より、ウェブであそこまで発信できる、というのは、頭が下がるというか、身につまされる思いがします。

今後ともサイトを参考にさせていただきます。よろしくお願いします。とは、この場ながらお伝えしたいと思います。

ryamada22ryamada22 2012/06/06 08:35 「本」は『取り扱っている内容の取捨選択(主に捨)とその並べ方』に意味があるのだろうと思います。
時間・コマ数を限定した「講義」もそういう側面があるのかもしれません。
それを実感してからは、本のまえがきとあとがき、講義プラン(シラバスの目次)を(以前にも増して)よく読むようになりました。
逆に言うと、そこだけ読んで面白い本がたくさんあると思います(ネット上で立ち読みするだけで、著者の方には申し訳ないのですが)。

データからの意味の抽出も「枠」を嵌めて初めて活きてくるのと似ているように思います。
見当はずれなコメントかもしれませんが。

theclathecla 2012/06/07 18:00 コメントありがとうございます。
私が書いた文章で不快な思いをさせていたらすみません。
「本」については、まさにコメントで書いていただいたのと同じ思いです。前書き、後書き、目次(=並べ方)に著者の「哲学」が出るのだよなぁ、と改めてしみじみ思いました。
閉店まぎわでも、こういうところも見ないとダメですね。

2012-05-28(Mon.)

[][][] またもや立ち読みしてきた(遺伝統計学の基礎)  またもや立ち読みしてきた(遺伝統計学の基礎)を含むブックマーク

遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―

遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―

自分はこのあたりのことは詳しくないのだが、なぜかいろいろ訊かれることが多くて、その度にいろいろ調べたりしてこたえたりしている。

で、ryamadaの遺伝学・遺伝統計学メモ ( id:ryamada22 ) をいろいろ参考にしてこたえたりしていたのだが、いまさらながら、それが本になったとかで(遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―立ち読みしてきた。

最初、遺伝学の棚を見たのだが、なくて、おっかしぃなーとか思いながら統計学の棚に行ったらばそこに。ぱらぱらめくると、確かに統計学の本だった(あたりまえかもしれんが)。ようするに、そこに並んでいるというのは正しかった、ということだ。他にもこの手の本はあるけれども、なかなかにツボを押さえて、Rのコードも書いてあった気がしたし、とっつきやすい印象はもったりした。

ただ、これは個人的な意見なのだが、生物屋で「統計わかんないから勉強したいんですよねー」とか、本気でSNP解析をやろうと入り口に立つ人って、遺伝学の知識の方が曖昧で(って自分もそうなのだが)、mutation と variation となんちゃらとって違いって、みたいなそういう初歩の人もいて、そういう違いとかから最近の統計を使った解析まで誰か解説してくんねぇかなー、なんて、はい、ムシがよすぎますです。はい。(そもそも売れなさそうだから、PDFで配布みたいな)

あんまり役に立たないレビューですみません。

[][][] ついでに見かけた本(バイオパンク)  ついでに見かけた本(バイオパンク)を含むブックマーク

バイオパンク DIY科学者たちのDNAハック!

バイオパンク DIY科学者たちのDNAハック!

ヘー。バイオバンクかー。生体材料の方かな、データの方かな、と思ってぱらぱら。なんか様子がおかしいと思ってよーく見ると、Bio Bank でなくて、Bio Punk だったorz

えーっと。若者がガレージとかで現在の最先端の解析と一線を画して、DNA操作とかして何かムーブメントの予感、みたいな本みたいです。はい。

Amazonアソシエイト:書籍などを紹介することで、その書籍が購入された場合に、紹介者(この場合、私)に紹介料が支払われるものです。見ることによりお金がかかる、ということはありません。また、購入しても、その代金や運送費以上に余計にお金がかかることはありません。ここで得られた収益は、サイトの維持、書評を書く、あるいは、翻訳するなどのための書籍代として使わせていただきます。