生データの公開に関して考えを改めた

ちょっと前にこんなこと(自然科学研究の論文のデータをアーカイブしろって簡単に言う人がいるけど… - smectic_gの日記)を書いたわけだけど,小保方事件以来考えをちょっと改めた。

生データのアーカイブの集約でビッグデータ的な新しい研究が起こる可能性には依然として否定的だけど,あれ以来,研究不正への対応としてもっと生データが公開されるべきだと考えるようになった。

つか,データを少しごまかす位ならともかく,論文のデータの大半が実際に実験して得られたものか怪しいとか想像の埒外すぎて,特許の実施例じゃないんだからさって思う。

そりゃ,週間シェーンくらいに一人の人間としてありえないくらいの活動があるというのなら,実験データのゼロからの捏造を疑うけど,今回の小保方氏のようにそんなに論文数が多いわけでもないのに実験データをゼロから捏造するなんて普通考えない。

あと,自戒を込めてなんだけど,シミュレーションの論文に関しては再現可能なコードを何らかの形での公開すべきだと思うんだけど,ノウハウの塊でもあるし,ライセンスの問題があるから,ある種のものについては完全な公開は到底期待できないしと,あまり実効性のある形での公開方法が思いつかない。

現状だと著者にメールしてプログラム自体をもらえない限りは,論文の記述から頑張ってプログラムを再実装するくらいしか手がないんだけど,普通のシミュレーションの論文で実装の細部の隠れたパラメータまで全部書いてあることってほぼないと思うので,実装の細部まで完全に同じプログラムとするのはほぼ不可能なことが多いと思う。

目的とする結果に影響すると著者が信じている事については詳細に書くのだけど,結果が大きく変わらないと著者が考えていること,例えば,特殊な状態にハマった時に計算が異常終了しないための細工とかそういうやつについては紙幅の問題で載せない場合が多いと思うんだけど,その判断が正しいかどうかってかなり微妙。