自然科学研究の論文のデータをアーカイブしろって簡単に言う人がいるけど…

はてなブックマーク -科学研究で得られたデータの8割が20年以内に喪失しているという調査結果が明らかに - Technity

この記事のブコメもそうだけど,捏造がらみとかネガティブデータの公開の関係で,実験データを全部アーカイブしろっていう人がいる。個人的にはこういう人たちは多分自分の手を動かして実験をしたことがないんだろうなと思うことにしている。

以下にぐだぐだ書くけど一言でまとめると,よその人が見てわかるようにデータをまとめたものってのが「論文」なので,論文という文脈から切り離した生データには意味がないし,データを意味ある形で公開しようと思うと研究者の負担がとんでもないことになりますよってこと。

まあ,今どきなら,ビッグデータの時代だからそんなデータの羅列でもなんとかなるだろうって意見が出てくるのかもしれないけど,生データはタグ付けと「文脈」がないと意味を成さないことをわかっていない。

例えば,OTFTの伝達特性(transfer characteristics)を例に取ると,タグ付けってのは広く言えば測定条件みたいなもので,以下の様なもの

  • 測定に使用した装置
  • 測定条件(レンジ,積算時間など)
  • サンプルの構成(活性層や電極の材料,ゲート容量,ゲート長,電極幅などなど),状態(雰囲気,温度,保存状態とか)

文脈ってのは,その測定で何を明らかにしようとしていたのかってことで,トランジスタの伝達特性一つとっても,

  • 活性層の移動度(絶対値)を求めたかった
  • 活性層の移動度の温度依存性から,活性層の特性を考察したかった
  • ゲート界面のトラップ準位の状態を見たかった

とか,色々ある。

測定条件はこの文脈に沿った形で決定される。それも,標準的じゃない文脈に関しては,試行錯誤の上で。また,文脈によってある測定条件は厳しめにするけど,他の条件は緩くてもいいというか,緩くなってしまうこともザラ。

だから,ある生データをもともと取られた文脈とは違う文脈で活用しようとすると,実は測定条件があってなかったりとかして使えないことが多い。むしろ,ほとんどの論文のデータを別の視点から見ようとすると,参考程度にしかならないことを実験屋さんはよく知っているというか,その論文を書いた人に恨み言を言いたくなるような経験の1つや2つはあると思う。

なので,生データを公開すれば実験をする設備がない人でもなんか科学に貢献できるっていうか,安楽椅子探偵みたいなマネが出来るって思うのは勝手だけど,論文に載ってるデータですら文脈依存で危ういのに,生データなんて危険なものに手を出しても腹をこわすのがオチなので,そんな幻想はさっさと捨てて欲しい。

最も,上記の話は高度に定型化された測定に関しては当てはまらない。例えば,化合物のNMRとか,XRDとか,溶液のUV-VIS absorptionとか。で,NMRピークは新規化合物については載せないと当然論文通らないし,XRDについて生データを提出するように要求する雑誌は多い。

今は危うい測定も,もっと経てばNMRのように文脈から切り離しても通用するような確立された測定になるのかもしれない*1。ただ,たとえそうなったとしても,そんな測定は研究のインパクト的な旨味が少ないから,アカデミックな研究の中心地はより外縁に移動するわけで,この問題は多分永久に消えることはない。

あと,ネガティブデータの問題に関しては,ネガティブデータは明文化されないので,その集積が短期的な成果に直結するのは事実なんだけど。時代が変わると測定装置,成膜装置,材料などなど,あらゆるものが進歩するので,同じことをやっても成功したりする。忘れることで生きていけるって誰かさんも言ってたし。

それと,ネガティブデータは普通気合が入ってないので,データの品質が低い。ちょっとやってみてやっぱりダメだったと放置されているのか,散々やってダメだったかデータだけからでは判断できない。

散々やってダメだと確信を持てたデータだけをアーカイブに持ってきてくださいって言われても,そんなに気合入れてやった実験は,なんか別の文脈をでっち上げて論文にするだろ普通って思うので,そのデータベースに論文以上のデータが追加される可能性っていかほどでしょうって思う。

*1:その昔,NISTの人が,OTFTの測定をそんな感じにするべく標準基板を作れないかみたいな事を言ってた。まあ,取り立てて何か進捗があったという話は聞かないが。