草生やす

育てていたりいなかったりする草のことについて書いたり書かなかったり。

BCRをスクレイピングした件

BCRについて

Bromeliad Cultivar Registerというのは、
国際ブロメリア協会 Bromeliad Society Internationalが運営している
ブロメリアの交配種、変異株等の登録サイトだ。

何故だか急にT. stramineaを親に使った交配種が知りたくなったことはない?1
そんなとき、このサイトはとても役に立つ。
Advanced BCR Searchを使えば複数条件で該当する品種を検索できるからだ。

BCR Bromeliad Cultivar Register>

では、日本で作出された登録品種のうち、
種子親として登録されたトップ3が知りたいときはどうだろう。
まぁ、数は多くはないから調べられないことはない。
ただ、交配について何らかの傾向を検討したい時に、
Advanced BCR Searchだけではなかなか難しいのではないだろうか。

スクレイピング

というわけで、こっちでデータベースを作ればいいじゃん、と。
流行りのPythonを使ったスクレイピングの練習としてやってみた2
BCRの登録数をカウントしたら13340品種(2017/11/11現在)もあったため、
とりあえず登録数1131種のTillandsia属を対象にした。

取得したデータは以下の通り。

  • 品種名
  • 登録者
  • 登録年
  • 作出国
  • Seed Parent
  • Pollen Parent
  • 説明文

取得した生データは結構汚い。
何故か作出国に交配親が入っていたり、国の名前が2つ入っていたりする。
結局Excelに出力して、そこらへんの諸々は置換やらなんやらして対応した3
データベースからいくつかグラフを作成してみた4

交配親トップ10(種子親)

イオナンタが圧倒している。 f:id:soutyu:20171126194742p:plain

交配親トップ10(花粉親)

父親不明が結構いる。
f:id:soutyu:20171126194909p:plain

作出国トップ10

USA!USA! f:id:soutyu:20171126195418p:plain

種子親トップ10(Japan)

では、前述の問いに対してのアンサーは以下の通り。
1位がダイエリアーナ、2位がフラゲラータ、
3位がスーパーメキシカーナとチアペンシス(選抜株)だった5

f:id:soutyu:20171126201209p:plain

課題

現状、以上のような感じでデータベースが出来た。
やりたいことはまだある。

  • Tillandsia属以外の約13000種の登録品種を対象にする。
  • グラフを綺麗にする。
  • 交配親に亜属情報を追加して、交配の傾向をみる。
  • 系統樹的なものを描いてみたい。

以上。


  1. 僕は極稀にある。

  2. 当初Seleniumで作っていたのだが、Beautiful Soupを使って書き直した。

  3. pandasでどうにかしたかったが挫折した。データ取得も要改善。

  4. Excelデータをpandasに読み込ませた。

  5. 日本のデータというより会長の趣味が色濃く反映されている。