BCRをスクレイピングした件
BCRについて
Bromeliad Cultivar Registerというのは、
国際ブロメリア協会 Bromeliad Society Internationalが運営している
ブロメリアの交配種、変異株等の登録サイトだ。
何故だか急にT. stramineaを親に使った交配種が知りたくなったことはない?1
そんなとき、このサイトはとても役に立つ。
Advanced BCR Searchを使えば複数条件で該当する品種を検索できるからだ。
BCR Bromeliad Cultivar Register>
では、日本で作出された登録品種のうち、
種子親として登録されたトップ3が知りたいときはどうだろう。
まぁ、数は多くはないから調べられないことはない。
ただ、交配について何らかの傾向を検討したい時に、
Advanced BCR Searchだけではなかなか難しいのではないだろうか。
スクレイピング
というわけで、こっちでデータベースを作ればいいじゃん、と。
流行りのPythonを使ったスクレイピングの練習としてやってみた2。
BCRの登録数をカウントしたら13340品種(2017/11/11現在)もあったため、
とりあえず登録数1131種のTillandsia属を対象にした。
取得したデータは以下の通り。
- 品種名
- 登録者
- 登録年
- 作出国
- Seed Parent
- Pollen Parent
- 説明文
取得した生データは結構汚い。
何故か作出国に交配親が入っていたり、国の名前が2つ入っていたりする。
結局Excelに出力して、そこらへんの諸々は置換やらなんやらして対応した3。
データベースからいくつかグラフを作成してみた4。
交配親トップ10(種子親)
イオナンタが圧倒している。
交配親トップ10(花粉親)
父親不明が結構いる。
作出国トップ10
USA!USA!
種子親トップ10(Japan)
では、前述の問いに対してのアンサーは以下の通り。
1位がダイエリアーナ、2位がフラゲラータ、
3位がスーパーメキシカーナとチアペンシス(選抜株)だった5。
課題
現状、以上のような感じでデータベースが出来た。
やりたいことはまだある。
- Tillandsia属以外の約13000種の登録品種を対象にする。
- グラフを綺麗にする。
- 交配親に亜属情報を追加して、交配の傾向をみる。
- 系統樹的なものを描いてみたい。
以上。