ニコニコ動画のコメントのデータが公開され、(それを使ったかは分からないが)分析した人がブロマガに投稿しているのを見たが、ニコニコ生放送のデータを扱った記事を全く見ないのでその理由について。
研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォひろゆき氏が語ったコメントのナレッジベースについて(2007年の記事):
「Web2.0は大嫌い」とひろゆき氏 ニコ動有料版で「もっと面白くしたい」 (3/3) - ITmedia ニュース
2月にツイートしたありらいおんさんとの会話
ニコニコ生放送の統計の記事が難しい3つの理由
- データ数が膨大
- 過去のデータにアクセスしにくい
- 動画に比べて関心のある人が少ない(いない)
1. データ数が膨大
- 過去のデータと現在増えているデータの両方が動画と比べて膨大
- 1億4000万もの過去放送をスクレイピングするには1秒1アクセスしても1621日かかる
- 生放送のピーク時には30分で5900の放送があるので1秒に3アクセスしないと追いつけない
- 生放送は平日で11万くらい増える(この時点で1秒1アクセスでも足りない:1日は86,400秒)
- 1日に増えるコンテンツ数が動画に比べて10倍以上差がある
- 動画の場合は動画ページ(getthumbinfo)、投稿者のアカウントページ、ニコチャを調べればよいが、生放送の場合コミュニティとひも付けされるので、TS期間なら放送ページ(getplayerstatus or gate/lv or watch/co)、TS期間をすぎれば放送ページ(gate/lv or watch/co)、コミュニティトップページ、放送履歴ページ、アカウントページなど取得する内容によってページが異なり、getthumbinfo と getplayerstatus 以外は全て HTML 形式なので取得に時間が掛かる。さらにアカウントページ、watch ページ、コミュニティトップページにはアクセス制限がある。
2. 過去のデータにアクセスしにくい
- 生放送の情報をまとめた getplayerstatus の xml の返事があるのは公式にアーカイブされている生放送を除いて タイムシフト期間(放送開始から1週間)且つ、タイムシフトが残っていることで、それ以外は HTML のソースコードから取得
- タグを検索しても検索に引っかかるのはタイムシフト期間プラス数時間程度前まで
3. 動画に比べて関心のある人が少ない(いない)
私以外のニコニコ生放送についての統計の記事(2009年の記事しかみつけれられない)
「ニコニコ統計局」のタグを検索するとニコニコの統計にまつわるブロマガや動画を調べることができる
総放送数と総視聴者数・総コメント数など
ニコニコ生放送の放送数の統計
コミュニティの統計
私のニコニコ生放送の統計記事
ナマケットの記事は、昔と比べてテンプレート幅が変わっていてグラフが読みにくかったり、データが回数を重ねると内容が少し異なるので統一して過去の放送と比べたい。
結局のところ、ニコニコ生放送のすべてのデータを取ろうとするのは無理なので一部を抽出することになる。その一部というのが、特定の日時・カテゴリ・タグ、無作為抽出である。無作為抽出の場合は放送の時間帯によって放送カテゴリの比率が異なるかもしれないので注意が必要である。
それでニコニコ生放送のデータを万が一にでも公開することがあったら欲しいデータのまとめ
- 欲しいデータ:放送ID、放送開始日時、放送終了日時、来場者数、コメント数、ニコニ広告、タグ、放送説明文、コミュニティが残っているかどうか
- あったらいいデータ:コミュニティ・チャンネルID、放送当時のコミュニティの累計来場者数・レベル・メンバー数、ニコニコ市場
- 不要なデータ:放送者ID
一方のニコニコ動画の場合
- コンテンツ数は2100万くらいで生放送に比べて 1/7 しかない
- 動画の情報をまとめた getthumbinfo の xml は削除されていなければいつでも返事がある
- タグ検索すると消えてない動画はすべて表示される
- 一日で増えるコンテンツの数は9千くらい(平日は1万も増えない)
投稿者数と配信者数はスタンプのデータより2010年10月29日以降の人数
動画を投稿 スタンプ - niconico、
初めての放送 スタンプ - niconico | 動画 | 生放送 |
コンテンツの数 | 2100万 | 1億4千万 |
一日で増えるコンテンツの数 | 9千 | 11万 |
APIにアクセスできる期間 | 削除されていなければいつでも | 1週間と数時間 |
検索結果 | 削除されていなければいつでも | 1週間と数時間 |
投稿者数と配信者数 | 58万5千 | 45万5千 |
追記 2013/11/24
データ数が膨大の見出しの中で、動画と生放送の参照ページの多さについて。
- 関連記事
-
コメント