研究用マルチモーダル音声データベース M2TINIT

last update: 2017-11-10
README

データベースの概要

研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology) は,マルチモーダル音声研究の推進のため,東京工業 大学大学院院総合理工学研究科 小林隆夫研究室 および名古屋工業 大学知能情報システム学科 北村・徳田研究室が開発・公開する音声・ 唇動画像同時収録データベースです.これまでに音声・唇動画像の生成 やバイモーダル音声認識の研究に利用されています (参考文献参照)
本データベースに関する最新の情報は,以下をご覧ください.

http://m2tinit.ics.nitech.ac.jp

収録

民生用DVカメラおよびDATデッキを用いて,それぞれ動画像と音声を同時に収録しま した.収録時には,2つの装置の同期は考慮されていませんが,収録後に,DV とDATの音声データの同期をとることで,両者の時間軸を一致させました.こ れにより,DV の音声トラックよりも品質の高い音声データが利用できます.

DATからの音声データの取り込みは DATLink+ を使用し,動画像は PC を使用 してキャプチャー,および編集作業を行ないました.詳しくは参考文献 [5]をご覧ください.

使用機器を以下に示します.

ファイル形式収録されたデータは,A-J の503文章で約50分程度.全体 の記憶容量は約90Gバイト(非圧縮)になりますが,半分程度には可逆圧 縮が可能です.個々のファイルは,以下のような形式になります.
音声データ
文章ごとに切り出された,ヘッダなし Raw Audio ファイル
動画像データ
動画像データは,ムービー形式からフレーム毎に1枚ずつ切り出されている
附属データ

サンプル

使用に関して

本データベースは学術研究の目的にのみ使用できます.本データベースの 再配布を禁止します.また,本データベースに基づいて,改変・導出した データを配布することも禁止します.但し,個人で改変・導出したデータ を個人で利用することは自由です.

本データベースの内容,保守および使用に伴う一切の損害について配布 者は責任を負いません.内容に関する問合せにはできる限りお答えした いと思いますが,それをあらかじめ保証するものではないことをご承知 おき下さい.

本データベースを利用した研究成果を発表される際には,本データベー スを使用した旨,表示頂ければ幸いです.

入手方法

本データベースの使用をご希望の方は,以下の住所に「USBインタフェー スをもった容量60GB以上の外付けハードディスクドライブ」をお送り下 さい.ハードディスクにデータベースをコピーの後,着払いで返送させ て頂きます.
〒466-8555 名古屋市昭和区御器所町
名古屋工業大学 大学院 工学研究科 情報工学専攻
徳田 恵一
TEL: 052-735-5404 FAX: 052-735-5477
Email: tokuda@ics.nitech.ac.jp
お送り頂くハードディスクには返送先を同封することをお忘れなきよう お願いいたします.また,作業はボランティアベースで行っております ので,多少の遅れが生じ得ることを予めご了承下さい.また,郵送によ る機器の破損などに関しても責任を負いかねます.

併せて,誓約書にご記入頂き,以下の住所に送付ください.

〒226-8502 横浜市緑区長津田町4259 G2-4
東京工業大学 工学院 情報通信系
小林 隆夫
TEL: 045-924-5030 FAX: 045-924-5055
Email: takao.kobayashi@ip.titech.ac.jp

参考文献

  1. 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
    ピクセルベースアプローチによるHMMに基づいた唇動画像の生成, 信学技報, PRMU99-157, Nov. 1999.
    PDF
  2. 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
    ピクセルベースアプローチによるHMMに基づいた唇動画像生成, 電気情報通信学会 総合大会講演集, D-12-64, Mar. 2000.
  3. 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
    ピクセルベースアプローチによるHMMに基づいた唇動画像の生成, 音響学会講演集, 1-Q-3, Sep. 2000.PDF
  4. Shinji Sako, Keiichi Tokuda, Takashi Masuko, Takao Kobayashi and Tadashi Kitamura
    HMM-based Text-to-audio-visual Speech Synthesis --Image-based Approach, ICSLP, vol.III, pp.25-28, Oct. 2000.
  5. 酒向 慎司, 近藤 重一,徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
    音声と唇動画像によるマルチモーダルデータベースの構築, 音響学会講演集, 3-P-30, Mar. 2001. PDF
  6. 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
    HMMに基づいた視聴覚テキスト音声合成―画像ベースアプローチ―, 情報処理学会論文誌, vol.43, no.7, pp.2169-2716,2002
  7. 石川剛, 澤田裕子, 全柄河, 南角吉彦, 宮島千代美,徳田 恵一, 北村 正
    初期統合によるバイモーダル大語彙連続音声認識, FIT2002, Sep. 2000. PDF
  8. 石川剛, 全柄河, 南角吉彦, 宮島千代美,徳田 恵一, 北村 正
    音響尤度のリスコアリングによる結合結果を用いたバイモーダル連続音声認識, 音響学会講演集, Apr. 2003. PDF
  9. 近藤 重一, 益子 貴史, 徳田 恵一, 小林 隆夫
    HMM に基づくテキストからのバイモーダル音声合成に関する検討, 日本音響 学会講演集, 2-P-21, pp.309-310, Mar, 1999.
  10. Masatsune Tamura, Shigekazu Kondo, Takashi Masuko, Takao Kobayashi
    Text-to-Audio-Visual Speech Synthesis Based on Parameter Generation from HMM, EUROSPEECH, pp.959-962, Sep. 1999.