研究用マルチモーダル音声データベース M2TINIT
               version 1.0 release March 3, 2003

****************************************************************
                       データベースの概要
****************************************************************

研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech
Database by Tokyo Institute of Technology and Nagoya Institute
of Technology) は,マルチモーダル音声研究の推進のため,東京工業
大学大学院院総合理工学研究科 小林隆夫研究室 および名古屋工業大学
知能情報システム学科 北村・徳田研究室が開発・公開する音声・唇動
画像同時収録データベースです.これまでに音声・唇動画像の生成やバ
イモーダル音声認識の研究に利用されています(参考文献参照).

    * 音声と唇動画像からなるマルチモーダルデータベース

    * 男性話者によるATR音素バランス503文を収録.(ATR音素バラン
      ス503文のCopyright(C): 株式会社エイ・ティ・アール自動翻訳
      電話研究所, 1988)

    * 民生用ディジタルビデオカメラ(DV)で顔正面からの動画像を撮影

    * 並行して,DATデッキで音声を収録収録

本データベースに関する最新の情報は,以下をご覧ください.

    http://m2tinit.ics.nitech.ac.jp

****************************************************************
                              収録
****************************************************************

民生用DVカメラおよびDATデッキを用いて,それぞれ動画像と音声を同時
に収録しました.収録時には,2つの装置の同期は考慮されていませんが,
収録後に,DVとDATの音声データの同期をとることで,両者の時間軸を一
致させました.これにより,DV の音声トラックよりも品質の高い音声デ
ータが利用できます.

DATからの音声データの取り込みは DATLink+ を使用し,動画像は PCを使
用してキャプチャー,および編集作業を行ないました.詳しくは参考文献
[5]をご覧ください.

使用機器を以下に示します.

    * DVカメラ : SONY TRV-PC7
    * DATデッキ : SONY TCD-D7
    * マイクロホン : SONY C-355
    * WS : Sun Workstation (DATからのデータの取り込み)
    * WS と DAT デッキの接続 : DATLink+
    * PC : SONY VAIO GR9 (DVカメラからのキャプチャー,切り出し)
    * キャプチャーソフト: SONY DVgate Motion
    * ビデオ編集ソフト : Adobe Premiere(文章の切り出し)

ファイル形式収録されたデータは,A-J の503文章で約50分程度.全体
の記憶容量は約90Gバイト(非圧縮)になりますが,半分程度には可逆圧
縮が可能です.個々のファイルは,以下のような形式になります.

音声データ

    文章ごとに切り出された,ヘッダなし Raw audio ファイル

        * 量子化方式 16bit リニアPCM
        * サンプリング周波数 48kHz
        * モノラル
        * Big-endian

動画像データ

    動画像データは,ムービー形式からフレーム毎に1枚ずつ切り出し
    済

        * PPM 形式 (24bit RGB)
        * 画素数 720x480 (直方画素)
        * フレーム周期 1/29.97 sec

附属データ

        * 音素境界情報 (HTK フォーマット)
        * 鼻孔中心位置座標

****************************************************************
                          使用に関して
****************************************************************

本データベースは学術研究の目的にのみ使用できます.本データベース
の再配布を禁止します.また,本データベースに基づいて,改変・導出
したデータを配布することも禁止します.但し,個人で改変・導出した
データを個人で利用することは自由です.

本データベースの内容,保守および使用に伴う一切の損害について配布
者は責任を負いません.内容に関する問合せにはできる限りお答えした
いと思いますが,それをあらかじめ保証するものではないことをご承知
おき下さい.

本データベースを利用した研究成果を発表される際には,本データベー
スを使用した旨,表示頂ければ幸いです.また,再配布された本データ
ベースを利用される場合にも,我々に御一報頂ければ幸いです.これら
の情報は,今後,我々が様々な研究資金を獲得する際に役立ちます.

****************************************************************
                            入手方法
****************************************************************

本データベースの使用をご希望の方は,以下の住所に「USBインタフェー
スをもった容量60GB以上の外付けハードディスクドライブ」をお送り下
さい.ハードディスクにデータベースをコピーの後,着払いで返送させ
て頂きます.

    〒466-8555 名古屋市昭和区御器所町
    名古屋工業大学 知能情報システム学科
    徳田恵一
    TEL 052-735-5404  FAX 052-735-5477
    Email tokuda@ics.nitech.ac.jp

お送り頂くハードディスクには返送先を同封することをお忘れなきよう
お願いいたします.また,作業はボランティアベースで行っております
ので,多少の遅れが生じ得ることを予めご了承下さい.また,郵送によ
る機器の破損などに関しても責任を負いかねます.

****************************************************************
                            参考文献
****************************************************************

 [1] 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正, "ピク
     セルベースアプローチによるHMMに基づいた唇動画像の生成", 信
     学技報, PRMU99-157, Nov. 1999.

 [2] 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正, "ピク
     セルベースアプローチによるHMMに基づいた唇動画像生成", 電子
     情報通信学会 総合大会講演集, D-12-64, Mar. 2000.

 [3] 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正, "ピク
     セルベースアプローチによるHMMに基づいた唇動画像の生成", 音
     響学会講演集, 1-Q-3, Sep. 2000.

 [4] Shinji Sako, Keiichi Tokuda, Takashi Masuko, Takao
     Kobayashi and Tadashi Kitamura, "HMM-based
     Text-to-audio-visual Speech Synthesis --Image-based
     Approach," ICSLP, vol.III, pp.25--28, Oct. 2000.

 [5] 酒向 慎司, 近藤 重一,徳田 恵一, 益子 貴史, 小林 隆夫, 北村 
     正, "音声と唇動画像によるマルチモーダルデータベースの構築",
     音響学会講演集, 3-P-30, Mar. 2001.

 [6] 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
     "HMMに基づいた視聴覚テキスト音声合成―画像ベースアプローチ―",
     情報処理学会論文誌, vol.43, no.7, pp.2169-2716,2002

 [7] 石川剛, 澤田裕子, 全柄河, 南角吉彦, 宮島千代美, 徳田 恵一, 
     北村 正, "初期統合によるバイモーダル大語彙連続音声認識",
     FIT2002, Sep. 2002.

 [8] 石川剛, 全柄河, 南角吉彦, 宮島千代美, 徳田 恵一, 
     北村 正, "音響尤度のリスコアリングによる結果統合を用いたバ
     イモーダル連続音声認識", 音響学会講演集, Apr. 2003.

 [9] 近藤 重一, 益子 貴史, 徳田 恵一, 小林 隆夫,
     "HMM に基づくテキストからのバイモーダル音声合成に関する検討",
     日本音響学会講演集, 2-P-21, pp.309-310, Mar, 1999.

[10] Masatsune Tamura, Shigekazu Kondo, Takashi Masuko, Takao
     Kobayashi, "Text-to-Audio-Visual Speech Synthesis Based on
     Parameter Generation from HMM, EUROSPEECH, pp.959-962, Sep.
     1999.

****************************************************************
                          貢献者リスト
****************************************************************

小林隆夫       指導(録音・録画)
徳田恵一       指導(キャプチャー,同期,ラベリング)
益子貴史       指導(録音・録画)
酒向 慎司      キャプチャー,同期,ラベリング
近藤 重一      録音・録画