- -25Music Part Detection in Music Television Program on Chroma Vector AnalysisAiko UEMURA, Kyota HIGA, Masumi ISHIKAWA, Toshiyuki NOMURA and Jiro KATTOThis paper describes a method for automatically extracting the music parts from TV music programs by focusing on the correlation of chroma vectors in the time direction. The chroma vectors are used to detect the music parts from music programs for TV viewing support and music information retrieval, such as the cuing of music parts. When we focused on the chromagram, which represents the chroma vector time-series information, the music parts continued in the time direction. In contrast, the non-music parts such as speech and song introduction were discontinuous. Therefore, we extracted the chromagram's continuity in the time direction. We calculated the curvature in eight directions (time and frequency direction) at the peak position of the chromagram in each frame and generated a mask for extracting the con-tinuity. We then applied three types of smoothing filters (median filter, Gaussian filter, bilateral filter) to separate the music and non-music parts. Finally, the music parts were determined by threshold processing. We experimented with a 208-min TV music program in which about half the parts were music. We extracted three types of chroma vectors (CP: chroma pitch-base; CLP: chroma log pitch; CRP: chroma DCT-reduced log pitch) and evaluated the results by the pre-cision, recall, and F-measure. The experimental results demonstrated that our method detected the music segments more accurately and comprehensively than the conventional methods. The results also showed that the combination of CLP and bilateral filter gives the best detection performance.Keywords: chroma vector, music part segmentation, image filterクロマベクトル解析による音楽番組の楽曲パート検出 本論文ではクロマベクトルの時間方向の相関性に着目し、音楽番組から楽曲区間を自動的に抽出する手法を提案する。これは、楽曲部分の頭出しのようなTV視聴支援や音楽情報検索を目的として、音楽番組から楽曲区間を抽出するために、クロマベクトルを利用する。クロマベクトルの時系列情報では、楽曲区間で時間方向に連続して分布し、逆に非楽曲区間(トークや曲紹介など)では不連続になる。本研究ではこの特徴に着目し、時間方向の継続性を抽出・指標化し、閾値処理によって楽曲区間の判別を行った。具体的には、時間周波数表現を行ったクロマベクトルの各フレームのピーク位置において時間方向と周波数方向の計8方向の曲率を算出し、時間方向に緩やかな場合に1、それ以外は0となるマスクを生成する。その上で、画像処理で雑音除去に用いられる3種類の平滑化フィルタ(メディアンフィルタ、ガウシアンフィルタ、バイラテラルフィルタ)を適用し、楽曲区間と非楽曲区間の分離を試みた。実験では、約半分が楽曲区間である208分のテレビ音楽番組を使用し、3種類のクロマベクトル(CP: Chroma Pitch-base、CLP: Chroma Log Pitch、CRP: Chroma DCT-Reduced log Pitch)を算出し、検出結果の適合率、再現率、F値により評価を行った。 提案手法は従来法よりも正確性・網羅性が高く楽曲区間を検出できることを示した。また、クロマベクトルの計算手法として、CLPとバイラテラルフィルタの組み合わせによって最も高い検出性能が得られることも示した。キーワード:クロマベクトル,音楽パート分割, 画像フィルタJournal(掲載誌)IIEEJ Transactions on Image Electronics and Visual Computing, vol.3, no.2, pp.215--223 Oct 2015Published Paper
元のページ ../index.html#27