言語処理学会 第6回 年次大会併設ワークショップ
「情報抽出 −現状と今後の展望−」開催案内
□ 併設ワークショッププログラム
□ デモンストレーションの参加募集
□ 併設ワークショップの交通と宿泊について
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
□ 併設ワークショッププログラムのお知らせ
言語処理学会第6回年次大会 併設ワークショッププログラム
「情報抽出 −現状と今後の展望−」
開催期日: 2000年3月10日(金)
会場: 北陸先端科学技術大学院大学
開催趣旨:
現在,大量の電子化テキストが利用可能となる中で,その内容の処理を行う技術で
ある情報抽出技術に対する必要性が増している.情報抽出技術は,これまでMUCを中
心にさまざまな研究が行われてきており,日本でもIREXにおいてNEタスクの評価が行
われた.そこでは,学習型やパターン記述型,また,その融合型などのさまざまなア
プローチが取られ,固有表現の抽出について多くの研究が報告された.本ワーク
ショップは,情報抽出技術のこれまでの進展を踏まえて,固有表現抽出技術の他分野
への適用とチューニングの限界,また,固有表現抽出技術を利用した応用など,今後
の抽出技術の展望を得ることを目的とする.
プログラム:
○ セッション1 座長:桝井 文人(沖電気)10:00〜12:00
(1)最大エントロピーモデルと書き換え規則に基づく固有表現抽出とその評価
内元 清貴,馬 青,村田 真樹,小作 浩美,井佐原 均(通信総研)
IREX固有表現抽出タスク(IREX−NE)の定義に基づくと,固有表現には一
つあるいは複数の形態素からなるもの,形態素単位より短い部分文字列を含むものの
2種類がある.複数の形態素からなる固有表現は,固有表現の始まり,中間,終りな
どを表すラベルを40個用意し,各々の形態素に対し付与すべきラベルを推定するこ
とによって抽出する.一方,形態素単位より短い部分文字列を含む固有表現は,最大
トンロピーモデルを用いてラベルを決めた後に書き換え規則を適用することによって
抽出する.本発表では,IREX−NE本試験に用いられたデータに対し我々の手法
を適用した結果を示し,さらにいくつかの比較実験から書き換え規則と精度,素性と
精度,学習コーパスの量と精度の関係などを明らかにする.
(2)表現抽出を行なう有限状態変換器の実現法
佐々木 裕(NTTコミュニケーション科学基礎研究所)
本発表では,自然言語文書から表現抽出を行なう有限状態変換器(FST)を実現す
る方法を述べる.FSTは入力記号に対して出力記号を出しながら状態遷移するオー
トマトンである.ここでは固有表現の抽出を対象とするが,FSTは一般の表現抽出
の高速化法として利用できる.具体的には,文書の形態素解析結果を入力とし,固有
表現タグを付与した結果を出力するFSTを実現する.FSTは手書きの抽出パター
ンから自動的に構成される.昨年のIREXワークショップにおける発表ではFST
がPerlの置換により実装されていたが,本発表では状態と入出力の記号の表からなる
FSTにより固有表現抽出を実現した結果について述べる.
(3)固有表現抽出技術の難易度に関する分析
野畑 周(東京大学),関根 聡(ニューヨーク大学),辻井 潤一(東京大学)
本論文では,固有表現抽出技術の難易度をテストコーパスから評価する指標を提案す
る.固有表現抽出システムの性能は客観的な指標によって評価される.しかし,シス
テムの出力に対する評価だけでは,あるコーパスに対する固有表現抽出がどのように
難しいのか,どのような情報がそのコーパスに対して固有表現抽出を行なう際に有効
なのかを知ることは難しい.本論文で提案する指標は,個々のシステムの出力に依存
することなく,複数のコーパスについて統一的に適用できる.指標の有効性は固有表
現抽出システムの性能評価と比較することで検証される.さらに固有表現のクラス間
における難易度の比較や,有用な情報の違いについても議論する.
(4)IREX−NEと結果の分析
関根 聡(ニューヨーク大学),江里口 善生(NTTデータ)
固有表現抽出と情報検索を課題としてコンテスト形式で行なわれたプロジェクト
IREXの固有表現抽出の部分について説明する.固有表現抽出は組織名,人名,地
名,固有物名,時間表現,数値表現を新聞記事から抽出するという課題であり,全部
で15チームの参加があった.特に,課題の定義についての問題点を紹介し,結果の
分析を報告する.参加システムには人手でルールを作成したもの,ルールを自動的に
獲得したもの,完全に自動的に学習を行なったシステムなど種類に富んだシステムが
あり,それらの比較分析を行なう.また,本試験では分野限定と総合分野の二種類の
試験を行なったので,分野依存性についての分析も行なう.
○ 昼食 12:00〜13:00
○ デモンストレーション 13:00〜14:00
お昼の休憩に引き続いてデモンストレーションの時間を設定します.
○ セッション2 座長:内元 清貴(通信総研)14:00〜16:00
(5)質問応答システムを用いた情報抽出
村田 真樹,内山 将夫,井佐原 均(通信総研)
チューリングテストに合格するような質問応答システムさえあれば,そのシステムに
世界中のありとあらゆる情報を与えておくことで,情報抽出の問題は全て解決する.
我々はこのようなシステムの開発に向けて,分野依存性,人手依存性のない試作シス
テムをすでに作成している.しかし,不十分な点は多く今後の言語処理技術の発展を
期待するところが大きい.本稿ではこの試作システムを用いたいくつかの情報抽出事
例を提示しつつ,今後の言語処理において必要となる技術を列挙する.
(6)抽出情報の実体あいまい性の解消
西野 文人,落谷 亮(富士通研)
新聞記事などのテキスト中の人物や企業の記述に対して,同一人物・組織体の記述だ
けを取り出したり,あるいは人物データベースや企業データベースとの連携などが望
まれている.しかし,同姓同名人物や同一名企業の存在により,単にテキスト中の人
名や組織名を抽出するだけでは不十分であり,これらの抽出情報に対して実体の特定
(実体あいまい性の解消)が必要になる.本発表では,人物名や組織名の周辺に記述
されている属性情報,あるいは記述されなかった情報を利用して,実体のあいまい性
を解消する手法を紹介し,新聞記事を対象とした実験結果を示す.
(7)テキストからのスケジュール情報の抽出と自動通知
池田 崇博,奥村 明俊(NEC)
電子メイル等で通知される会議開催通知等のスケジュール情報は,テキスト中に自由
形式で記述されているために,後からその開催日時等をキーにして検索することが難
しい.そこで,電子メイル等のテキストにさまざまな形式で書かれたスケジュール情
報を自動的に抽出し,適切なタイミングで利用者に通知する.このとき,スケジュー
ル情報として不可欠な日付表現に着目してテキスト中のスケジュール情報を判別し
,その近傍から,イベントのタイトル・開催日・開催時間・開催場所をパターンマッ
チングによりロバストに抽出する.各スケジュールごとにこれらの情報を抽出するこ
とにより,スケジュール管理ソフトへの登録も支援する.
(8)製品情報からの情報抽出
桝井 文人,福本 淳一(沖電気)
本稿では,製品紹介テキストから製品に関する重要語を抽出し,一覧として提示する
システムについて報告する.まず,製品紹介テキストに対して固有名抽出処理を行
い,一覧の提示に必要な重要語抽出を行う.その後,テキスト中に記載されている
「発売した」「販売する」などの製品の動向を示す特徴表現を利用して抽出された重
要語間の関連情報を統合する.このとき,さらにいくつかのヒューリスティックスを
利用して,付加的な属性情報の認識を行うことで,製品紹介情報を一覧化する際に生
じる曖昧性解消を行う.上記の一連処理を行うことによって,同種の製品紹介テキス
トの情報を注目する項目ごとに統合し,一覧として簡潔に提示することが可能とな
る.
○ パネルディスカッション 16:15〜17:45
「情報検索と情報抽出の融合」
コーディネータ 増山 繁(豊橋技科大)
パネラー 森 辰則(横浜国大),奥村 明俊(NEC)
松井 くにお(富士通研),野口 直彦(松下電器)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
□ デモンストレーションシステムの参加募集
併設ワークショップにおきまして,お昼の休憩に引き続いてデモンストレーションの時間(1時間)を設定いたします.ワークショップ参加者の皆様方の中で情報抽出,情報検索に関するシステムのデモを行いたいという方がいらっしゃいましたら,氏名,所属,システム名称,デモ形態,ポスターの有無等,下記の連絡先までお知らせください.申込みの〆切は2月末といたします.
まお,デモの形態につきましては,ワークショップの会場もしくは別の部屋を準備し,説明のポスター用の掲示板につきましては必要な方がいらっしゃいましたら準備いたします.なお,マシンにつきましては各自でご用意ください.準備の関係上,ノートパソコン等でのデモンストレーションを希望いたしますが,それ以外の場合はご相談させて頂きます.
疑問点などは,以下の問い合わせ先にお願いいたします.(e-mail によるお問い合わせを歓迎します.)
沖電気工業(株)研究開発本部 情報サービスシステムラボラトリ
〒540-6025 大阪市中央区城見1-2-27クリスタルタワー
tel. 06-6949-5101 fax. 06-6949-5108
福本 淳一 (fukumoto@kansai.oki.co.jp) または
桝井 文人 (masui@kansai.oki.co.jp)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
□ 併設ワークショップの交通と宿泊について (実行委員会からのお知らせ)
☆宿泊につきましては旅館「まつさき」を予定しておりますが,会議の開催は
北陸先端大で行いますのでご注意ください.
併設ワークショップの前後の宿泊は実行委員の方でまとめて予約しますので,
宿泊を希望される方は福本(fukumoto@kansai.oki.co.jp)までお知らせください.
費用は1泊2食で1万円+α(税別)です.+αの部分はお酒代になります.
宿泊希望の〆切は2月25日です.
注)併設ワークショップの参加申込みは事前登録申込書を学会センターに
お送りください.こちらは*宿泊のみ*の申込みですのでご注意ください.
☆ 「まつさき」から北陸先端大(ワークショップ会場)までの交通について
「まつさき」と北陸先端大までの旅館の方に送迎(無料)をお願いしております.
なお,スケジュールは以下の通りを予定しております.
9日 北陸先端大 16:50 発 -> 「まつさき」
10日 「まつさき」 9:30 発 -> 北陸先端大
10日 北陸先端大 17:30 発 -> 「まつさき」
11日 「まつさき」 9:30 発 -> 小松空港もしくはJR小松駅
時刻表,バスの発着場所の情報は別途お送り致します.
また,http://galaga.jaist.ac.jp:8000/NLP2000/ でもご案内します.
11日朝の送迎先は小松空港もしくは小松駅をお願いしようと思います.
どちらを希望されるかも宿泊申込みの際に明記下さい.
なお,宿泊場所として「まつさき」をご利用されない方は北陸先端大と
最寄り駅(鶴来)との間にの大学のマイクロバスがありますので,
こちらをご利用ください.
-----------------------------------------------
宿泊申込み先および問い合わせ先:
〒540-6025 大阪市中央区城見1-2-27 クリスタルタワー25F
沖電気工業(株)研究開発本部 情報サービスシステムラボラトリ
福本 淳一
電話 06-6949-5101 FAX 06-6949-5108
電子メール fukumoto@kansai.oki.co.jp
宿泊希望 9日宿泊 (禁煙,喫煙)
10日宿泊 (禁煙,喫煙)
11日の送迎先 (小松空港,JR小松駅)
-----------------------------------------------