2008.1.6-11 インド・ハイデラバード
The Third International Joint Conference on Natural Language Processing (IJCNLP08)
自然言語処理学講座: 博士後期課程3年


Aiming at acquiring semantic relations between events from a large corpus, this paper proposes several extensions to a state-of-the-art method originally designed for entity relation extraction, reporting on the present results of our experiments on a Japanese Web corpus. The results show that (a) there are indeed specific cooccurrence patterns useful for event relation acquisition, (b) the use of cooccurrence samples involving verbal nouns has positive impacts on both recall and precision, and (c) over five thousand relation instances are acquired from a 500M-sentence Web corpus with a precision of about 66% for action-effect relations.

著名な研究者による講演を楽しみにしていたが、それほどのインパクトはなかった。 ポスターセッションの"A re-examination of dependency path kernels for relation extraction"は私の研究に応用できそうな内容だった。手法はよいが 結果は悪かった。そのため、私の問題に応用するのは難しそうだった。また、 もっとシンプルな手法でも良い成果を挙げられるとの報告があるので、彼の問 題にこの手法が有効なのかは疑問であった。いくつか問題があるにせよ、面白 い研究を知ることができたので満足しました。

自然言語処理学講座: 博士前期課程2年


In our paper, we first categorize Chinese synthetic words into several types according to their inside semantic and syntactic structure, and then propose a method to represent these inside information of word by applying a tree-based structure. Then we try to automatically identify the inner morphological structure of 3-character synthetic words by using a large corpus and try to add syntactic tags to their internal structure. We believe that this tree-based word internal information could be useful in specifying a Chinese synthetic word segmentation standard.

It was a high level conference which had a lot of interesting papers and demos. Here are some of the papers that I felt interested on them. “Automatic rule acquisition for Chinese intra-chunk relations, Qiang Zhou, Tsinghua University, Beijing” This paper proposed a approach to automatically extract rules from Chinese word chunks which are the same target with our own research. However, it chosen a different way to analysis the internal structure of Chinese words which is quite useful to our research. “An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework, Hai Zhao and Chunyu Kit” This paper compared goodness measures for unsupervised Chinese word segmentation, The result shows the system that use character based method has the best performance until now. And the authors proposed their own method using CRF rather than any other machine learning method and gain a better result at last.


I had a discussion with Prof. Qiang Zhou, who comes from Tsinghua University, on what is the best way to categories the internal structure of Chinese synthetic words. And I gained his permission on using their corpus for our own research on Chinese synthetic words.
自然言語処理学講座: 博士後期課程3年


"GenericText Summarization using Probabilistic Latent Semantic Indexing"というテーマでの発表。テキストの要約についての発表でした。テキスト要約のために「Probabilistic Latent Semantic Indexing」という技術利用した。ほかのいろいろ な技術に比べたらこの方法によってもっと優れた結果が出された。

アールビンド・ジョーシー教授の発表:アールビンド・ジョーシー教授は50年前から自然言語処理の研究をやってきている人で自然言語処理の分野ではよく知られています。今 回は「Penn Discourse Treebank:Complexity of Dependencies at The Discourse Level and at the Sentence Level」というテーマで発表しました。この発表では主に「Penn Discourse Treebank」というコーパス(データセット)についての説明がありました。こ のコーパスに会話構造の情報を含んでいます。このコーパスは情報抽出、テキスト要約、機械翻訳などの分野の研究を目標にして作られている。 これは非常に大きなプロジェクトで最終的にコーパスを2008年2月ごろに公開する 予定があるのでこれの元にまた世界中でいろいろな研究ができるので大感謝の気持ちがあ りました。自分の研究分野も情報抽出とテキスト要約なので個人的にも興味のある発表で した。

IJCNLP 2008会議では世界中の研究者が集まってい ましたのでいろいろ交流ができました。発表者だけではなくて本会議を開催するIIIT-H (International lnstitute of lnformation Technology-Hyderabad)という大学からも大勢のひとが参加していましたのでいろいろ話ができました。特に形態語解析の研究している多くの人と交流ができました。自分の研究室が日本語のために形態語解析のために非常に優れたツールが公開しているのでいろいろ質問がありました。日本から行く人の数が多か ったので日本についてみんなの興味も高かったと思います。