コロキアムB発表

日時: 12月6日(火)3限(13:30-15:00)


会場: L1

司会: 品川 政太朗
MARTINEZ PEGUERO ARTURO M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 進藤 裕之
title: Reframed text generation
abstract: A glass that is half empty can also be seen as being half full. Carefully-rephrased wording can adjust our frame of reference and shift our point of view of the same fact. In other words, through meaning-preserving text style transfer, a change of perspective can be conveyed. My research seeks to develop a large language model-based text generation system that takes text as input, identifies relevant existing frames, and generates a re-framing of the input with a persuasive, appropriate and context-sensitive rephrasing.
language of the presentation: English
 
芳賀 あかり M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 上垣外 英剛
title: How Can Object Detection Methods Help with Image Captioning?
abstract: Recent image captioning widely uses a model that generates captions by dividing the image into 16x16 patches and encoding them using a transformer. Although such models do not explicitly use object detection, they are known to generate highly accurate captions. In this paper, we survey the use of object detection techniques in recent captioning technologies. As a first step, we investigate the extent to which object detection results are included in manually generated captions.
language of the presentation: Japanese
発表題目: 物体検知技術は画像キャプショニングに役立つか?
発表概要: 最近の画像キャプショニングでは,画像を16x16のパッチに分割し,transformerを用いてエンコードすることでキャプションを生成するモデルや,物体検出の特徴量を利用してキャプションを生成するモデルが研究されている.しかし,これらの研究では物体検出で得られるラベル情報は利用されていない.そこで本研究では,物体検出のラベルを最近のキャプショニング技術に利用することができるのか調査を行う.そのための第一段階として,物体検出結果が人手で作成したキャプションにどの程度含まれているのか調査する.
 
白井 尚登 M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 上垣外 英剛
title: Language knowledge acquired in hidden layer of BERT-based pre-trained Vision and Language models
abstract: The pre-training model BERT has high language processing ability. For this reason, BERT is the mainstream model used as language representation not only in natural language processing but also Vision and Language(V&L), which is a fusion field of language and vision. However, it has not been sufficiently investigated what information the BERT structure acquires during pre-training in V&L models. Therefore, my research investigates how V&L models using the BERT model acquire grammatical knowledge such as part of speech in the hidden layer during pre-training.
language of the presentation: Japanese
発表題目: BERTベースの事前学習済みVision and Languageモデルの隠れ層で獲得される言語知識についての調査研究
発表概要: 事前学習モデルBERTは高い言語処理能力を有し、自然言語処理のタスクだけでなく、言語と視覚の融合分野であるVision and Language(V&L)の分野でも言語表現として使用されることが主流である。しかし、V&LのモデルではBERT構造がどのような情報を事前学習時に獲得しているのか十分に調査されていない。そこで本研究ではBERTモデルを使用したV&Lモデルが事前学習時に隠れ層でどのように品詞などの文法的知識を獲得するのか調査を行う。
 
VASSELLI JUSTIN RAY M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 上垣外 英剛

title: k-Nearest Neighbors Grammatical Error Correction 

abstract: In tasks across natural language processing, from named entity recognition to machine translation, example-based approaches are being used to leverage existing knowledge to improve performance. One such approach uses the k nearest translation examples to improve the results of machine translation systems, but it has yet to show improvements in grammatical error correction (GEC). My research explores how GEC can leverage previously seen grammatically correct language to improve the quality of system corrections.  

language of the presentation: English 

 
SUNG JUNEHWAN M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 大内 啓樹
title: Challenging metalinguistic awareness of pre-trained language models using question sets from International Linguistics Olympiad
abstract: Metalinguistic awareness is the ability to reflect on the nature of language, analyse and generalise implicit rules each language owns. In some universities, students applying for the department of linguistics or modern languages are asked to sit for an aptitude test as part of their entrance exam to test their metalinguistic awareness. The applicants need to discover hidden linguistic rules from a language either extremely less-known or coined just for the examination. Such problem sets are not limited to universities; an international competition called International Linguistics Olympiad (IOL) also adopts the same format for their problem sets. Being eager to find out to what extent language models can cope with a task requiring linguistic reasoning abilities, I aim to solve IOL problem sets using pre-trained language models (PLMs).
language of the presentation: English
発表題目: 国際言語学オリンピックのデータを用いた事前学習済み言語モデルにおけるメタ言語能力の検証
発表概要: メタ言語能力とは、言語の本質を考察し、各言語に内在された規則を分析及び一般化できる能力のことを指す。大学の中では、言語学や外国語専攻を志望する受験生に、言語を構造的に理解できるかを判断するための適性テストを求める大学もある。テストでは、殆ど知られていない少数言語やこのテストのために特別に作られた言語で書いてある複数の文章から、当該言語の言語規則を見出だせる能力が試される。このような問題形式は大学のみならず、国際言語学オリンピック(IOL)と呼ばれる国際大会でも採択されている。この研究では、近年、様々な自然言語処理の下流タスクにおいて成果を収めている言語モデルが、言語学的推論力を求められるタスクにおいては如何に性能を発揮できるかを試したく、事前学習済み言語モデル(PLM)を用いてIOLで問題文を解く実験を行う。
 
濱田 裕太 M, 1回目発表 知能コミュニケーション 中村 哲, 渡辺 太郎, 品川 政太朗
title: Structure-aware Text-to-Image using Scene Graphs Similarity
abstract: Recent Text-to-Image models have difficulty controlling relationships when generating complex scenes. Therefore, my research attempts to solve the problem by proposing a method that incorporates scene graph similarity. Scene graph similarity is for taking into account the relationships between objects. Specifically, a scene graph is generated from each of input sentences and output images. Next, I calculate the similarity between the input and output graphs. I measure the fidelity of the output image to the input sentence by the above approach. In this presentation, as a preliminary experiment, I report the results of scene graph generation from input sentences and output images. And I describe scene graphs in Text-to-Image.
language of the presentation: Japanese
発表題目: シーングラフ類似度により空間的構造を考慮したText-to-Image
発表概要: 近年の自然言語を入力とした画像生成モデルは、複雑なシーンを生成する場合に関係性の制御が困難である。そこで本研究では、物体間の関係を考慮するため、シーングラフ類似度を取り入れた手法を提案することで問題の解決を試みる。具体的には、入力文と出力画像のそれぞれからシーングラフを生成する。次に生成された入出力グラフ間の類似度を算出することで、入力文に対する出力画像の忠実度を測る。本発表では、予備実験として入力文や出力画像からのシーングラフ生成を行なった結果について報告し、Text-to-Imageにおけるシーングラフについて述べる。
 

会場: L2

司会: 鶴峯 義久
山﨑 康之介 M, 1回目発表 ソーシャル・コンピューティング/ロボット対話知能 荒牧 英治, 吉野 幸一郎(客員教授), 湯口 彰重(客員助教)
title: Toward Reflective Action Selection for a Domestic Robot Based on Commonsense Reasoning
abstract: Dialogue robots must take appropriate and reflective actions even if the user utterances observed in a daily-life situation are ambiguous. In this study, we focus on using commonsense reasoning to realize reflective action selection given ambiguous user utterances. The system uses the commonsense reasoner COMET, a knowledge inference model that can generate if-then relations, to expand potential pathways to possible robot actions.
language of the presentation: Japanese
発表題目: 常識推論に基づく気の利いた家庭内ロボットの行動選択に向けて
発表概要: 対話ロボット・システムに対するユーザの発話はしばしば曖昧であり、必ずしも明示的な要求ではない。こうしたケースでも、対話ロボットやシステムは何らかのユーザ補助タスクを行うことが期待される場合がある。例えば、ユーザが食事を食べ終えて「ごちそうさまでした」と発話した場合、潜在的には「ダイニングテーブルに置かれたケチャップを片付ける」などの行動が期待される。システムがこうした気の利いた行動・発話を行おうとする場合、何らかの常識推論が必要である。そこで本研究では、近年自然言語処理の分野で盛んに研究されている知識推論モデルによって、曖昧なユーザ発話を入力した場合にロボットが行うべき行動を推論過程付きで説明するモデルを構築する。具体的には、行動に対してif-then関係を生成することができる知識推論モデルCOMETを再帰的に用い、こうした気の利いた行動選択結果と行動選択の推論過程を示すことができるシステムを構築する。
 
ZHAO BOHONG M, 1回目発表 生体医用画像 佐藤 嘉伸, 加藤 博一, 大竹 義人, SOUFI MAZEN
title: Development of a System for Preoperative Planning and Intraoperative Image-guidance for Forearm Fracture Reduction Surgery
abstract: We are developing a Image-guided system for forearm fracture reduction surgery. In the preoperative stage, the system acquires segmentation of fragment bones from the CT image. And in the intraoperative stage, the fragments 3D information is registered to intraop X-ray image, then the fragments' spatial relationship between the position of current and preop's will be calculated. After visualize it, surgeons can better control the process of the operation.
language of the presentation: English
 
ZHANG WEIQI M, 1回目発表 生体医用画像 佐藤 嘉伸, 加藤 博一, 大竹 義人, SOUFI MAZEN

title: *** Extrapolation of Partial X-ray Image for Prediction of Whole Body Musculoskeletal Structure *** 

abstract: *** Osteoporosis is diagnosed according to bone mineral density, BMD. X-ray imaging (especially chest X-ray) is the most common radiological imaging examination broadly covering many asymptomatic patients. We develop a model framework which combines the style transfer model and the extrapolation model, to solve the problem of extrapolation of chest X-ray images. We conducted an extrapolation experiment and a BMD prediction experiment through our pipline. we achieved the PCC of 0.534, which demonstrates the effectiveness of our method. And our experimental results demonstrated the high clinical potential of analyzing missing regions using the proposed method. Lastly, our current progress and organized datasets are introduced shortly. *** 

language of the presentation: *** English *** 

 
冨木田 悠生 M, 1回目発表 生体医用画像 佐藤 嘉伸, 和田 隆広, 大竹 義人, SOUFI MAZEN
title:Prediction of individual patient's whole lower limb musculoskeletal shape using multiple panoramic tomography with ultrasound and statistical shape model fitting
abstract:Ultrasound imaging is a suitable modality for muscle analysis because it is noninvasive, quick, and can acquire high resolution images over a short period of time. However, the imaging range is limited and three-dimensional analysis is difficult. Therefore, the objective of this study is to predict the musculoskeletal shape of the entire lower limb using multiple panoramic ultrasound cross sections of the lower limb. Specifically, multiple panoramic ultrasound cross sections are captured using motion capture to obtain the panoramic cross sections and their corresponding positional information. For the prediction of musculoskeletal shape, a statistical shape model is constructed using the CT database, and by using the constructed model and the acquired data, the shape of the musculoskeleton is predicted. This method allows us to evaluate the accuracy of the estimation of the panoramic images. This method makes it possible to obtain a wide range of musculoskeletal geometry by simply acquiring multiple panoramic ultrasound images.
language of the presentation: Japanese
発表題目: 超音波による複数パノラマ断層撮影と統計形状モデルフィッティングを用いた患者個別下肢全体筋骨格形状の予測
発表概要:超音波画像診断装置は,非侵襲・短時間で撮影可能であり高時間高分解能な画像が取得できるため,筋肉の解析に適したモダリティである.しかし,撮影範囲には制限があり,3次元的な解析が困難である.そこで本研究では下肢を撮像した複数のパノラマ超音波断面を用いて,下肢全体の筋骨格の形状を予測することを目的とする.具体的には,パノラマ超音波の複数断面の撮像には,モーションキャプチャーを用いて,パノラマ断面とそれに対応する位置情報を取得する.筋骨格の形状予測には,CTデータベースを用いて統計形状モデルを構築し,構築したモデルと取得したデータを用いることで,筋骨格の形状を予測し,推定精度を求めるため,1人の被験者から得られた同一箇所の3次元MRI画像と複数の超音波パノラマ断面を用いて,定量的な評価を行う.この手法により,パノラマ超音波画像を複数取得するだけで,広範囲の筋骨格形状を取得することが可能となる.