コロキアムB発表

日時: 12月10日(金)3限(13:30~15:00)


会場: L1

司会: 原 崇徳
西山 智弘 M, 1回目発表 ソーシャル・コンピューティング 荒牧 英治, 渡辺 太郎, 若宮 翔子, 矢田 竣太郎

title: MediA Corpus: Inapropriate Understanding of Medicines in Social Media 

abstract: Medication non-adherence causes extreme high losses relating to health problems. Adherence assessment is important for patients' health maintenance, and the use of social media for this assessment has attracted attention. Existing studies have focused only on medication behaviors of statements, and have not included statements about understanding of medications or intentions to take medications. Evaluation of inappropriate understanding and intentions that may cause non-adherence may be useful for predicting and assessing adherence. In this study, we aimed to categorize statements in social media, including those suggesting the understanding and intentions. In the presentation, we will discuss the developed guidelines, the corpus and its evaluation. 

language of the presentation: Japanese 

発表題目: MediA コーパス:ソーシャルメディアにおける医薬品に関する不適切な認識 

発表概要: 服薬アドヒアランスの欠如による健康被害による損失は極めて大きい.アドヒアランス評価は患者の健康維持に重要であり,その評価にソーシャルメディアを活用することが注目を集めている.既存の研究では発言中の服薬行動にのみ焦点が当たり,医薬品に対する認識や服薬行動の意志に関する発言まで含めた研究例はない.アドヒアランス欠如を引き起こす可能性のある不適切な認識や意志に関する評価をすることはアドヒアランスの予測や評価だけでなく,医薬品安全性情報の収集に役立つ可能性がある.本研究ではソーシャルメディア中の上述の認識・意思を示唆する発言を含めて,発言を分類することを目指した.発表では,作成したガイドライン,コーパスおよびその評価に関して言及する. 

 
五藤 巧 M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 進藤 裕之
title: Investigating effects of Generative Adversarial Network for Grammatical Error Correction
abstract: Grammatical Error Correction (GEC) is a task that automatically corrects sentences that contain errors to correct sentences. Generative Adversarial Network (GAN) is a learning method in which two mechanisms, Generator and Discriminator, interact with each other. In particular, in the context of GEC tasks, GAN can be utilized by considering the Generator as an error corrector and the Discriminator as an evaluator of the corrected sentence. However, there are few studies on methods that incorporate GANs, and their impact has not been fully discussed. In this study, we investigate how the learning process of error correction models with GANs improves the correction performance and how the Discriminator behaves as an evaluator. In this presentation, we describe our plan.
language of the presentation: Japanese
発表題目: 文法誤り訂正における敵対的学習の影響の調査
発表概要: 文法誤り訂正は,誤りを含む文を正しい文に自動で訂正するタスクである.また,Generative Adversarial Network(GAN)はGeneratorとDiscriminatorの2つの機構が相互に影響することで学習を行う手法である.特に文法誤り訂正タスクの文脈では,Generatorを誤り訂正器,Discriminatorを訂正文の評価器とみなすことでGANを活用することができる.一方で,このような方法で学習を行う先行研究は少なく,GANを取り入れる利点は十分に議論されていない.本研究では,誤り訂正モデルの学習プロセスにGANを取り入れることで,訂正性能がどのように向上するか,またDiscriminatorが評価器としてどのような振る舞いをするかを調査する.また発表では,その方針を述べる.
 
PAN YUE M, 1回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 大内 啓樹
title: Exploring Document-Level Simplification Metric Enhanced with Sentence Alignment
abstract: Text simplification is to simplify the original text to a more understandable text while keeping the primary meaning of the original text unchanged. It provides more accessible text to non-native speakers, non-expert readers, and children. However, current research is limited to sentence simplification. In addition, there was no evaluation metric for document-level simplification until D-SARI was proposed in October 2021. Yet, the D-SARI does not correctly reflect the simplification performance in some situations. The accuracy of D-SARI can be increased by using sentence alignment, which is crucial for the subsequent development of document-level simplification.
language of the presentation: English
発表題目: 文アライメント情報を利用したドキュメントレベル平易化の評価指標の考察
発表概要: テキストの平易化とはテキストの意味を保持しつつ、難解な文法や語彙を平易に変換する言い換え生成するタスクの一種である。専門知識を持っていない人、外国人や子供にも理解しやすいようなテキストに直すなど、いろんな応用場面がある。しかし、文(sentence)に対する平易化の研究が多いだが、文章(document)レベルに対する平易化に関する研究がまだ多くない。今年の10月、初めてのドキュメントレベルにおいての平易化自動評価尺度「D-SARI」が提案されたが、D-SARIは場合によっては出力文の読みさすさを正しく反映していないことがある。D-SARIの精度を上げるため、文のアラインメント情報を考慮した上の評価方法改善が必要であり、今後のドキュメントレベルの平易化の研究には不可欠である。
 
鳥羽 望海 M, 1回目発表 ユビキタスコンピューティングシステム 安本 慶一, 中村 哲, 諏訪 博彦, 藤本 まなと
title: Examination of Work Attitude Estimation using Online Meeting Services
abstract: In this study, we research for a Work Attitude estimation method which can construct and evaluate emotion estimation models by machine learning algorithms using multimodal data extracted from group discussion data with annotations on others' statements. Knowing the psychological state of workers contributes to manage organization soundly by allowing supervisors and industrial physicians to understand workers' malfunctions in advance; on the other hand, the recent COVID-19 has made it difficult to understand the psychological state of workers onsite as workers are increasingly teleworking. In this study, we focus on an online meeting service, which has advantages in cost, time, and effort reduction, and develop a method to estimate Work Attitude using video and audio obtained from online meetings. The approach is to have participants engage in a group discussion using the online meeting service, and then estimate the participants' states by sensing various data such as video and heartbeat. We set participants' heartbeats, emotinal positive-negative polarity obtained from the remarks, facial landmark coordinates, and emotinonal annotations from others as explanatory variables, and emotional annotations to others as an objective variable, and analyzed the data with Light GBM. We found that there were differences among the participants in terms of mean absolute percentage error (MAPE, the best is 20.05%, while the worst is 60.38%), which means that there is room for consideration concerning an analysis method.
language of the presentation: Japanese
発表題目: オンラインミーティングサービスにおけるWork Attitude推定手法の検討
本研究では,他者の発言に対するアノテーション付きグループディスカッションデータから抽出したマルチモーダルデータを用いて,感情推定モデルを複数の機械学習アルゴリズムにより構築・評価可能なWork Attitude推定手法について検討する.労働者の心理状態を知ることは,労働者の不調を上司や産業医が事前に把握し,健全な組織運営をすることに貢献する.一方で,昨今のCOVID-19の影響で,労働者のテレワークが進み,オフラインにおける労働者の心理状態の把握ができにくくなった.私たちは費用と労力,感染リスクを減らせるメリットがあるオンラインミーティングサービスに着目し,オンラインミーティングで得られる動画や音声を用いて労働者のWork Attitudeを推定する手法を検討するに至った.オンラインミーティングサービスを用いてグループディスカッションを被験者にしてもらい,そこから映像,心拍など様々なデータをセンシングして参加者の状態を推定する.グループディスカッション中の参加者の心拍,発言録から得られた感情極性,顔のランドマーク座標,他者からの感情アノテーションの4種類の指標から,他者への感情アノテーションを推定するためにLight GBMによるベースラインの解析を行った結果,平均絶対パーセント誤差に関して最良で20.05%、最悪で60.38%と被験者ごとにばらつきがあり,解析手法に検討の余地があることがわかった.
 
DE LEON AGUILAR SERGIO M, 1回目発表 ユビキタスコンピューティングシステム 安本 慶一, 向川 康博, 諏訪 博彦, 松田 裕貴

title: Increasing Participation in Civil Defense Activities: AR Assisted Preparedness Guidelines *** 

abstract: Civil Defense are government led programs that intend to prepare citizens against natural or man-made disasters. Media targeting the general public are created for these programs, in particular, guidelines with easy to understand language and graphical instructions. Regardless, as noted by a survey made during this research, many people do not know them, read them or follow them; considering them to be relatively hard to follow. Research in educational and industrial contexts has found Augmented Reality (AR) applications to be more engaging, help to understand topics better and reduce mistakes during instruction guidance. To increase the general public participation in Civil Defense and produce better results while following these documents, this study proposes an AR application based on an open database of guidelines. The database will collect several public disaster prevention guidelines; it will offer to the responsible parties an interface for easy submission and update; and it will provide to the community an agnostic public API from which more research can build upon. The Application will provide a more engaging experience through gamification elements; real time object detection via Machine Learning powered object detection; and it will be easier to follow through a simple checklist interface. This will be done under the restrictions of commercial smartphone platforms. Within these restrictions a performance comparison will be made between AR technology and traditional paper-based guidelines that lack coverage in research, outside industrial and educational applications. Furthermore, this approach targets the general public, from young to elderly people, a difficult range for Applications to satisfy. In this presentation we will present the survey results; open guideline database contribution; the system design and the technical limitations it is facing. 

language of the presentation: English  

 
濱田 雅大 M, 1回目発表 サイバーレジリエンス構成学 門林 雄基, 安本 慶一, 荒牧 英治, 妙中 雄三
title: A Study on Recommender Method for privacy-preserving and Diversity
abstract: In recent research on recommendation systems, novelty has been proposed as a new quality indicator as well as accuracy. Diverse recommendations require a large amount of user data is required, but the implementation of GDPR in 2018 makes data collection difficult. Therefore, in this research, I propose a framework for making diverse recommendations while protecting privacy.
language of the presentation: Japanese
発表題目: プライバシを保護した多様な推薦手法の提案
発表概要: 近年の推薦システムの研究では、精度だけでなく、新たな品質の指標として多様性を提案している。多様な推薦には 多くのユーザデータが必要であるが、2018年にGDPRが施行されたことにより、データ収集が難化した。そのためプライバシを 保護しながら、多様な推薦を行うフレームワークが必要とされる。本研究ではデータを集約せずに機械学習を行う Federated-Learningと、implicit feedbackから推薦を行うことができるBPRを拡張し、新たに多様性推薦のためのフレームワークを提案する。
 

会場: L2

司会: 佐藤 勇起
井原 輝人 M, 1回目発表 ソフトウェア設計学 飯田 元 松本 健一, 市川 昊平, 高橋 慧智, 平尾俊貴(特任助教)
title: Automating Code Review Based on Source Code Structures
abstract: Code review is indispensable in recent software development. Code reviews help to find bugs, improve the skills of contributors, and build a common understanding among reviewers and contributors. Rosalia et al. attempted to reduce the cost by automating part of the code review process. Although they were able to confirm results in a limited environment, issues remained in terms of generalizability and accuracy. In this research, we aim to solve these issues. We will try to solve these problems by applying classification models and introducing a learning method based on AST trees.
language of the presentation: Japanese
発表題目: ソースコードの文構造に着目したコードレビュー自動化モデルの提案
発表概要: 近年のソフトウェア開発においてコードレビューはなくてはならないものである。コードレビューを実施することで、バグの発見、コントリビューターの技術向上、レビュアー、コントリビューター間での共通認識の構築につながる。ただし、コードレビューはその回数の多さや、専門性の高さといった理由から実施コストが高い。Rosaliaらはコードレビューの一部を自動化することでコスト削減を試みた。その結果、限定的な環境で成果が確認できたものの、汎化性、精度の点で課題が残った。本研究ではそれら課題を解決することを目的とする。手法として分類モデルの適用、AST木をベースとした学習手法の導入を行うことで解決を試みる。
 
AKTER MOST ATIKA M, 1回目発表 計算システムズ生物学 金谷 重彦, 松本 健一, 小野 直亮, MD.ALTAF-UL-AMIN, 黄 銘

title: Drug repurposing for inflammatory bowel disease (IBD) based on bipartite relations between drugs and IBD related genes and microRNAs 

abstract: Drug repurposing, which treats new/other diseases using existing drugs, has become a much admired tactic. It can also be referred to as the re-investigation of the existing drugs that failed to indicate the usefulness for the new diseases. In this work, we mainly focus on finding inflammatory bowel disease (IBD) associated drugs by biclustering the drug-target interactions aided by known IBD risk genes. Our proposed method will be helpful to understand the mechanisms of the way the drugs will work.  

language of the presentation: English 

 
村田 友真 M, 1回目発表 計算システムズ生物学 金谷 重彦, 松本 健一, 小野 直亮, MD.ALTAF-UL-AMIN, 黄 銘

title: Building a Regression Model of Ligand-Protein Interaction Using Deep Learning 

abstract: SARS-CoV-2 is the causative virus of COVID-19, and drugs against this virus are needed as soon as possible. In this study, we conducted a pre-training for future studies based on the open data of ligand-3CL interaction from NIH.

language of the presentation: Japanese

研究題目: 深層学習を用いたリガンド-プロテイン相互作用の回帰モデルの構築

研究概要: COVID-19(新型コロナウイルス感染症)は21世紀で最もインパクトのあるウイルス性感染症である。SARS-CoV-2COVID-19の原因ウイルスであり、このウイルスに対する薬が一刻も早く必要となっている。本研究ではNIHのリガンド-3CL相互作用のオープンデータを元に、今後の研究のための事前学習を行なった。

 
下元 悠我 M, 1回目発表 生体医用画像 佐藤 嘉伸, 金谷 重彦, 大竹 義人, Soufi Mazen, 上村 圭亮
title:Construction of a Statistical Model of Whole Body Skeletal Shape and Arrangement Using a Large-Scale CT Image Database
abstract:Statistical shape models (SSMs), which are based on statistical analysis of shape data of organs of multiple people, are used in various researches. For example, in the medical field, statistical shape models of the skeletons of men and women are used to analyze the differences in shape between men and women, and in the computer vision field, they are used for research on 3D reconstruction and motion analysis from moving images. In the field of computer vision, it has been used for research on 3D reconstruction and motion analysis from moving images. However, the number of data in the previous research was about 100 cases, and it was inadequate as a statistical model because it could not represent various shapes due to the fact that the effects of bias in the data such as age and gender were largely reflected in the shapes. In addition, previous studies have only focused on limited parts of the body, such as some bones and organs. In this study, we will build a statistical model for the whole body skeleton using the J-MID database collected by the Japanese Society of Radiology and a large-scale CT database of more than 40,000 cases collected at a joint research facility, and investigate the relationship between the number of training data and performance evaluation values (generalization performance, specificity, and compactness).
language of the presentation:Japanese
発表題目:大規模CT画像データベースを用いた全身の骨格形状および配列の統計モデル構築
発表概要:複数人の臓器の形状データを統計的に解析した統計形状モデル(SSM)は様々な研究に用いられている。例えば、医療分野では男女それぞれの骨格の統計形状モデルを作成することで、男女間での形状の違いを解析したり、コンピュータビジョン分野では動画像からの三次元復元・動作解析の研究に利用されている。しかし、従来研究ではデータ数が100症例程度であり、年齢や性別などのデータの偏りによる影響が大きく形状に現れてしまうことで多様な形状表現が出来ず、統計モデルとしては不十分であった。また、今までの研究では一部の骨や臓器など、限られた部分のみを対象としていた。そこで本研究では全身の骨格を対象とし、日本医学放射線学会が収集しているJ-MIDデータベースと共同研究施設で収集する4万症例以上の大規模なCTデータベースを用いて統計モデルを構築し、学習データ数と性能評価値(汎化性能、特異度、コンパクトさ)の関係を調査する。
 
浦 優輝 M, 1回目発表 数理情報学 池田 和司, 佐藤 嘉伸, 吉本 潤一郎, 久保 孝富, 福嶋 誠, 日永田 智絵
title: Development of a Dog Emotion Recognition Method from Facial Expression Images
abstract: Dogs and humans have developed an emotional bond over tens of thousands of years of living together. It is believed that dogs have developed facial expressions as a means of communicating with humans. Dogs' facial expressions is considered to contain emotions same as human facial expressions. If we can identify the emotions of dogs from their facial expressions, it is expected to be used as a decision-making tool for dog experts and owners, for example, to identify the causes of a dog's problem behaviors and detect a dog's mental disorders. In this study, we will develop a method for emotion recognition of a dog from its images showing facial expression. We are considering the use of a deep learning model as a method. However, since it is difficult to create a large number of emotion-annotated images as a dataset for training, we plan to make a small dataset and adapt a model to it using transfer learning. In this presentation, we will report our preliminary trial of its development, progress, and plans.
language of the presentation: Japanese
発表題目: 犬の表情画像による感情識別手法の開発
発表概要: 犬と人間は数万年にわたり共に生活する中で感情的な繋りを構築し,犬は人間とのコミュケーションを行う手段のひとつとして表情を発達させてきたとされる. そして,人の表情に感情が含まれるように,犬の表情にも同様に感情が含まれると考えられる. 犬の表情からその感情を識別できれば,問題行動の原因特定や精神疾患の発見など犬に関する専門家や一般のオーナーのための判断ツールとして活用が期待される. そのため,本研究では犬の表情画像から犬の感情を推定する手法の開発を行う. 手法として深層学習モデルの使用を検討している. 一方で学習のためのデータセットとして大量の感情アノテーション付き画像を作成することは困難なため, 少量のデータセットを作成した上で転移学習によるモデルの適応を予定している. 本発表では,これまでの開発の取り組みならびに進捗状況,今後の計画について報告する.
 
髙澤 季詠 M, 1回目発表 数理情報学 池田 和司, 作村 諭一, 川鍋 一晃(客員教授), 田中 沙織(客員教授), 吉本 潤一郎, 久保 孝富
title:Research of the neural basis for generalization by using a new task based on reward inference in human
abstract:Humans are able to flexibly adapt to new stimuli and environments by integrating their past experiences. This is called "generalization". In line with this, there have been many studies to elucidate the neural basis of generalization. However, the established neural basis for generalization has not been clarified. One of the reasons for this is the setting of the region of interest, which focuses on some brain regions, and the use of experimental tasks that do not show generalization. In this study, we will develop a new experimental task that shows the generalization process, and then conduct experiments using the task to analyze brain activity in all brain regions, with the aim of clarifying the neural basis of generalization in humans. In this way, we aim to clarify the neural basis of generalization.
language of the presentation:Japanese
発表題目:報酬予測に基づいた新しいカテゴリタスク遂行時の人間における般化の神経基盤の調査
発表概要:人間は、過去の経験を統合することによって、新しい刺激や環境に対して柔軟に適応できる。これを「般化」という。これに伴い、般化の神経基盤の解明を行う研究が多数存在している。しかし、確立した神経基盤は明らかになっていない。その要因として、一部の脳領域に着目する「関心領域の設定」と「般化が見られない実験タスクの使用」が挙げられる。そこで本研究では、「人間の般化の神経基盤の解明」を目的に、般化の過程が見られる実験タスクを新規開発したのち、そのタスクを使用した実験を行い、全脳領域を対象とした脳活動解析を行う。これにより、般化の神経基盤を明らかにすることを目指す。
 

会場: L3

司会: 藤村 友貴
藤澤 岳瞭 M, 1回目発表 サイバネティクス・リアリティ工学 清川 清, 加藤 博一, 内山 英昭, 磯山 直也
title: A Study on Portal Using Video See-through AR
abstract: In recent years, the development of virtual reality (VR) content has been actively pursued, and in order to experience VR content, a transition from the home screen to the content is essential. In order to experience VR content, a transition from the home screen to the content is essential. Conventional VR content transitions mainly use a fade, where the screen gradually switches from the home screen of the head-mounted display (HMD) to the respective content. However, it is considered difficult to obtain a high level of presence in the VR content and a sense of physical ownership of the characters in the content with the fade. The reason for this is thought to be that the user sees the VR home screen as soon as he or she puts on the HMD, which is disconnected from the real world. Therefore, we aim to improve the content experience compared to the conventional method by using the real environment with video see-through AR instead of the home screen, and by utilizing a portal in the transition to the VR space.
language of the presentation: 日本語
発表題目: ビデオシースルーARを用いたポータルに関する研究
発表概要: 近年、バーチャルリアリティ(VR)コンテンツの開発が盛んに行われている。VR コンテンツを体験するには、ホーム画面からコンテンツへの遷移が必須である。従来の VR コンテンツの遷移には、主に画面が徐々に切り替わるフェードが使用されており、ヘッドマウントディスプレイ(HMD)のホーム画面から各コンテンツに遷移する。しかし、フェードでは VR コンテンツに対するプレゼンスやコンテンツ内のキャラクターに対する身体所有感を高く得ることが困難だと考えられる。理由として、ユーザは HMD を装着した時点で VR のホーム画面を見ることになり、現実世界と乖離してしまうことが原因だと考えられる。そこで、ホーム画面の代わりにビデオシースルーARによる実環境を利用し、VR空間との遷移においてポータルを活用することで、従来手法に対してコンテンツ体験の向上を図る。
 
脇川 剛 M, 1回目発表 ネットワークシステム学 岡田 実, 林 優一, 東野 武史, DUONG QUANG THANG, Chen Na
title: Channel Response Measuremnt for 4.7GHz Band Local 5G Small Cell System
abstract: The local 5G can be operated by enterprize and local government on licensed band. The wireless network is isolated from public MNO (mobile network operator). The local MNO can build cell covergae and network configuration according as they planed, whereas strict constraint on radiation power is imposed. Main purpose of this study is to proliferate local 5G system, and compare frequency channel response with the wilress system which can configure small cell in indoor and outdoor. The path loss factor and delay spread will be measured over 2 to 6 GHz band, then we will attempt to modify antenna directivity for mitigating degradation due to mulaatipath fading.
language of the presentation: Japanese
発表題目: 4.7GHz帯ローカル5Gスモールセルの無線伝搬路の特性評価
発表概要: ローカル5Gシステムは、企業や自治体が周波数免許を取得し独自に無線ネットワークを構築する。そのため、利用形態に合わせたセルカバレッジ設計やネットワーク構築が可能である一方で、厳しい送信電力の制限が課せられる。本研究では、ローカル5Gシステムの普及促進を目的とし、スモールセルを構築可能な無線システムと比較するために、割り当てられた周波数の伝搬路応答の評価を行う。2-6GHzの伝搬損失を測定し、マルチパスフェージングの緩和方法としてアンテナの指向特性を変更し特性改善を行うことを目的とする。
 
尾崎 慧一 M, 1回目発表 情報セキュリティ工学 林 優一, 岡田 実, 藤川 和利, 藤本 大介, Youngwoo Kim
​ title: A Study on Low Frequency Range Injection Attack Against Ring Oscillator Based True Random Number Generators ​
​ abstract: True Random Number Generators (TRNGs) based on ring oscillators (ROs) are widely employed due to their simple structure. However, frequency injection attacks have been pointed out as a security threat against RO-based TRNGs to degrade their randomness by intentionally injecting electromagnetic waves of a specific frequency. Previous researches have clarified that the randomness of TRNGs is reduced by inducing electromagnetic waves with frequencies corresponding to fundamental frequency and harmonics of oscillation frequency of ROs. However, attacks in lower frequency than fundamental frequency have not being discussed sufficiently. On the other hand, the transfer function from wave source to TRNG varies depending on the frequency as a characteristic of propagation of electromagnetic waves. Therefore, if there exists a frequency with high transfer function against TRNG in the low frequency range, it can cause randomness degradation at that frequency as well. As a result, the frequency candidates increase can be used to attack. In this research, we built a measurement system to conduct injection frequency attack, and attack against different injection frequencies and powers in the low frequency range. Also, immunity evaluation will be conducted.
​ language of the presentation: Japanese
 
神 孝典 M, 1回目発表 知能システム制御 杉本 謙二, 和田 隆広, 松原 崇充, 小林 泰介
title: Bipedal Walking on Stepping Stones with PDAC and Model-based Reinforcement Learning
abstract: One of the expected capabilities of bipedal robots is walking on stepping stones. Many studies have already been conducted on walking on them based on ZMP-based gait generation, which is well known to be energy inefficient. On the other hand, limit cycle-based gait generation, such as PDAC, can utilize the natural dynamics of the robot, resulting in higher energy efficiency, while it is poor at fixing the landing position strictly. This study integrates model-based reinforcement learning with PDAC to achieve walking on stepping stones by long-term prediction. In this presentation, a preliminary verification is shown that the stable landing position in PDAC depends on the internal conserved quantities.
language of the presentation: Japanese
発表題目: モデルベース強化学習を適用したPDACによる着地位置制約下における二足歩行
発表概要: 二足歩行ロボットに期待される能力の一つとして,着地位置制約下における歩行が挙げられる. すでに多くの着地位置制約下における歩行に関する研究が行われているが,その多くはZMPベースの歩容生成に基づくものである. 一方,よりロボット自身のダイナミクスを考慮した歩容生成手法として,PDACなどのリミットサイクルに基づくものがある. しかしリミットサイクルベースの歩容生成において,着地位置を厳密に指定することは難しい. そこで本研究では,モデルベース強化学習とPDACを組み合わせて将来の状態を長期的に予測することで,着地位置制約下での歩行の実現を目指す. 本発表では,予備的検証として,PDACにおける安定な着地位置が内部の保存量に依存することを示す.
 
米澤 壮太郎 M, 1回目発表 知能システム制御 杉本 謙二, 和田 隆広, 小林 泰介
title: Reinforcement Learning with State-dependent Discount Factor
abstract: In ordinary reinforcement learning, the discount factor, which indicates how much future rewards are considered, is given to be a constant. Previous studies have proposed meta-optimization of the discount factor to improve learning performance.However, their performance depends on the given meta-objective.By focusing on the fact that return can be regarded as the expectation of rewards based on a geometric distribution with the discount factor as its parameter, this study design a new state-dependent discount factor in a more intuitive and efficient way.Specifically, since the geometric distribution represents the time of an event occurrence, the discount factor can be easily optimized by the maximum likelihood estimation of the geometric distribution with the event times as supervised signals.In this presentation, this new method is intuitively introduced and an approximate solution for the temporal difference is derived in this case.
language of the presentation: Japanese
発表題目: 状態で変化する割引率を有する強化学習
発表概要: 通常の強化学習では、将来の報酬をどのくらい考慮するかを表す割引率が定数として与えられることが多い。また強化学習の性能向上のために、割引率のメタ最適化を行った複数の先行研究が存在する。 しかし、これらの手法の性能はメタ目的に依存してしまう。そこで収益が割引率をパラメータとして持つ幾何分布に基づく、報酬の期待値としてみなせるという事実を利用することで、本研究ではより直感的で効率的な、状態で変化する割引率を有する強化学習手法を提案する。特に幾何分布はイベント発生の時刻を表すので、過去のイベントの時刻を教師データをとする幾何分布の最尤推定により、割引率が簡単に最適化される。本発表では、この新手法を直感的に紹介し、さらに提案手法に整合するTD誤差を説明する