Search results for "reward"

Hits ?▲	Authors	Title	Venue	Year	Link
11	Kamyar Azizzadenesheli, Trung Dang, Aranyak Mehta, Alexandros Psomas 0001, Qian Zhang	Reward Selection with Noisy Observations.	CoRR	2023	DBLP DOI BibTeX RDF
11	David Yunis, Justin Jung, Falcon Z. Dai, Matthew R. Walter	Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Jiwon Kim, Moon-Ju Kang, KangHun Lee, HyungJun Moon, Bo-Kwan Jeon	Deep Reinforcement Learning for Asset Allocation: Reward Clipping.	CoRR	2023	DBLP DOI BibTeX RDF
11	Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi 0001, Xiang Ren 0001	Tailoring Self-Rationalizers with Multi-Reward Distillation.	CoRR	2023	DBLP DOI BibTeX RDF
11	Dapeng Zhi, Peixin Wang, Cheng Chen, Min Zhang 0002	Robustness Verification of Deep Reinforcement Learning Based Control Systems using Reward Martingales.	CoRR	2023	DBLP DOI BibTeX RDF
11	Haolin Ruan, Zhi Chen, Chin Pang Ho	Risk-Averse MDPs under Reward Ambiguity.	CoRR	2023	DBLP DOI BibTeX RDF
11	Michael Kölle 0001, Tim Matheis, Philipp Altmann, Kyrill Schmid	Learning to Participate through Trading of Reward Shares.	CoRR	2023	DBLP DOI BibTeX RDF
11	Ziang Song, Tianle Cai, Jason D. Lee, Weijie J. Su	Reward Collapse in Aligning Large Language Models.	CoRR	2023	DBLP DOI BibTeX RDF
11	Dhawal Gupta, Yash Chandak, Scott M. Jordan, Philip S. Thomas, Bruno Castro da Silva	Behavior Alignment via Reward Function Optimization.	CoRR	2023	DBLP DOI BibTeX RDF
11	Tianchi Cai, Shenliao Bao, Jiyan Jiang, Shiji Zhou, Wenpeng Zhang 0003, Lihong Gu, Jinjie Gu, Guannan Zhang	Model-free Reinforcement Learning with Stochastic Reward Stabilization for Recommender Systems.	CoRR	2023	DBLP DOI BibTeX RDF
11	Wenhao Lu, Sven Magg, Xufeng Zhao, Martin Gromniak, Stefan Wermter	A Closer Look at Reward Decomposition for High-Level Robotic Explanations.	CoRR	2023	DBLP DOI BibTeX RDF
11	Patrik Keller	Parallel Proof-of-Work with DAG-Style Voting and Targeted Reward Discounting.	CoRR	2023	DBLP DOI BibTeX RDF
11	Elizabeth Bates, Vasilios Mavroudis, Chris Hicks	Reward Shaping for Happier Autonomous Cyber Security Agents.	CoRR	2023	DBLP DOI BibTeX RDF
11	Washim Uddin Mondal, Vaneet Aggarwal	Reinforcement Learning with Delayed, Composite, and Partially Anonymous Reward.	CoRR	2023	DBLP DOI BibTeX RDF
11	Hong-Peng Zhang	Maneuver Decision-Making Through Automatic Curriculum Reinforcement Learning Without Handcrafted Reward functions.	CoRR	2023	DBLP DOI BibTeX RDF
11	Hongzheng Yang, Cheng Chen, Yueyao Chen, Markus Scheppach, Hon-Chi Yip, Qi Dou 0001	Uncertainty Estimation for Safety-critical Scene Segmentation via Fine-grained Reward Maximization.	CoRR	2023	DBLP DOI BibTeX RDF
11	Zishan Ahmad, Suman Saurabh, Vaishakh Sreekanth Menon, Asif Ekbal, Roshni R. Ramnani, Anutosh Maitra	INA: An Integrative Approach for Enhancing Negotiation Strategies with Reward-Based Dialogue System.	CoRR	2023	DBLP DOI BibTeX RDF
11	Peter Barnett, Rachel Freedman, Justin Svegliato, Stuart Russell 0001	Active Reward Learning from Multiple Teachers.	CoRR	2023	DBLP DOI BibTeX RDF
11	Lei Li 0040, Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Ningyu Zhang 0001, Hua Wu	Tool-Augmented Reward Modeling.	CoRR	2023	DBLP DOI BibTeX RDF
11	Bryan Brandt, Prithviraj Dasgupta	Synthetically Generating Human-like Data for Sequential Decision Making Tasks via Reward-Shaped Imitation Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Shuai Zhao 0006, Xiaohan Wang, Linchao Zhu, Yi Yang 0001	Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models.	CoRR	2023	DBLP DOI BibTeX RDF
11	Sruthi Rachamalla, Henry Hexmoor	Driver Safety Reward with Cooperative Platooning using Blockchain.	CoRR	2023	DBLP DOI BibTeX RDF
11	Jiuzhou Han, Wray L. Buntine, Ehsan Shareghi	Reward Engineering for Generating Semi-structured Explanation.	CoRR	2023	DBLP DOI BibTeX RDF
11	Fan-Ming Luo, Tian Xu, Xingchen Cao, Yang Yu 0001	Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Sayak Ray Chowdhury, Xingyu Zhou 0001, Nagarajan Natarajan	Differentially Private Reward Estimation with Preference Feedback.	CoRR	2023	DBLP DOI BibTeX RDF
11	Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki	Aligning Text-to-Image Diffusion Models with Reward Backpropagation.	CoRR	2023	DBLP DOI BibTeX RDF
11	Zaifan Jiang, Xing Huang, Chao Wei	Preference as Reward, Maximum Preference Optimization with Importance Sampling.	CoRR	2023	DBLP DOI BibTeX RDF
11	Xianjie Zhang, Jiahao Sun, Chen Gong 0005, Kai Wang, Yifei Cao, Hao Chen, Yu Liu	Mutual Information as Intrinsic Reward of Reinforcement Learning Agents for On-demand Ride Pooling.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yuki Oyama	Global path preference and local response: A reward decomposition approach for network path choice analysis in the presence of locally perceived attributes.	CoRR	2023	DBLP DOI BibTeX RDF
11	Youjia Zhang, Pingzhong Tang	Collusion-proof And Sybil-proof Reward Mechanisms For Query Incentive Networks.	CoRR	2023	DBLP DOI BibTeX RDF
11	Lauren H. Cooke, Harvey Klyne, Edwin Zhang, Cassidy Laidlaw, Milind Tambe, Finale Doshi-Velez	Toward Computationally Efficient Inverse Reinforcement Learning via Reward Shaping.	CoRR	2023	DBLP DOI BibTeX RDF
11	Cevahir Köprülü, Ufuk Topcu	Reward-Machine-Guided, Self-Paced Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Akansha Kalra, Daniel S. Brown	Can Differentiable Decision Trees Learn Interpretable Reward Functions?	CoRR	2023	DBLP DOI BibTeX RDF
11	Gen Li 0005, Yuling Yan, Yuxin Chen 0002, Jianqing Fan	Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Daniel Shin, Anca D. Dragan, Daniel S. Brown	Benchmarks and Algorithms for Offline Preference-Based Reward Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Panagiotis Liampas	Risk-averse Batch Active Inverse Reward Design.	CoRR	2023	DBLP DOI BibTeX RDF
11	Wesley A. Suttle, Amrit Singh Bedi, Bhrij Patel, Brian M. Sadler, Alec Koppel, Dinesh Manocha	Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar	Eureka: Human-Level Reward Design via Coding Large Language Models.	CoRR	2023	DBLP DOI BibTeX RDF
11	Chendi Qu, Jianping He 0001, Xiaoming Duan, Jiming Chen 0001	Inverse Reinforcement Learning with Unknown Reward Model based on Structural Risk Minimization.	CoRR	2023	DBLP DOI BibTeX RDF
11	Sukai Huang, Nir Lipovetzky, Trevor Cohn	A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents.	CoRR	2023	DBLP DOI BibTeX RDF
11	Andrea Soltoggio, Eseoghene Ben-Iwhiwhu, Christos Peridis, Pawel Ladosz, Jeffery Dick, Praveen K. Pilly, Soheil Kolouri	The configurable tree graph (CT-graph): measurable problems in partially observable and distal reward environments for lifelong reinforcement learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Bhargav Ganguly, Vaneet Aggarwal	Quantum Acceleration of Infinite Horizon Average-Reward Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Changhun Lee, Chiehyeon Lim	A Bi-objective Perspective on Controllable Language Models: Reward Dropout Improves Off-policy Control Performance.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yiliu Wang, Wei Chen, Milan Vojnovic	Combinatorial Bandits for Maximum Value Reward Function under Max Value-Index Feedback.	CoRR	2023	DBLP DOI BibTeX RDF
11	Ekdeep Singh Lubana, Johann Brehmer, Pim de Haan, Taco Cohen	FoMo Rewards: Can we cast foundation models as reward functions?	CoRR	2023	DBLP DOI BibTeX RDF
11	Qisen Yang, Huanqian Wang, Mukun Tong, Wenjie Shi, Gao Huang, Shiji Song	Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Ali Baheri	Understanding Reward Ambiguity Through Optimal Transport Theory in Inverse Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Washim Uddin Mondal, Vaneet Aggarwal	Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm with General Parameterization for Infinite Horizon Discounted Reward Markov Decision Processes.	CoRR	2023	DBLP DOI BibTeX RDF
11	Minae Kwon, Sang Michael Xie, Kalesha Bullard, Dorsa Sadigh	Reward Design with Language Models.	CoRR	2023	DBLP DOI BibTeX RDF
11	Zihan Zhang, Qiaomin Xie	Sharper Model-free Reinforcement Learning for Average-reward Markov Decision Processes.	CoRR	2023	DBLP DOI BibTeX RDF
11	Tao Huang, Guangqi Jiang, Yanjie Ze, Huazhe Xu	Diffusion Reward: Learning Rewards via Conditional Video Diffusion.	CoRR	2023	DBLP DOI BibTeX RDF
11	Boyuan Zheng, Jianlong Zhou, Fang Chen 0001	Genetic Imitation Learning by Reward Extrapolation.	CoRR	2023	DBLP DOI BibTeX RDF
11	Peeyush Kumar	Reward Shaping via Diffusion Process in Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Hao Jiang, Tien Mai, Pradeep Varakantham	Solving Constrained Reinforcement Learning through Augmented State and Reward Penalties.	CoRR	2023	DBLP DOI BibTeX RDF
11	Krishnendu Chatterjee, Ehsan Kafshdar Goharshady, Mehrdad Karrabi, Petr Novotný 0001, Dorde Zikelic	Solving Long-run Average Reward Robust MDPs via Stochastic Games.	CoRR	2023	DBLP DOI BibTeX RDF
11	Haoyan Yang, Zhitao Li, Yong Zhang, Jianzong Wang, Ning Cheng 0001, Ming Li, Jing Xiao 0006	PRCA: Fitting Black-Box Large Language Models for Retrieval Question Answering via Pluggable Reward-Driven Contextual Adapter.	CoRR	2023	DBLP DOI BibTeX RDF
11	Aaron Nicolson, Jason Dowling, Bevan Koopman	Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation.	CoRR	2023	DBLP DOI BibTeX RDF
11	Haoxin Lin, Hongqiu Wu, Jiaji Zhang, Yihao Sun, Junyin Ye, Yang Yu	Episodic Return Decomposition by Difference of Implicitly Assigned Sub-Trajectory Reward.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yashaswini Murthy, Mehrdad Moharrami, R. Srikant 0001	Performance Bounds for Policy-Based Average Reward Reinforcement Learning Algorithms.	CoRR	2023	DBLP DOI BibTeX RDF
11	Benjamin D. Kraske, Anshu Saksena, Anna L. Buczak, Zachary N. Sunberg	Explanation through Reward Model Reconciliation using POMDP Tree Search.	CoRR	2023	DBLP DOI BibTeX RDF
11	Hanze Dong, Wei Xiong 0015, Deepanshu Goyal, Rui Pan, Shizhe Diao, Jipeng Zhang, Kashun Shum, Tong Zhang 0001	RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment.	CoRR	2023	DBLP DOI BibTeX RDF
11	Leo Ardon, Daniel Furelos-Blanco, Alessandra Russo	Learning Reward Machines in Cooperative Multi-Agent Tasks.	CoRR	2023	DBLP DOI BibTeX RDF
11	Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner	Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Guy Azran, Mohamad H. Danesh, Stefano V. Albrecht, Sarah Keren	Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Vijay Shankaran Vivekanand, Rajkumar Kubendran	Custom DNN using Reward Modulated Inverted STDP Learning for Temporal Pattern Recognition.	CoRR	2023	DBLP DOI BibTeX RDF
11	Kunyang Lin, Yufeng Wang, Peihao Chen, Runhao Zeng, Siyuan Zhou, Mingkui Tan, Chuang Gan	DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yinchuan Li, Zhigang Li, Wenqian Li, Yunfeng Shao 0001, Yan Zheng, Jianye Hao	Generative Flow Networks for Precise Reward-Oriented Active Learning on Graphs.	CoRR	2023	DBLP DOI BibTeX RDF
11	Shintaro Ueki, Fujio Toriumi, Toshiharu Sugawara	Effect of Monetary Reward on Users' Individual Strategies Using Co-Evolutionary Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Alessandro Lazaric, Karteek Alahari	Learning Goal-Conditioned Policies Offline with Self-Supervised Reward Shaping.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yudi Zhang 0007, Yali Du 0001, Biwei Huang, Ziyan Wang, Jun Wang 0012, Meng Fang, Mykola Pechenizkiy	GRD: A Generative Approach for Interpretable Reward Redistribution in Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Cansu Sancaktar, Justus H. Piater, Georg Martius	Regularity as Intrinsic Reward for Free Play.	CoRR	2023	DBLP DOI BibTeX RDF
11	Feiyang Wu, Zhaoyuan Gu, Hanran Wu, Anqi Wu, Ye Zhao 0002	Infer and Adapt: Bipedal Locomotion Reward Learning from Demonstrations via Inverse Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su 0006, Songming Liu, Jialian Li, Dong Yan, Jun Zhu 0001	Reward Informed Dreamer for Task Generalization in Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Nikolina Covic, Jochen Cremer, Hrvoje Pandzic	Learning a Reward Function for User-Preferred Appliance Scheduling.	CoRR	2023	DBLP DOI BibTeX RDF
11	Hao Li, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu 0004, Zhen-Qiu Feng, Xiao-Yin Liu, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Bo-Xian Yao, Zeng-Guang Hou	CROP: Conservative Reward for Model-based Offline Policy Optimization.	CoRR	2023	DBLP DOI BibTeX RDF
11	Hadar Schreiber Galler, Tom Zahavy, Guillaume Desjardins, Alon Cohen	APART: Diverse Skill Discovery using All Pairs with Ascending Reward and DropouT.	CoRR	2023	DBLP DOI BibTeX RDF
11	Gen Li 0005, Wenhao Zhan, Jason D. Lee, Yuejie Chi, Yuxin Chen 0002	Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yuan Cheng, Ruiquan Huang, Jing Yang 0002, Yingbin Liang	Improved Sample Complexity for Reward-free Reinforcement Learning under Low-rank MDPs.	CoRR	2023	DBLP DOI BibTeX RDF
11	Lin-Chi Wu, Zengjie Zhang, Sofie Haesaert, Zhiqiang Ma 0001, Zhiyong Sun	Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving.	CoRR	2023	DBLP DOI BibTeX RDF
11	Uri Gadot, Esther Derman, Navdeep Kumar, Maxence Mohamed Elfatihi, Kfir Levy, Shie Mannor	Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization.	CoRR	2023	DBLP DOI BibTeX RDF
11	Joar Skalse, Lucy Farnik, Sumeet Ramesh Motwani, Erik Jenner, Adam Gleave, Alessandro Abate	STARC: A General Framework For Quantifying Differences Between Reward Functions.	CoRR	2023	DBLP DOI BibTeX RDF
11	Xuzhe Dang, Stefan Edelkamp, Nicolas Ribault	CLIP-Motion: Learning Reward Functions for Robotic Actions Using Consecutive Observations.	CoRR	2023	DBLP DOI BibTeX RDF
11	Ted Moskovitz, Aaditya K. Singh, DJ Strouse, Tuomas Sandholm, Ruslan Salakhutdinov, Anca D. Dragan, Stephen McAleer	Confronting Reward Model Overoptimization with Constrained RLHF.	CoRR	2023	DBLP DOI BibTeX RDF
11	Vivek Myers, Erdem Biyik, Dorsa Sadigh	Active Reward Learning from Online Preferences.	CoRR	2023	DBLP DOI BibTeX RDF
11	Chaoyi Gu, Varuna De Silva, Corentin Artaud, Rafael Pina	Embedding Contextual Information through Reward Shaping in Multi-Agent Learning: A Case Study from Google Football.	CoRR	2023	DBLP DOI BibTeX RDF
11	Jueming Hu, Jean-Raphaël Gaglione, Yanze Wang, Zhe Xu 0005, Ufuk Topcu, Yongming Liu	Reinforcement Learning With Reward Machines in Stochastic Games.	CoRR	2023	DBLP DOI BibTeX RDF
11	Firas Al-Hafez, Davide Tateo, Oleg Arenz, Guoping Zhao, Jan Peters 0001	LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Souradip Chakraborty, Amisha Bhaskar, Anukriti Singh, Pratap Tokekar, Dinesh Manocha, Amrit Singh Bedi	REBEL: A Regularization-Based Solution for Reward Overoptimization in Reinforcement Learning from Human Feedback.	CoRR	2023	DBLP DOI BibTeX RDF
11	Siyuan Li, Weiyang Jin, Zedong Wang, Fang Wu, Zicheng Liu 0006, Cheng Tan 0012, Stan Z. Li	SemiReward: A General Reward Model for Semi-supervised Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Roberto Cipollone 0002, Giuseppe De Giacomo, Marco Favorito, Luca Iocchi, Fabio Patrizi	Exploiting Multiple Abstractions in Episodic RL via Reward Shaping.	CoRR	2023	DBLP DOI BibTeX RDF
11	Dingwen Kong, Lin F. Yang	Provably Feedback-Efficient Reinforcement Learning via Active Reward Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yihao Feng, Shentao Yang, Shujian Zhang, Jianguo Zhang 0005, Caiming Xiong, Mingyuan Zhou, Huan Wang	Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems.	CoRR	2023	DBLP DOI BibTeX RDF
11	Yue Wang 0068, Alvaro Velasquez, George K. Atia, Ashley Prater-Bennette, Shaofeng Zou	Model-Free Robust Average-Reward Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Mingqi Yuan, Bo Li 0037, Xin Jin, Wenjun Zeng	Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF
11	Philipp Altmann, Thomy Phan, Fabian Ritz, Thomas Gabor, Claudia Linnhoff-Popien	DIRECT: Learning from Sparse and Shifting Rewards using Discriminative Reward Co-Training.	CoRR	2023	DBLP DOI BibTeX RDF
11	Ali Abedi 0009, Hossein Karshenas, Peyman Adibi	Multi-modal reward for visual relationships-based image captioning.	CoRR	2023	DBLP DOI BibTeX RDF
11	John Kliem, Prithviraj Dasgupta	Reward Shaping for Improved Learning in Real-time Strategy Game Play.	CoRR	2023	DBLP DOI BibTeX RDF
11	Keming Lu, Hongyi Yuan, Runji Lin, Junyang Lin, Zheng Yuan 0002, Chang Zhou, Jingren Zhou	Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models.	CoRR	2023	DBLP DOI BibTeX RDF
11	Kush Bhatia, Wenshuo Guo, Jacob Steinhardt	Reward Learning as Doubly Nonparametric Bandits: Optimal Design and Scaling Laws.	CoRR	2023	DBLP DOI BibTeX RDF
11	Ziyuan Cao, Reshma Anugundanahalli Ramachandra, Kelin Yu	Temporal Video-Language Alignment Network for Reward Shaping in Reinforcement Learning.	CoRR	2023	DBLP DOI BibTeX RDF