Search results for "reward"

Hits ?▲	Authors	Title	Venue	Year	Link	Author keywords
16	Robin Jaulmes, Joelle Pineau, Doina Precup	Active Learning in Partially Observable Markov Decision Processes.	ECML	2005	DBLP DOI BibTeX RDF
16	Gautam A. Gupta, Stavros Toumpis, Jossy Sayir, Ralf R. Müller	On the Transport Capacity of Gaussian Multiple Access and Broadcast Channels.	WiOpt	2005	DBLP DOI BibTeX RDF
16	Hyeong Soo Chang, Robert Givan, Edwin K. P. Chong	Parallel Rollout for Online Solution of Partially Observable Markov Decision Processes.	Discret. Event Dyn. Syst.	2004	DBLP DOI BibTeX RDF	rollout, multiclass scheduling, simulation, buffer management, partially observable Markov decision process
16	Hong-Ren Chen, Yeh-Hao Chin	Scheduling Value-Based Nested Transactions in Distributed Real-Time Database Systems.	Real Time Syst.	2004	DBLP DOI BibTeX RDF	distributed real-time scheduling, distributed real-time database, two-phase locking mechanism, communication delay, nested transaction
16	Dezhen Song, A. Frank van der Stappen, Kenneth Y. Goldberg	An Exact Algorithm Optimizing Coverage-resolution for Automated Satellite Frame Selection.	ICRA	2004	DBLP DOI BibTeX RDF
16	Vinh Vi Lam, Peter Buchholz 0001, William H. Sanders	A Structured Path-Based Approach for Computing Transient Rewards of Large CTMCs.	QEST	2004	DBLP DOI BibTeX RDF
16	Alberto Reyes, Pablo H. Ibargüengoytia, Luis Enrique Sucar	Power Plant Operator Assistant: An Industrial Application of Factored MDPs.	MICAI	2004	DBLP DOI BibTeX RDF
16	Norihisa Sato, Masaharu Adachi, Makoto Kotani	Control of Associative Chaotic Neural Networks Using a Reinforcement Learning.	ISNN (1)	2004	DBLP DOI BibTeX RDF
16	Min-Xiou Chen, Ben-Jye Chang, Ren-Hung Hwang, Jun-Fan Juang	MDP-based OVSF code assignment scheme and call admission control for wideband-CDMA communications.	ISCC	2004	DBLP DOI BibTeX RDF
16	Yuichi Kobayashi, Shigeyuki Hosoe	Motion planning with multiple resolutions: integration of evaluation space.	SMC (1)	2004	DBLP DOI BibTeX RDF
16	Jesús Herrera, Anselmo Peñas, Felisa Verdejo	Question Answering Pilot Task at CLEF 2004.	CLEF	2004	DBLP DOI BibTeX RDF
16	Emilia I. Barakova	Emergent behaviours based on episodic encoding and familiarity driven retrieval.	AIMSA	2004	DBLP DOI BibTeX RDF
16	Sridharan Devarajan, P. S. Prashanth, V. S. Chakravarthy	The Role of the Basal Ganglia in Exploratory Behavior in a Model Based on Reinforcement Learning.	ICONIP	2004	DBLP DOI BibTeX RDF
16	Mark Lanus, Liang Yin, Kishor S. Trivedi	Hierarchical composition and aggregation of state-based availability and performability models.	IEEE Trans. Reliab.	2003	DBLP DOI BibTeX RDF
16	Jean-Michel Fourneau, Mathieu Le Coz, Nihal Pekergin, Franck Quessette	An open tool to compute stochastic bounds on steady-state distributions and rewards.	MASCOTS	2003	DBLP DOI BibTeX RDF
16	Suzana Andova, Holger Hermanns, Joost-Pieter Katoen	Discrete-Time Rewards Model-Checked.	FORMATS	2003	DBLP DOI BibTeX RDF
16	M. Benmammoun, Jean-Michel Fourneau, Nihal Pekergin, Alexis Troubnikoff	An Algorithmic and Numerical Approach to Bound the Performance of High Speed Networks.	MASCOTS	2002	DBLP DOI BibTeX RDF
16	Iadine Chades, Bruno Scherrer, François Charpillet	A heuristic approach for solving decentralized-POMDP: assessment on the pursuit problem.	SAC	2002	DBLP DOI BibTeX RDF	decision theoretic agents, multiagent systems
16	S. Swaminathan, G. Manimaran	A Reliability-Aware Value-Based Scheduler for Dynamic Multiprocessor Real-Time Systems.	IPDPS	2002	DBLP DOI BibTeX RDF
16	Cosmin Rusu, Rami G. Melhem, Daniel Mossé	Maximizing the System Value while Satisfying Time and Energy Constraints.	RTSS	2002	DBLP DOI BibTeX RDF
16	Tim Kovacs	XCS's Strength-Based Twin: Part I.	IWLCS	2002	DBLP DOI BibTeX RDF
16	Jean-Michel Fourneau, Nihal Pekergin	An Algorithmic Approach to Stochastic Bounds.	Performance	2002	DBLP DOI BibTeX RDF
16	Kagan Tumer, Adrian K. Agogino, David H. Wolpert	Learning sequences of actions in collectives of autonomous agents.	AAMAS	2002	DBLP DOI BibTeX RDF	MAS, reinforcement learning, Q-learning
16	Amy Csizmar Dalal, Scott Jordan	An optimal service ordering for a world wide web server.	SIGMETRICS Perform. Evaluation Rev.	2001	DBLP DOI BibTeX RDF
16	Scott Lenser, James Bruce, Manuela M. Veloso	A Modular Hierarchical Behavior-Based Architecture.	RoboCup	2001	DBLP DOI BibTeX RDF
16	Shie Mannor, Nahum Shimkin	Adaptive Strategies and Regret Minimization in Arbitrarily Varying Markov Environments.	COLT/EuroCOLT	2001	DBLP DOI BibTeX RDF
16	Ricardo Vilalta, Mark Brodie, Daniel Oblinger, Irina Rish	A Unified Framework for Evaluation Metrics in Classification Using Decision Trees.	ECML	2001	DBLP DOI BibTeX RDF
16	Jeffrey O. Pfaffmann, Klaus-Peter Zauner	Scouting Context-Sensitive Components.	Evolvable Hardware	2001	DBLP DOI BibTeX RDF
16	Constantinos Maglaras	Dynamic scheduling in multiclass queueing networks: Stability under discrete-review policies.	Queueing Syst. Theory Appl.	1999	DBLP DOI BibTeX RDF	open multiclass queueing networks, discrete-review policies, scheduling, stability, fluid models
11	Federico Cornalba, Constantin Disselkamp, Davide Scassola, Christopher Helf	Multi-objective reward generalization: improving performance of Deep Reinforcement Learning for applications in single-asset trading.	Neural Comput. Appl.	2024	DBLP DOI BibTeX RDF
11	Lucas de Azevedo Takara, André Alves Portela Santos, Viviana Cocco Mariani, Leandro dos Santos Coelho	Deep reinforcement learning applied to a sparse-reward trading environment with intraday data.	Expert Syst. Appl.	2024	DBLP DOI BibTeX RDF
11	Victor R. F. Miranda, Armando Alves Neto, Gustavo Medeiros Freitas, Leonardo A. Mozelli	Generalization in Deep Reinforcement Learning for Robotic Navigation by Reward Shaping.	IEEE Trans. Ind. Electron.	2024	DBLP DOI BibTeX RDF
11	Jing Zhang, Dan Guo, Xun Yang, Peipei Song, Meng Wang 0001	Visual-linguistic-stylistic Triple Reward for Cross-lingual Image Captioning.	ACM Trans. Multim. Comput. Commun. Appl.	2024	DBLP DOI BibTeX RDF
11	Meng Xu 0009, Xinhong Chen 0003, Yechao She, Yang Jin, Jianping Wang 0001	Time-Varying Weights in Multi-Reward Architecture for Deep Reinforcement Learning.	IEEE Trans. Emerg. Top. Comput. Intell.	2024	DBLP DOI BibTeX RDF
11	Qian Zhou, Guimeng Zhang	Event camera object recognition using spatiotemporal event time surface and reward-modulated spike-timing-dependent plasticity learning rule.	J. Electronic Imaging	2024	DBLP DOI BibTeX RDF
11	Xuchuang Wang, Hong Xie 0004, John C. S. Lui	Analyzing Queueing Problems via Bandits With Linear Reward & Nonlinear Workload Fairness.	IEEE Trans. Mob. Comput.	2024	DBLP DOI BibTeX RDF
11	Rakesh Kumar, Amrita Chaturvedi	Software Bug Prediction Using Reward-Based Weighted Majority Voting Ensemble Technique.	IEEE Trans. Reliab.	2024	DBLP DOI BibTeX RDF
11	Sherif B. Azmy, Nizar Zorba, Hossam S. Hassanein	Incentive-Vacation Queueing in Extreme Edge Computing: An Analytical Reward-Based Framework.	IEEE Open J. Commun. Soc.	2024	DBLP DOI BibTeX RDF
11	Tim Rüterbories, Axel Mecklinger, Kathrin C. J. Eschmann, Jordan Crivelli-Decker, Charan Ranganath, Matthias J. Gruber	Curiosity Satisfaction Increases Event-related Potentials Sensitive to Reward.	J. Cogn. Neurosci.	2024	DBLP DOI BibTeX RDF
11	Varun Devakonda, Zexi Zhou, Beiming Yang, Yang Qu	Neural Reward Anticipation Moderates Longitudinal Relation between Parents' Familism Values and Latinx American Youth's School Disengagement.	J. Cogn. Neurosci.	2024	DBLP DOI BibTeX RDF
11	Zhaoxiang Zang, Zhao Li, Zhiping Dan, Junying Wang	Improving selection strategies in zeroth-level classifier systems based on average reward reinforcement learning.	J. Ambient Intell. Humaniz. Comput.	2024	DBLP DOI BibTeX RDF
11	Erdi Sayar, Giovanni Iacca, Alois Knoll	Curriculum Learning for Robot Manipulation Tasks With Sparse Reward Through Environment Shifts.	IEEE Access	2024	DBLP DOI BibTeX RDF
11	Qian Zhao, Jinhui Han, Mao Xu	Boosting Policy Learning in Reinforcement Learning via Adaptive Intrinsic Reward Regulation.	IEEE Access	2024	DBLP DOI BibTeX RDF
11	Amjad Ali 0004, Shah Zeb, Madallah Alruwaili, Asad Masood Khattak, Bashir Hayat, Ki-Il Kim	Mixed Criticality Reward-Based Systems Using Resource Reservation.	IEEE Access	2024	DBLP DOI BibTeX RDF
11	Jens Gudmundsson, Jens Leth Hougaard	Blockchain-based Decentralized Reward Sharing: The Case of Mining Pools.	ACM Trans. Economics and Comput.	2024	DBLP DOI BibTeX RDF
11	Jiasen Li, Huiping Yao	Aberrant Reward Anticipating and Processing in Abstinent Heroin Addicts.	IEEE Trans. Comput. Soc. Syst.	2024	DBLP DOI BibTeX RDF
11	Keita Terashima, Koichi Kobayashi, Yuh Yamashita	On reward distribution in reinforcement learning of multi-agent surveillance systems with temporal logic specifications.	Adv. Robotics	2024	DBLP DOI BibTeX RDF
11	Naman Saxena, Sandeep Gorantla, Pushpak Jagtap	Funnel-Based Reward Shaping for Signal Temporal Logic Tasks in Reinforcement Learning.	IEEE Robotics Autom. Lett.	2024	DBLP DOI BibTeX RDF
11	Jaehwi Jang, Minjae Song, Daehyung Park	Inverse Constraint Learning and Generalization by Transferable Reward Decomposition.	IEEE Robotics Autom. Lett.	2024	DBLP DOI BibTeX RDF
11	Bei Chen, Fazhan Liu, Herbert Ho-Ching Iu, Han Bao 0001, Quan Xu 0001	Memristive Neural Network Circuit of Operant Conditioning With Reward Delay and Variable Punishment Intensity.	IEEE Trans. Circuits Syst. II Express Briefs	2024	DBLP DOI BibTeX RDF
11	Wenzheng Xu, Chengxi Wang, Hongbin Xie, Weifa Liang, Haipeng Dai, Zichuan Xu, Ziming Wang, Bing Guo, Sajal K. Das 0001	Reward Maximization for Disaster Zone Monitoring With Heterogeneous UAVs.	IEEE/ACM Trans. Netw.	2024	DBLP DOI BibTeX RDF
11	Anayo K. Akametalu, Shromona Ghosh, Jaime F. Fisac, Vicenc Rubies-Royo, Claire J. Tomlin	A Minimum Discounted Reward Hamilton-Jacobi Formulation for Computing Reachable Sets.	IEEE Trans. Autom. Control.	2024	DBLP DOI BibTeX RDF
11	Xiangxi Meng, Luyi Bai, Jiahui Hu, Lin Zhu 0014	Multi-hop path reasoning over sparse temporal knowledge graphs based on path completion and reward shaping.	Inf. Process. Manag.	2024	DBLP DOI BibTeX RDF
11	Francesco Betti Sorbelli, Alfredo Navarra, Lorenzo Palazzetti, Cristina M. Pinotti, Giuseppe Prencipe	Wireless IoT sensors data collection reward maximization by leveraging multiple energy- and storage-constrained UAVs.	J. Comput. Syst. Sci.	2024	DBLP DOI BibTeX RDF
11	Qisen Yang, Huanqian Wang, Mukun Tong, Wenjie Shi, Gao Huang, Shiji Song	Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning.	IEEE Trans. Syst. Man Cybern. Syst.	2024	DBLP DOI BibTeX RDF
11	Lisheng Wu, Ke Chen 0001	Goal exploration augmentation via pre-trained skills for sparse-reward long-horizon goal-conditioned reinforcement learning.	Mach. Learn.	2024	DBLP DOI BibTeX RDF
11	Jiajia Cao, Na Chen	The Influence of Robots' Fairness on Humans' Reward-Punishment Behaviors and Trust in Human-Robot Cooperative Teams.	Hum. Factors	2024	DBLP DOI BibTeX RDF
11	Jueming Hu, Zhe Xu 0005, Weichang Wang, Guannan Qu, Yutian Pang, Yongming Liu	Decentralized graph-based multi-agent reinforcement learning using reward machines.	Neurocomputing	2024	DBLP DOI BibTeX RDF
11	Na Chen, Jiajia Cao, Xueyan Hu	The Effects of Robot Managers' Reward-Punishment Behaviours on Human-Robot Trust and Job Performance.	Int. J. Soc. Robotics	2024	DBLP DOI BibTeX RDF
11	Xuejing Zheng, Chao Yu 0004	Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines.	CoRR	2024	DBLP DOI BibTeX RDF
11	Deepthi Pathare, Leo Laine, Morteza Haghir Chehreghani	Tactical Decision Making for Autonomous Trucks by Deep Reinforcement Learning with Total Cost of Operation Based Reward.	CoRR	2024	DBLP DOI BibTeX RDF
11	David Venuto, Sami Nur Islam, Martin Klissarov, Doina Precup, Sherry Yang, Ankit Anand	Code as Reward: Empowering Reinforcement Learning with VLMs.	CoRR	2024	DBLP DOI BibTeX RDF
11	Bhrij Patel, Wesley A. Suttle, Alec Koppel, Vaneet Aggarwal, Brian M. Sadler, Amrit Singh Bedi, Dinesh Manocha	Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic.	CoRR	2024	DBLP DOI BibTeX RDF
11	Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Anh Tuan Luu	Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration.	CoRR	2024	DBLP DOI BibTeX RDF
11	Rati Devidze, Parameswaran Kamalaruban, Adish Singla	Informativeness of Reward Functions in Reinforcement Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Shentao Yang, Tianqi Chen, Mingyuan Zhou	A Dense Reward View on Aligning Text-to-Image Diffusion with Preference.	CoRR	2024	DBLP DOI BibTeX RDF
11	Jumman Hossain, Abu Zaher Md Faridee, Nirmalya Roy, Jade Freeman, Timothy Gregory, Theron T. Trout	TopoNav: Topological Navigation for Efficient Exploration in Sparse Reward Environments.	CoRR	2024	DBLP DOI BibTeX RDF
11	Zhaoyue Wang	Towards Socially and Morally Aware RL agent: Reward Design With LLM.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yinghui Li, Jinze Wu, Xin Liu, Weizhong Guo, Yufei Xue	Experience-Learning Inspired Two-Step Reward Method for Efficient Legged Locomotion Learning Towards Natural and Robust Gaits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Karin de Langis, Ryan Koo, Dongyeop Kang	Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation.	CoRR	2024	DBLP DOI BibTeX RDF
11	Evan Ellis, Gaurav R. Ghosal, Stuart J. Russell, Anca D. Dragan, Erdem Biyik	A Generalized Acquisition Function for Preference-based Reward Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Hang Zhou, Chenglong Wang, Yimin Hu, Tong Xiao, Chunliang Zhang, Jingbo Zhu	Prior Constraints-based Reward Model Training for Aligning Large Language Models.	CoRR	2024	DBLP DOI BibTeX RDF
11	Sungdong Kim, Minjoon Seo	Preference-free Alignment Learning with Regularized Relevance Reward.	CoRR	2024	DBLP DOI BibTeX RDF
11	Grigorii Veviurko, Wendelin Böhmer, Mathijs de Weerdt	To the Max: Reinventing Reward in Reinforcement Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou 0001, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro	ODIN: Disentangled Reward Mitigates Hacking in RLHF.	CoRR	2024	DBLP DOI BibTeX RDF
11	Shayan Meshkat Alsadat, Jean-Raphaël Gaglione, Daniel Neider, Ufuk Topcu, Zhe Xu 0005	Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine.	CoRR	2024	DBLP DOI BibTeX RDF
11	Maksim Dzabraev, Alexander Kunitsyn, Andrei Ivaniuta	VLRM: Vision-Language Models act as Reward Models for Image Captioning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Xiaoying Zhang, Jean-Francois Ton, Wei Shen, Hongning Wang, Yang Liu	Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation.	CoRR	2024	DBLP DOI BibTeX RDF
11	Banghua Zhu, Michael I. Jordan, Jiantao Jiao	Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF.	CoRR	2024	DBLP DOI BibTeX RDF
11	Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu, Rupasai Rangaraju, Harshad Khadilkar, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera	Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization.	CoRR	2024	DBLP DOI BibTeX RDF
11	Navdeep Kumar, Yashaswini Murthy, Itai Shufaro, Kfir Y. Levy, R. Srikant 0001, Shie Mannor	On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes.	CoRR	2024	DBLP DOI BibTeX RDF
11	Bohao Qu, Xiaofeng Cao 0002, Qing Guo 0005, Yi Chang, Ivor W. Tsang, Chengqi Zhang	Transductive Reward Inference on Graph.	CoRR	2024	DBLP DOI BibTeX RDF
11	Chen Jia	Generalizing Reward Modeling for Out-of-Distribution Preference Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen	Policy Optimization with Smooth Guidance Rewards Learned from Sparse-Reward Demonstrations.	CoRR	2024	DBLP DOI BibTeX RDF
11	Varul Srivastava, Sujit Gujar	DECENT-BRM: Decentralization through Block Reward Mechanisms.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yangchun Zhang, Yirui Zhou	Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery.	CoRR	2024	DBLP DOI BibTeX RDF
11	Jan Wehner, Frans A. Oliehoek, Luciano Cavalcante Siebert	Explaining Learned Reward Functions with Counterfactual Trajectories.	CoRR	2024	DBLP DOI BibTeX RDF
11	Jinyeob Kim, Sumin Kang, Sungwoo Yang, Beomjoon Kim, Jargalbaatar Yura, Donghan Kim 0001	Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Zhiyu An, Xianzhong Ding, Wan Du	Reward Bound for Behavioral Guarantee of Model-based Planning Agents.	CoRR	2024	DBLP DOI BibTeX RDF
11	Ashish Rana, Michael Oesterle, Jannik Brinkmann	GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems.	CoRR	2024	DBLP DOI BibTeX RDF
11	Kenneth Li 0002, Samy Jelassi, Hugh Zhang, Sham M. Kakade, Martin Wattenberg, David Brandfonbrener	Q-Probe: A Lightweight Approach to Reward Maximization for Language Models.	CoRR	2024	DBLP DOI BibTeX RDF
11	Ling Liang, Haizhao Yang	On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization.	CoRR	2024	DBLP DOI BibTeX RDF
11	Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Gonzalo De La Torre Parra, Elias Bou-Harb, Peyman Najafirad	LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward.	CoRR	2024	DBLP DOI BibTeX RDF
11	Angela Zhou	Reward-Relevance-Filtered Linear Offline Reinforcement Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Shivam Ratnakant Mhaskar, Nirmesh J. Shah, Mohammadi Zaki, Ashishkumar P. Gudmalwar, Pankaj Wasnik, Rajiv Ratn Shah	Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Rahul N. R, Vaibhav Katewa	Transfer in Sequential Multi-armed Bandits via Reward Samples.	CoRR	2024	DBLP DOI BibTeX RDF
11	Gregory Hyde, Eugene Santos Jr.	Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yige Hong, Qiaomin Xie, Yudong Chen 0001, Weina Wang 0001	Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Gaurav Pandey 0001, Yatin Nandwani, Tahira Naseem, Mayank Mishra, Guangxuan Xu, Dinesh Raghu, Sachindra Joshi, Asim Munawar, Ramón Fernandez Astudillo	BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback.	CoRR	2024	DBLP DOI BibTeX RDF
11	Junseok Park, Yoonsung Kim, Hee bin Yoo, Min Whoo Lee, Kibeom Kim, Won-Seok Choi 0006, Minsu Lee, Byoung-Tak Zhang	Unveiling the Significance of Toddler-Inspired Reward Transition in Goal-Oriented Reinforcement Learning.	CoRR	2024	DBLP DOI BibTeX RDF