Search results for "Policy-gradient"

Hits ?▲	Authors	Title	Venue	Year	Link	Author keywords
56	Tetsuro Morimura, Eiji Uchibe, Junichiro Yoshimoto, Kenji Doya	A New Natural Policy Gradient by Stationary Distribution Metric.	ECML/PKDD (2)	2008	DBLP DOI BibTeX RDF	policy gradient reinforcement learning, Riemannian metric matrix, Markov decision process, natural gradient
51	Maarten Peeters, Ville Könönen, Katja Verbeeck, Ann Nowé	A Learning Automata Approach to Multi-agent Policy Gradient Learning.	KES (2)	2008	DBLP DOI BibTeX RDF
48	Nguyen Hoang Viet, Ngo Anh Vien, TaeChoong Chung	Policy Gradient SMDP for Resource Allocation and Routing in Integrated Services Networks.	ICNSC	2008	DBLP DOI BibTeX RDF
41	Yutaka Nakamura, Takeshi Mori, Shin Ishii	An Off-Policy Natural Policy Gradient Method for a Partial Observable Markov Decision Process.	ICANN (2)	2005	DBLP DOI BibTeX RDF
40	Daan Wierstra, Jürgen Schmidhuber	Policy Gradient Critics.	ECML	2007	DBLP DOI BibTeX RDF
39	Abdeslam Boularias, Brahim Chaib-draa	Predictive representations for policy gradient in POMDPs.	ICML	2009	DBLP DOI BibTeX RDF
35	David Silver, Gerald Tesauro	Monte-Carlo simulation balancing.	ICML	2009	DBLP DOI BibTeX RDF
34	Dongbing Gu, Erfu Yang	Fuzzy Policy Reinforcement Learning in Cooperative Multi-robot Systems.	J. Intell. Robotic Syst.	2007	DBLP DOI BibTeX RDF	flocking behavior, policy gradient reinforcement learning, cooperative control, multi-agent reinforcement learning
33	Jan Peters 0001, Sethu Vijayakumar, Stefan Schaal	Natural Actor-Critic.	ECML	2005	DBLP DOI BibTeX RDF
31	Shixiang Gu, Timothy P. Lillicrap, Zoubin Ghahramani, Richard E. Turner, Bernhard Schölkopf, Sergey Levine	Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning.	CoRR	2017	DBLP BibTeX RDF
31	Shixiang Gu, Tim Lillicrap, Richard E. Turner, Zoubin Ghahramani, Bernhard Schölkopf, Sergey Levine	Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning.	NIPS	2017	DBLP BibTeX RDF
29	Thomas Rückstieß, Martin Felder, Jürgen Schmidhuber	State-Dependent Exploration for Policy Gradient Methods.	ECML/PKDD (2)	2008	DBLP DOI BibTeX RDF
29	Sertan Girgin, Philippe Preux	Basis Expansion in Natural Actor Critic Methods.	EWRL	2008	DBLP DOI BibTeX RDF
28	Emmanuel Daucé	A Model of Neuronal Specialization Using Hebbian Policy-Gradient with "Slow" Noise.	ICANN (1)	2009	DBLP DOI BibTeX RDF
28	Seiji Ishihara, Harukazu Igarashi	Behavior Learning Based on a Policy Gradient Method: Separation of Environmental Dynamics and State Values in Policies.	PRICAI	2008	DBLP DOI BibTeX RDF
28	Jan Peters 0001, Stefan Schaal	Policy Gradient Methods for Robotics.	IROS	2006	DBLP DOI BibTeX RDF
28	Ville Könönen	Policy Gradient Method for Team Markov Games.	IDEAL	2004	DBLP DOI BibTeX RDF
28	Sham M. Kakade	Optimizing Average Reward Using Discounted Rewards.	COLT/EuroCOLT	2001	DBLP DOI BibTeX RDF
25	Rui Yuan	Stochastic Second Order Methods and Finite Time Analysis of Policy Gradient Methods. (Méthodes du second d'ordre stochastiques et analyse de temps fini des méthodes de policy-gradient).		2023	RDF
25	Yanli Liu 0003, Kaiqing Zhang, Tamer Basar, Wotao Yin	An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods.	CoRR	2022	DBLP DOI BibTeX RDF
25	Ju-Seung Byun, Byungmoon Kim, Huamin Wang	Proximal Policy Gradient: PPO with Policy Gradient.	CoRR	2020	DBLP BibTeX RDF
25	Yanli Liu 0003, Kaiqing Zhang, Tamer Basar, Wotao Yin	An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods.	NeurIPS	2020	DBLP BibTeX RDF
25	Andrew Ilyas, Logan Engstrom, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, Aleksander Madry	Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?	CoRR	2018	DBLP BibTeX RDF
24	Davide Mambelli, Stephan Bongers, Onno Zoeter, Matthijs T. J. Spaan, Frans A. Oliehoek	When Do Off-Policy and On-Policy Policy Gradient Methods Align?	CoRR	2024	DBLP DOI BibTeX RDF
24	Nicholas E. Corrado, Josiah P. Hanna	On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling.	CoRR	2023	DBLP DOI BibTeX RDF
23	Bikramjit Banerjee, Jing Peng	Adaptive policy gradient in multiagent learning.	AAMAS	2003	DBLP DOI BibTeX RDF	gradient ascent learning, game theory, nash equilibria
22	Jan Peters 0001, Jens Kober, Duy Nguyen-Tuong	Policy Learning - A Unified Perspective with Applications in Robotics.	EWRL	2008	DBLP DOI BibTeX RDF
22	Mohammad Ghavamzadeh, Yaakov Engel	Bayesian actor-critic algorithms.	ICML	2007	DBLP DOI BibTeX RDF
20	Harukazu Igarashi, Kouji Nakamura, Seiji Ishihara	Learning of soccer player agents using a policy gradient method: Coordination between kicker and receiver during free kicks.	IJCNN	2008	DBLP DOI BibTeX RDF
20	Yu Hiei, Takeshi Mori, Shin Ishii	Self-organized Reinforcement Learning Based on Policy Gradient in Nonstationary Environments.	ICANN (1)	2008	DBLP DOI BibTeX RDF
20	Tomoya Tamei, Tomohiro Shibata	Policy Gradient Learning of Cooperative Interaction with a Robot Using User's Biological Signals.	ICONIP (2)	2008	DBLP DOI BibTeX RDF
20	Andrea Cherubini, Francesca Giannone, Luca Iocchi, Pier Francesco Palamara	An extended policy gradient algorithm for robot task learning.	IROS	2007	DBLP DOI BibTeX RDF
20	Nate Kohl, Peter Stone	Policy Gradient Reinforcement Learning for Fast Quadrupedal Locomotion.	ICRA	2004	DBLP DOI BibTeX RDF
20	Yutaka Nakamura, Takeshi Mori, Shin Ishii	Natural Policy Gradient Reinforcement Learning for a CPG Control of a Biped Robot.	PPSN	2004	DBLP DOI BibTeX RDF
20	Frank Sehnke, Christian Osendorfer, Thomas Rückstieß, Alex Graves, Jan Peters 0001, Jürgen Schmidhuber	Policy Gradients with Parameter-Based Exploration for Control.	ICANN (1)	2008	DBLP DOI BibTeX RDF
20	Kristian Kersting, Kurt Driessens	Non-parametric policy gradients: a unified treatment of propositional and relational domains.	ICML	2008	DBLP DOI BibTeX RDF
19	Olivier Buffet, Alain Dutech, François Charpillet	Shaping multi-agent systems with gradient reinforcement learning.	Auton. Agents Multi Agent Syst.	2007	DBLP DOI BibTeX RDF	Policy-gradient, Multi-agent systems, Reinforcement learning, Shaping, Partially observable Markov decision processes
19	Stefana Anita, Gabriel Turinici	On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit.	CoRR	2024	DBLP DOI BibTeX RDF
19	Guangchen Lan, Han Wang, James Anderson, Christopher G. Brinton, Vaneet Aggarwal	Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates.	CoRR	2023	DBLP DOI BibTeX RDF
19	Guangchen Lan, Han Wang, James Anderson, Christopher G. Brinton, Vaneet Aggarwal	Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates.	NeurIPS	2023	DBLP BibTeX RDF
19	Matilde Gargiani, Andrea Zanelli, Andrea Martinelli, Tyler H. Summers, John Lygeros	PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient Estimation.	CoRR	2022	DBLP BibTeX RDF
19	Matilde Gargiani, Andrea Zanelli, Andrea Martinelli, Tyler H. Summers, John Lygeros	PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient Estimation.	ICML	2022	DBLP BibTeX RDF
19	Harshat Kumar, Dionysios S. Kalogerias, George J. Pappas, Alejandro Ribeiro	Actor-only Deterministic Policy Gradient via Zeroth-order Gradient Oracles in Action Space.	ISIT	2021	DBLP DOI BibTeX RDF
19	Chris Nota, Philip S. Thomas	Is the Policy Gradient a Gradient? (PDF / PS)	AAMAS	2020	DBLP BibTeX RDF
19	Chris Nota, Philip S. Thomas	Is the Policy Gradient a Gradient?	CoRR	2019	DBLP BibTeX RDF
19	Peter Henderson 0002, Joshua Romoff, Joelle Pineau	Where Did My Optimum Go?: An Empirical Analysis of Gradient Descent Optimization in Policy Gradient Methods.	CoRR	2018	DBLP BibTeX RDF
18	Lorenzo Sforni, Guido Carnevale, Ivano Notarnicola, Giuseppe Notarstefano	Stability-Certified On-Policy Data-Driven LQR via Recursive Learning and Policy Gradient.	CoRR	2024	DBLP DOI BibTeX RDF
18	Jonathan Viquerat, Régis Duvigneau, P. Meliga, Alexander Kuhnle, Elie Hachem	Policy-based optimization: single-step policy gradient method seen as an evolution strategy.	Neural Comput. Appl.	2023	DBLP DOI BibTeX RDF
18	Yifei Zhou, Ayush Sekhari, Yuda Song 0001, Wen Sun 0002	Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees.	CoRR	2023	DBLP DOI BibTeX RDF
18	Qinghua Liu, Gellért Weisz, András György 0001, Chi Jin 0001, Csaba Szepesvári	Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL.	CoRR	2023	DBLP DOI BibTeX RDF
18	Fengdi Che, Gautham Vasan, A. Rupam Mahmood	Correcting discount-factor mismatch in on-policy policy gradient methods.	CoRR	2023	DBLP DOI BibTeX RDF
18	Yinbin Han, Meisam Razaviyayn, Renyuan Xu	Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators.	CoRR	2023	DBLP DOI BibTeX RDF
18	Yashaswini Murthy, R. Srikant 0001	On the Convergence of Natural Policy Gradient and Mirror Descent-Like Policy Methods for Average-Reward MDPs.	CDC	2023	DBLP DOI BibTeX RDF
18	Qinghua Liu, Gellért Weisz, András György 0001, Chi Jin 0001, Csaba Szepesvári	Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL.	NeurIPS	2023	DBLP BibTeX RDF
18	Fengdi Che, Gautham Vasan, A. Rupam Mahmood	Correcting discount-factor mismatch in on-policy policy gradient methods.	ICML	2023	DBLP BibTeX RDF
18	Romain Laroche, Remi Tachet des Combes	Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms.	CoRR	2022	DBLP BibTeX RDF
18	Carlo Alfano, Patrick Rebeschini	Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization.	CoRR	2022	DBLP DOI BibTeX RDF
18	Chengzhuo Ni, Ruiqi Zhang, Xiang Ji, Xuezhou Zhang, Mengdi Wang	Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration.	CoRR	2022	DBLP BibTeX RDF
18	Samuele Tosatto, João Carvalho, Jan Peters 0001	Batch Reinforcement Learning With a Nonparametric Off-Policy Policy Gradient.	IEEE Trans. Pattern Anal. Mach. Intell.	2022	DBLP DOI BibTeX RDF
18	Romain Laroche, Remi Tachet des Combes	Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms.	AISTATS	2022	DBLP BibTeX RDF
18	Dogan C. Cicek, Enes Duran, Baturay Saglam, Furkan B. Mutlu, Suleyman S. Kozat	Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms via Batch Prioritized Experience Replay.	CoRR	2021	DBLP BibTeX RDF
18	Ishaan Shah, David Halpern, Kavosh Asadi, Michael L. Littman	Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback.	CoRR	2021	DBLP BibTeX RDF
18	Dogan C. Cicek, Enes Duran, Baturay Saglam, Furkan B. Mutlu, Suleyman S. Kozat	Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms via Batch Prioritized Experience Replay.	ICTAI	2021	DBLP DOI BibTeX RDF
18	Samuele Tosatto, João Carvalho, Jan Peters 0001	Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient.	CoRR	2020	DBLP BibTeX RDF
18	Romina Abachi, Mohammad Ghavamzadeh, Amir-massoud Farahmand	Policy-Aware Model Learning for Policy Gradient Methods.	CoRR	2020	DBLP BibTeX RDF
18	Alekh Agarwal, Mikael Henaff, Sham M. Kakade, Wen Sun 0002	PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning.	CoRR	2020	DBLP BibTeX RDF
18	Seiji Ishihara, Harukazu Igarashi	Policy Gradient Reinforcement Learning for Policy Represented by Fuzzy Rules: Application to Simulations of Speed Control of an Automobile.	CoRR	2020	DBLP BibTeX RDF
18	Yixiang Wang, Feng Wu 0001	Policy Adaptive Multi-agent Deep Deterministic Policy Gradient.	PRIMA	2020	DBLP DOI BibTeX RDF
18	Alekh Agarwal, Mikael Henaff, Sham M. Kakade, Wen Sun 0002	PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning.	NeurIPS	2020	DBLP BibTeX RDF
18	Samuele Tosatto, João Carvalho, Hany Abdulsamad, Jan Peters 0001	A Nonparametric Off-Policy Policy Gradient.	AISTATS	2020	DBLP BibTeX RDF
18	Yunhao Tang, Mingzhang Yin, Mingyuan Zhou	Augment-Reinforce-Merge Policy Gradient for Binary Stochastic Policy.	CoRR	2019	DBLP BibTeX RDF
18	Riashat Islam, Komal K. Teru, Deepak Sharma	Off-Policy Policy Gradient Algorithms by Constraining the State Distribution Shift.	CoRR	2019	DBLP BibTeX RDF
18	Hélène Plisnier, Denis Steckelmacher, Diederik M. Roijers, Ann Nowé	The Actor-Advisor: Policy Gradient With Off-Policy Advice.	CoRR	2019	DBLP BibTeX RDF
18	Yao Liu 0009, Adith Swaminathan, Alekh Agarwal, Emma Brunskill	Off-Policy Policy Gradient with State Distribution Correction.	CoRR	2019	DBLP BibTeX RDF
18	Yao Liu 0009, Adith Swaminathan, Alekh Agarwal, Emma Brunskill	Off-Policy Policy Gradient with Stationary Distribution Correction. (PDF / PS)	UAI	2019	DBLP BibTeX RDF
18	Ehsan Imani, Eric Graves 0002, Martha White	An Off-policy Policy Gradient Theorem Using Emphatic Weightings.	CoRR	2018	DBLP BibTeX RDF
18	Junta Wu, Huiyun Li	Aggregated Multi-deep Deterministic Policy Gradient for Self-driving Policy.	IOV	2018	DBLP DOI BibTeX RDF
18	Josiah P. Hanna, Peter Stone	Towards a Data Efficient Off-Policy Policy Gradient.	AAAI Spring Symposia	2018	DBLP BibTeX RDF
18	Ehsan Imani, Eric Graves 0002, Martha White	An Off-policy Policy Gradient Theorem Using Emphatic Weightings.	NeurIPS	2018	DBLP BibTeX RDF
18	Yan Yan, Quan Liu	Policy Space Noise in Deep Deterministic Policy Gradient.	ICONIP (2)	2018	DBLP DOI BibTeX RDF
18	Li Zhou 0006, Kevin Small, Oleg Rokhlenko, Charles Elkan	End-to-End Offline Goal-Oriented Dialog Policy Learning via Policy Gradient.	CoRR	2017	DBLP BibTeX RDF
18	Shixiang Gu, Timothy P. Lillicrap, Zoubin Ghahramani, Richard E. Turner, Sergey Levine	Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic.	ICLR	2017	DBLP BibTeX RDF
18	Shixiang Gu, Timothy P. Lillicrap, Zoubin Ghahramani, Richard E. Turner, Sergey Levine	Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic.	CoRR	2016	DBLP BibTeX RDF
18	Lucas Lehnert, Doina Precup	Policy Gradient Methods for Off-policy Control.	CoRR	2015	DBLP BibTeX RDF
18	Tingting Zhao 0001, Gang Niu 0001, Ning Xie 0003, Jucheng Yang 0001, Masashi Sugiyama	Regularized Policy Gradients: Direct Variance Reduction in Policy Gradient Estimation.	ACML	2015	DBLP BibTeX RDF
18	Ujjwal Das Gupta, Erik Talvitie, Michael Bowling	Policy Tree: Adaptive Representation for Policy Gradient.	AAAI	2015	DBLP DOI BibTeX RDF
18	Takamitsu Matsubara, Jun Morimoto, Jun Nakanishi, Masa-aki Sato, Kenji Doya	Learning a dynamic policy by using policy gradient: application to biped walking.	Syst. Comput. Jpn.	2007	DBLP DOI BibTeX RDF
18	Yutaka Nakamura, Takeshi Mori, Yoichi Tokita, Tomohiro Shibata, Shin Ishii	Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller.	J. Robotics Mechatronics	2005	DBLP DOI BibTeX RDF
18	Xi-Ren Cao	Basic Ideas for Event-Based Optimization of Markov Systems.	Discret. Event Dyn. Syst.	2005	DBLP DOI BibTeX RDF	Markov decision processes (MDPs), performance potentials, policy gradients, aggregation, perturbation analysis, POMDPs, policy iteration
17	Jooyoung Park, Jongho Kim, Daesung Kang	An RLS-Based Natural Actor-Critic Algorithm for Locomotion of a Two-Linked Robot Arm.	CIS (1)	2005	DBLP DOI BibTeX RDF
14	Takamitsu Matsubara, Jun Morimoto, Jun Nakanishi, Sang-Ho Hyon, Joshua G. Hale, Gordon Cheng	Learning to acquire whole-body humanoid CoM movements to achieve dynamic tasks.	ICRA	2007	DBLP DOI BibTeX RDF
14	Daniel Schneegaß, Steffen Udluft, Thomas Martinetz	Improving Optimality of Neural Rewards Regression for Data-Efficient Batch Near-Optimal Policy Identification.	ICANN (1)	2007	DBLP DOI BibTeX RDF
12	Xu Li, Yuehui Ji, Yu Song 0004, Junjie Liu, Qiang Gao	Modified deep deterministic policy gradient based on active disturbance rejection control for hypersonic vehicles.	Neural Comput. Appl.	2024	DBLP DOI BibTeX RDF
12	Bo Lyu, Yin Yang 0001, Yuting Cao, Pengcheng Wang, Jian Zhu, Jingfei Chang, Shiping Wen 0001	Efficient multi-objective neural architecture search framework via policy gradient algorithm.	Inf. Sci.	2024	DBLP DOI BibTeX RDF
12	Amirhossein Dolatabadi, Hussein Hassan Abdeltawab, Yasser Abdel-Rady I. Mohamed	SFNAS-DDPG: A Biomass-Based Energy Hub Dynamic Scheduling Approach via Connecting Supervised Federated Neural Architecture Search and Deep Deterministic Policy Gradient.	IEEE Access	2024	DBLP DOI BibTeX RDF
12	Haowei Shi, Jiadao Zou, Qingxue Zhang	Efficient Massive-Device Orchestration Through Reinforcement Learning With Boosted Deep Deterministic Policy Gradient.	IEEE Internet Things J.	2024	DBLP DOI BibTeX RDF
12	Pengcheng Dai, Wenwu Yu, He Wang 0006, Jiahui Jiang	Applications in Traffic Signal Control: A Distributed Policy Gradient Decomposition Algorithm.	IEEE Trans. Ind. Informatics	2024	DBLP DOI BibTeX RDF
12	Hao Zhang 0008, Yan Li, Zhuping Wang, Yi Ding, Huaicheng Yan 0001	Distributed Optimal Control of Nonlinear System Based on Policy Gradient With External Disturbance.	IEEE Trans. Netw. Sci. Eng.	2024	DBLP DOI BibTeX RDF
12	Haofei Li, Chen Chen 0006, Hangguan Shan, Pu Li, Yoong Choon Chang, Houbing Song	Deep Deterministic Policy Gradient-Based Algorithm for Computation Offloading in IoV.	IEEE Trans. Intell. Transp. Syst.	2024	DBLP DOI BibTeX RDF
12	Shokichi Takakura, Kazuhiro Sato	Structured Output Feedback Control for Linear Quadratic Regulator Using Policy Gradient Method.	IEEE Trans. Autom. Control.	2024	DBLP DOI BibTeX RDF