Search results for "bandits"

Hits ?▲	Authors	Title	Venue	Year	Link	Author keywords
89	José Niño-Mora	Characterization and computation of restless bandit marginal productivity indices.	VALUETOOLS	2007	DBLP DOI BibTeX RDF	marginal productivity index, restless bandits, Markov decision processes, block algorithms, index policies
57	José Niño-Mora	Computing an index policy for bandits with switching penalties.	VALUETOOLS	2007	DBLP DOI BibTeX RDF	bandits, restless, switching delays, Markov decision processes, switching costs, index policies
46	José Niño-Mora	Marginal productivity index policies for scheduling a multiclass delay-/loss-sensitive queue.	Queueing Syst. Theory Appl.	2006	DBLP DOI BibTeX RDF	Multiclass queue, Multi-queue switch, Delay-sensitive, Loss-sensitive, Restless bandits, Work-cost analysis, Index policies, Bias optimality, Scheduling, Conservation laws, Finite buffers
44	Nicolas Galichet	Contributions to Multi-Armed Bandits: Risk-Awareness and Sub-Sampling for Linear Contextual Bandits. (Contributions aux bandits manchots : gestion du risque et sous-échantillonnage pour les bandits contextuels linéaires).		2015	RDF
33	Louis Faury	Variance-sensitive confidence intervals for parametric and offline bandits. (Intervalles de confiance sensibles à la variance : Applications aux bandits paramétriques et bandits hors ligne).		2021	RDF
32	Jan Poland	FPL Analysis for Adaptive Bandits.	SAGA	2005	DBLP DOI BibTeX RDF
32	Tadhg O'Meara, Ahmed Patel	A Topic-Specific Web Robot Model Based on Restless Bandits.	IEEE Internet Comput.	2001	DBLP DOI BibTeX RDF
25	Álvaro Fialho, Marc Schoenauer, Michèle Sebag	Fitness-AUC bandit adaptive strategy selection vs. the probability matching one within differential evolution: an empirical comparison on the bbob-2010 noiseless testbed.	GECCO (Companion)	2010	DBLP DOI BibTeX RDF	adaptive strategy selection, comparison-based, roc area under curve, benchmarking, black-box optimization, multi-armed bandits
25	Álvaro Fialho, Marc Schoenauer, Michèle Sebag	Toward comparison-based adaptive operator selection.	GECCO	2010	DBLP DOI BibTeX RDF	ROC area under curve, adaptive operator selection, parameter control, multi-armed bandits
25	Moshe Babaioff, Robert D. Kleinberg, Aleksandrs Slivkins	Truthful mechanisms with implicit payment computation.	EC	2010	DBLP DOI BibTeX RDF	single-parameter mechanism design, truthful auctions, multi-armed bandits
25	Alina Beygelzimer, John Langford 0001	The offset tree for learning with partial labels.	KDD	2009	DBLP DOI BibTeX RDF	associative reinforcement learning, contextual bandits, interactive learning
25	Moshe Babaioff, Yogeshwer Sharma, Aleksandrs Slivkins	Characterizing truthful multi-armed bandit mechanisms: extended abstract.	EC	2009	DBLP DOI BibTeX RDF	single-parameter auctions, mechanism design, online learning, multi-armed bandits, truthful mechanisms
25	Dimitris E. Koulouriotis, A. S. Xanthopoulos	A comparative study of ad hoc techniques and evolutionary methods for multi-armed bandit problems.	Oper. Res.	2008	DBLP DOI BibTeX RDF	Exploitation-exploration trade-off, Evolutionary algorithm, Multi-armed bandits, Heuristic techniques
25	Paat Rusmevichientong, David P. Williamson	An adaptive algorithm for selecting profitable keywords for search-based advertising services.	EC	2006	DBLP DOI BibTeX RDF	search-based advertising, adaptive algorithms, online optimization, multi-armed bandits
25	Dimitris Bertsimas	The achievable region method in the optimal control of queueing systems; formulations, bounds and policies.	Queueing Syst. Theory Appl.	1995	DBLP DOI BibTeX RDF	multiarmed bandits, optimization, policies, Queueing networks, bounds, loss networks
22	Arnab Maiti, Ross Boczar, Kevin G. Jamieson, Lillian J. Ratliff	Near-Optimal Pure Exploration in Matrix Games: A Generalization of Stochastic Bandits & Dueling Bandits.	AISTATS	2024	DBLP BibTeX RDF
22	Arnab Maiti, Ross Boczar, Kevin G. Jamieson, Lillian J. Ratliff	Near-Optimal Pure Exploration in Matrix Games: A Generalization of Stochastic Bandits & Dueling Bandits.	CoRR	2023	DBLP DOI BibTeX RDF
22	Dirk van der Hoeven, Lukas Zierahn, Tal Lancewicki, Aviv Rosenberg 0002, Nicolò Cesa-Bianchi	A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs.	CoRR	2023	DBLP DOI BibTeX RDF
22	Jongyeong Lee, Chao-Kai Chiang, Masashi Sugiyama	Asymptotically Optimal Thompson Sampling Based Policy for the Uniform Bandits and the Gaussian Bandits.	CoRR	2023	DBLP DOI BibTeX RDF
22	Zongqi Wan, Zhijie Zhang, Tongyang Li, Jialin Zhang 0001, Xiaoming Sun 0001	Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets.	AAAI	2023	DBLP DOI BibTeX RDF
22	Dirk van der Hoeven, Lukas Zierahn, Tal Lancewicki, Aviv Rosenberg 0002, Nicolò Cesa-Bianchi	A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs.	COLT	2023	DBLP BibTeX RDF
22	Neetu Singh, Sandeep Kumar Singh 0001	An Empirical Assessment of the Performance of Multi-Armed Bandits and Contextual Multi-Armed Bandits in Handling Cold-Start Bugs.	IC3	2023	DBLP DOI BibTeX RDF
22	Kimang Khun	Algorithms for Markovian bandits: Indexability and Learning. (Des algorithmes pour les bandits markoviens: indexabilité et apprentissage).		2023	RDF
22	Haipeng Luo, Mengxiao Zhang, Peng Zhao 0006, Zhi-Hua Zhou	Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits.	CoRR	2022	DBLP BibTeX RDF
22	Zongqi Wan, Zhijie Zhang, Tongyang Li, Jialin Zhang 0001, Xiaoming Sun 0001	Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets.	CoRR	2022	DBLP DOI BibTeX RDF
22	Haipeng Luo, Mengxiao Zhang, Peng Zhao 0006, Zhi-Hua Zhou	Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits.	COLT	2022	DBLP BibTeX RDF
22	Camille-Sovanneary Gauthier	List recommendations with multi-armed bandits. (Recommandation de listes d'items par bandits manchots).		2022	RDF
22	Hiba Dakdouk	Massive multi-player multi-armed bandits for internet of things networks. (Bandits massifs multi-bras multi-joueurs pour les réseaux de l'internet des objets).		2022	RDF
22	Geovani Rizk	Stochastic Graphical Bilinear Bandits. (Bandits Bilinéaires Graphiques Stochastiques).		2022	RDF
22	Dorian Baudry	Non-Parametric Algorithms for Multi-Armed Bandits. (Algorithmes Non-Paramétriques de Bandits Multi-Bras).		2022	RDF
22	Chen Yan 0002	Close-to-opimal policies for Markovian bandits. (Politiques quasi-optimales de bandits Markoviens).		2022	RDF
22	Chen Yan	Close-to-opimal policies for Markovian bandits. (Politiques quasi-optimales de bandits Markoviens).		2022	RDF
22	Julia Kreutzer, David Vilar, Artem Sokolov	Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits.	CoRR	2021	DBLP BibTeX RDF
22	Julia Kreutzer, David Vilar, Artem Sokolov	Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits.	EMNLP (Findings)	2021	DBLP DOI BibTeX RDF
22	Shinji Ito	Hybrid Regret Bounds for Combinatorial Semi-Bandits and Adversarial Linear Bandits.	NeurIPS	2021	DBLP BibTeX RDF
22	Saeed Masoudian, Yevgeny Seldin	Improved Analysis of the Tsallis-INF Algorithm in Stochastically Constrained Adversarial Bandits and Stochastic Bandits with Adversarial Corruptions.	COLT	2021	DBLP BibTeX RDF
22	Réda Alami	Bandits à Mémoire pour la prise de décision en environnement dynamique. Application à l'optimisation des réseaux de télécommunications. (Memory Bandits for decision making in dynamical environments. Application to network optimization).		2021	RDF
22	Baihan Lin, Guillermo A. Cecchi, Djallel Bouneffouf 0001, Jenna M. Reinen, Irina Rish	Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits and RL.	CoRR	2020	DBLP BibTeX RDF
22	Baihan Lin, Guillermo A. Cecchi, Djallel Bouneffouf 0001, Jenna M. Reinen, Irina Rish	Models of Human Behavioral Agents in Bandits, Contextual Bandits and RL.	HBAI@IJCAI	2020	DBLP DOI BibTeX RDF
22	Pierre Perrault	Efficient Learning in Stochastic Combinatorial Semi-Bandits. (Apprentissage Efficient dans les Problèmes de Semi-Bandits Stochastiques Combinatoires).		2020	RDF
22	David Cortes	Adapting multi-armed bandits policies to contextual bandits scenarios.	CoRR	2018	DBLP BibTeX RDF
22	Aditya Gopalan, Prashanth L. A., Michael C. Fu 0001, Steven I. Marcus	Weighted Bandits or: How Bandits Learn Distorted Values That Are Not Expected.	AAAI	2017	DBLP DOI BibTeX RDF
22	Pratik Gajane	Bandits Multi-bras avec retour d'information non-conventionnelle. (Multi-Armed Bandits with Unconventional Feedback).		2017	RDF
22	Aditya Gopalan, Prashanth L. A., Michael C. Fu 0001, Steven I. Marcus	Weighted bandits or: How bandits learn distorted values that are not expected.	CoRR	2016	DBLP BibTeX RDF
22	Robin Allesiardo	Bandits Manchots sur Flux de Données Non Stationnaires. (Multi-armed bandits for non-stationary data streams).		2016	RDF
22	Nir Ailon, Thorsten Joachims, Zohar Shay Karnin	Reducing Dueling Bandits to Cardinal Bandits.	CoRR	2014	DBLP BibTeX RDF
22	Aaron Segal, Bryan Ford, Joan Feigenbaum	Catching Bandits and Only Bandits: Privacy-Preserving Intersection Warrants for Lawful Surveillance.	FOCI	2014	DBLP BibTeX RDF
22	Nir Ailon, Zohar Shay Karnin, Thorsten Joachims	Reducing Dueling Bandits to Cardinal Bandits.	ICML	2014	DBLP BibTeX RDF
22	Yaqin Zhou, Xiang-Yang Li 0001	Multi-Armed Bandits With Combinatorial Strategies Under Stochastic Bandits.	CoRR	2013	DBLP BibTeX RDF
21	Sudipto Guha, Kamesh Munagala, Peng Shi 0002	Approximation algorithms for restless bandit problems.	SODA	2009	DBLP DOI BibTeX RDF
21	Frédéric de Mesmay, Arpad Rimmel, Yevgen Voronenko, Markus Püschel	Bandit-based optimization on graphs with application to library performance tuning.	ICML	2009	DBLP DOI BibTeX RDF
21	Vivek Raghunathan, Vivek S. Borkar, Min Cao, P. R. Kumar 0001	Index Policies for Real-Time Multicast Scheduling for Wireless Broadcast Systems.	INFOCOM	2008	DBLP DOI BibTeX RDF
21	José Niño-Mora	Marginal Productivity Index Policies for Admission Control and Routing to Parallel Multi-server Loss Queues with Reneging.	NET-COOP	2007	DBLP DOI BibTeX RDF	loss queues, admission control, dynamic routing, multi-server, parallel queues, index policies
21	Sandeep Pandey, Deepayan Chakrabarti, Deepak Agarwal	Multi-armed bandit problems with dependent arms.	ICML	2007	DBLP DOI BibTeX RDF
21	Rick Neal	No parking!: (and other library technology quandaries).	SIGUCCS	2005	DBLP DOI BibTeX RDF	usage statistics, notification, parking
21	Max-Olivier Hongler, Fabrice Dusonchet	Optimal Stopping and Gittins' Indices for Piecewise Deterministic Evolution Processes.	Discret. Event Dyn. Syst.	2001	DBLP DOI BibTeX RDF	dynamic allocation of jobs, piecewise-deterministic processes, continuous time Gittins' indices, optimal stopping
21	Michael Condict, Dejan S. Milojicic, Franklin Reynolds, Don Bolinger	Towards a world-wide civilization of objects.	ACM SIGOPS European Workshop	1996	DBLP DOI BibTeX RDF
11	Baihan Lin	Reinforcement learning and bandits for speech and language processing: Tutorial, review and outlook.	Expert Syst. Appl.	2024	DBLP DOI BibTeX RDF
11	Xuchuang Wang, Hong Xie 0004, John C. S. Lui	Analyzing Queueing Problems via Bandits With Linear Reward & Nonlinear Workload Fairness.	IEEE Trans. Mob. Comput.	2024	DBLP DOI BibTeX RDF
11	Qiyu Kang, Wee Peng Tay, Rui She, Sijie Wang, Xiaoqian Liu, Yuán-Ruì Yáng	Multi-armed linear bandits with latent biases.	Inf. Sci.	2024	DBLP DOI BibTeX RDF
11	Zahraa Khais Shahid, Saguna Saguna, Christer Åhlund	Multiarmed Bandits for Sleep Recognition of Elderly Living in Single-Resident Smart Homes.	IEEE Internet Things J.	2024	DBLP DOI BibTeX RDF
11	Fengjiao Li, Xingyu Zhou 0001, Bo Ji 0001	Distributed Linear Bandits With Differential Privacy.	IEEE Trans. Netw. Sci. Eng.	2024	DBLP DOI BibTeX RDF
11	Hyun-Suk Lee, Do-Yup Kim, Kyungsik Min	Universal Dynamic Pilot Allocation for Beam Alignment Based on Multi-Armed Bandits.	IEEE Wirel. Commun. Lett.	2024	DBLP DOI BibTeX RDF
11	Wenting Liu, Jinlong Lei, Peng Yi 0001, Yiguang Hong	No-regret learning for repeated non-cooperative games with lossy bandits.	Autom.	2024	DBLP DOI BibTeX RDF
11	Rahul Singh 0001, Fang Liu 0020, Yin Sun, Ness B. Shroff	Multi-armed bandits with dependent arms.	Mach. Learn.	2024	DBLP DOI BibTeX RDF
11	Yingyan Zeng, Xiaoyu Chen, Ran Jin	Ensemble Active Learning by Contextual Bandits for AI Incubation in Manufacturing.	ACM Trans. Intell. Syst. Technol.	2024	DBLP DOI BibTeX RDF
11	Yuriy Dorn, Nikita Kornilov, Nikolay Kutuzov, Alexander Nazin, Eduard Gorbunov, Alexander V. Gasnikov	Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits.	Comput. Manag. Sci.	2024	DBLP DOI BibTeX RDF
11	Yingkai Li, Yining Wang 0001, Yuan Zhou 0007	Nearly Minimax-Optimal Regret for Linearly Parameterized Bandits.	IEEE Trans. Inf. Theory	2024	DBLP DOI BibTeX RDF
11	Yasong Feng, Zengfeng Huang, Tianyu Wang 0008	Lipschitz Bandits With Batched Feedback.	IEEE Trans. Inf. Theory	2024	DBLP DOI BibTeX RDF
11	Avishek Ghosh, Abishek Sankararaman, Kannan Ramchandran, Tara Javidi, Arya Mazumdar	Competing Bandits in Non-Stationary Matching Markets.	IEEE Trans. Inf. Theory	2024	DBLP DOI BibTeX RDF
11	Avishek Ghosh, Abishek Sankararaman, Kannan Ramchandran	Model Selection for Generic Contextual Bandits.	IEEE Trans. Inf. Theory	2024	DBLP DOI BibTeX RDF
11	Mengxiao Zhang, Haipeng Luo	Contextual Multinomial Logit Bandits with General Value Functions.	CoRR	2024	DBLP DOI BibTeX RDF
11	Viraj Nadkarni, D. Manjunath, Sharayu Moharir	Influencing Bandits: Arm Selection for Preference Shaping.	CoRR	2024	DBLP DOI BibTeX RDF
11	Khaled Eldowa, Nicolò Cesa-Bianchi, Alberto Maria Metelli, Marcello Restelli	Information Capacity Regret Bounds for Bandits with Mediator Feedback.	CoRR	2024	DBLP DOI BibTeX RDF
11	Hannes Nilsson, Rikard Johansson, Niklas Åkerblom, Morteza Haghir Chehreghani	Tree Ensembles for Contextual Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yuxiao Wen, Yanjun Han, Zhengyuan Zhou	Stochastic contextual bandits with graph feedback: from independence number to MAS number.	CoRR	2024	DBLP DOI BibTeX RDF
11	Zhiwei Wang, Huazheng Wang, Hongning Wang	Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yuriy Dorn, Aleksandr Katrutsa, Ilgam Latypov, Andrey Pudovikov	Fast UCB-type algorithms for stochastic bandits with heavy and super heavy symmetric noise.	CoRR	2024	DBLP DOI BibTeX RDF
11	Kyoungseok Jang, Chicheng Zhang, Kwang-Sung Jun	Efficient Low-Rank Matrix Estimation, Experimental Design, and Arm-Set-Dependent Low-Rank Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Sambhav Solanki, Shweta Jain 0002, Sujit Gujar	Fairness and Privacy Guarantees in Federated Contextual Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Ruiqi Zhang, Yuexiang Zhai, Andrea Zanette	Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement.	CoRR	2024	DBLP DOI BibTeX RDF
11	Zhiyong Wang, Jize Xie, Yi Chen, John C. S. Lui, Dongruo Zhou	Variance-Dependent Regret Bounds for Non-stationary Linear Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson	A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health.	CoRR	2024	DBLP DOI BibTeX RDF
11	Junwen Yang, Tianyuan Jin, Vincent Y. F. Tan	Multi-Armed Bandits with Abstention.	CoRR	2024	DBLP DOI BibTeX RDF
11	Nikola Pavlovic, Sudeep Salgia, Qing Zhao 0001	Order-Optimal Regret in Distributed Kernel Bandits using Uniform Sampling with Shared Randomness.	CoRR	2024	DBLP DOI BibTeX RDF
11	Stephen Pasteris, Alberto Rumi, Maximilian Thiessen, Shota Saito, Atsushi Miyauchi 0001, Fabio Vitale, Mark Herbster	Bandits with Abstention under Expert Advice.	CoRR	2024	DBLP DOI BibTeX RDF
11	Aldo Pacchiano, Mohammad Ghavamzadeh, Peter L. Bartlett	Contextual Bandits with Stage-wise Constraints.	CoRR	2024	DBLP DOI BibTeX RDF
11	Zirui Yan, Dennis Wei, Dmitriy A. Katz-Rogozhnikov, Prasanna Sattigeri, Ali Tajer	Causal Bandits with General Causal Models and Interventions.	CoRR	2024	DBLP DOI BibTeX RDF
11	Jincheng Mei, Zixin Zhong, Bo Dai 0001, Alekh Agarwal, Csaba Szepesvári, Dale Schuurmans	Stochastic Gradient Succeeds for Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Fang Kong, Shuai Li 0010	Improved Bandits in Many-to-one Matching Markets with Incentive Compatibility.	CoRR	2024	DBLP DOI BibTeX RDF
11	Avrim Blum, Kavya Ravichandran	Nearly-tight Approximation Guarantees for the Improving Multi-Armed Bandits Problem.	CoRR	2024	DBLP DOI BibTeX RDF
11	Ethan Blaser, Chuanhao Li, Hongning Wang	Federated Linear Contextual Bandits with Heterogeneous Clients.	CoRR	2024	DBLP DOI BibTeX RDF
11	Quan Nguyen, Nishant A. Mehta	Near-optimal Per-Action Regret Bounds for Sleeping Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Kwang-Sung Jun, Jungtaek Kim	Noise-Adaptive Confidence Sets for Linear Bandits and Application to Bayesian Optimization.	CoRR	2024	DBLP DOI BibTeX RDF
11	Archit Sood, Shweta Jain 0002, Sujit Gujar	Fairness of Exposure in Online Restless Multi-armed Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Steven Bilaj, Sofien Dhouib, Setareh Maghsudi	Meta Learning in Bandits within Shared Affine Subspaces.	CoRR	2024	DBLP DOI BibTeX RDF
11	Julien Zhou, Pierre Gaillard, Thibaud Rahier, Houssam Zenati, Julyan Arbel	Covariance-Adaptive Least-Squares Algorithm for Stochastic Combinatorial Semi-Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Rahul N. R, Vaibhav Katewa	Transfer in Sequential Multi-armed Bandits via Reward Samples.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yige Hong, Qiaomin Xie, Yudong Chen 0001, Weina Wang 0001	Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits.	CoRR	2024	DBLP DOI BibTeX RDF
11	Joe Suk, Arpit Agarwal	Optimal and Adaptive Non-Stationary Dueling Bandits Under a Generalized Borda Criterion.	CoRR	2024	DBLP DOI BibTeX RDF