Search results for "reward"

Hits ?▲	Authors	Title	Venue	Year	Link	Author keywords
32	Wei-lun Kao, Ravishankar K. Iyer, Dong Tang	FINE: A Fault Injection and Monitoring Environment for Tracing the UNIX System Behavior under Faults.	IEEE Trans. Software Eng.	1993	DBLP DOI BibTeX RDF	FINE, fault injection and monitoring environment, UNIX system behavior, hardware-induced software errors, fault injector, analysis utilities, SunOS 4.1.2, transient Markov reward analysis, bus faults, CPU faults, pointer faults, software tools, Unix, program testing, system monitoring, software faults, software monitor, workload generator
32	Jing Lei 0005, Roy D. Yates, Larry J. Greenstein	A generic model for optimizing single-hop transmission policy of replenishable sensors.	IEEE Trans. Wirel. Commun.	2009	DBLP DOI BibTeX RDF
32	Kuang-Yuan Chen, Peter A. Lindsay	Feedback of Delayed Rewards in XCS for Environments with Aliasing States.	ACAL	2009	DBLP DOI BibTeX RDF	aliasing states problem, credit assignment, maze problems, Learning Classifier Systems, XCS
32	Adam J. Mersereau, Paat Rusmevichientong, John N. Tsitsiklis	A structured multiarmed bandit problem and the greedy policy.	CDC	2008	DBLP DOI BibTeX RDF
32	Thach Huy Nguyen, Pornthep Rojanavasu, Ouen Pinngern	Cost-Xensitive XCS Classifier System Addressing Imbalance Problems.	FSKD (2)	2008	DBLP DOI BibTeX RDF
32	Andrea Soltoggio, Peter Dürr, Claudio Mattiussi, Dario Floreano	Evolving neuromodulatory topologies for reinforcement learning-like problems.	IEEE Congress on Evolutionary Computation	2007	DBLP DOI BibTeX RDF
32	Esteban Arcaute, Adam Kirsch, Ravi Kumar 0001, David Liben-Nowell, Sergei Vassilvitskii	On threshold behavior in query incentive networks.	EC	2007	DBLP DOI BibTeX RDF	query incentive networks, threshold phenomena, branching processes
32	Jian (Denny) Lin, Albert M. K. Cheng	Maximizing Guaranteed QoS in (m, k)-firm Real-time Systems.	RTCSA	2006	DBLP DOI BibTeX RDF
32	Karel Sladký	Risk-Sensitive Optimality Criteria in Markov Decision Processes.	OR	2006	DBLP DOI BibTeX RDF
32	Dirk Thierens	An adaptive pursuit strategy for allocating operator probabilities.	GECCO	2005	DBLP DOI BibTeX RDF	adaptive operator allocation, adaptive pursuit, non-stationary operator probabilities, multi-armed bandit, non-stationary environment
32	Ayako Onzo, Ken Mogi	Cognitive Process of Emotion Under Uncertainty.	ICONIP	2004	DBLP DOI BibTeX RDF
32	Ann T. Tai, William H. Sanders, Leon Alkalai, Savio N. Chau, Kam S. Tso	Performability Analysis of Guarded-Operation Duration: A Successive Model-Translation Approach.	DSN	2002	DBLP DOI BibTeX RDF
32	Boudewijn R. Haverkort, Lucia Cloth, Holger Hermanns, Joost-Pieter Katoen, Christel Baier	Model Checking Performability Properties.	DSN	2002	DBLP DOI BibTeX RDF
32	Martin Ulrich, Alexander Rüger, Verena Durner, Georg Grön, Heiko Graf	Reward is not reward: Differential impacts of primary and secondary rewards on expectation, outcome, and prediction error in the human brain's reward processing regions.	NeuroImage	2023	DBLP DOI BibTeX RDF
27	Pooia Lalbakhsh, Bahram Zaeri, Ali Lalbakhsh, Mehdi N. Fesharaki	AntNet with Reward-Penalty Reinforcement Learning.	CICSyN	2010	DBLP DOI BibTeX RDF	AntNet, Reward-penalty reinforcement Learning, Swarm intelligence, Ant Colony Optimization
27	Marek Grzes, Daniel Kudenko	Theoretical and Empirical Analysis of Reward Shaping in Reinforcement Learning.	ICMLA	2009	DBLP DOI BibTeX RDF	reward shaping, heuristics, reinforcement learning
27	Okan Yilmaz, Ing-Ray Chen	Comparative Performance Analysis of CAC Reward Optimization Algorithms in Wireless Networks.	AINA	2009	DBLP DOI BibTeX RDF	reward optimization, performance analysis, Admission control, mobile networks, QoS guarantees
27	Manuel Lopes 0001, Francisco S. Melo, Luis Montesano	Active Learning for Reward Estimation in Inverse Reinforcement Learning.	ECML/PKDD (2)	2009	DBLP DOI BibTeX RDF
27	Guiqing Zhang, Yinfeng Xu	A Risk-Reward Competitive Analysis for the Newsboy Problem with Range Information.	COCOA	2009	DBLP DOI BibTeX RDF
27	Simon Andrew Williamson, Enrico H. Gerding, Nicholas R. Jennings	Reward shaping for valuing communications during multi-agent coordination.	AAMAS (1)	2009	DBLP BibTeX RDF	decentralised POMDPs, communication, agents
27	Qiang Shen 0001, Ruiqing Zhao, Wansheng Tang	Modeling Random Fuzzy Renewal Reward Processes.	IEEE Trans. Fuzzy Syst.	2008	DBLP DOI BibTeX RDF
27	Clemens Moser, Jian-Jia Chen, Lothar Thiele	Reward Maximization for Embedded Systems with Renewable Energies.	RTCSA	2008	DBLP DOI BibTeX RDF
27	Jiayu Gong, Xiliang Zhong, Cheng-Zhong Xu 0001	Energy and Timing Constrained System Reward Maximization on Wireless Networks.	ICDCS	2008	DBLP DOI BibTeX RDF
27	Andreas Huemer, David A. Elizondo, Mario Gongora 0001	A Reward-Value Based Constructive Method for the Autonomous Creation of Machine Controllers.	ICANN (2)	2008	DBLP DOI BibTeX RDF	Constructive Neural Network, Growing Machine Controllers, Reinforcement Learning, Spiking Neural Network
27	Daan Wierstra, Tom Schaul, Jan Peters 0001, Jürgen Schmidhuber	Episodic Reinforcement Learning by Logistic Reward-Weighted Regression.	ICANN (1)	2008	DBLP DOI BibTeX RDF
27	Marek Grzes, Daniel Kudenko	Multigrid Reinforcement Learning with Reward Shaping.	ICANN (1)	2008	DBLP DOI BibTeX RDF
27	Akiyo Asahina, Junichiro Hirayama, Shin Ishii	Interpreting Dopamine Activities in Stochastic Reward Tasks.	ICONIP (1)	2008	DBLP DOI BibTeX RDF
27	Chyng-Yang Jang	Managing Fairness: Reward Distribution in a Self-organized Online Game Player Community.	HCI (15)	2007	DBLP DOI BibTeX RDF	Distributive justice, Fairness, Online community, MMORPG
27	Ronald Ortner	Pseudometrics for State Aggregation in Average Reward Markov Decision Processes.	ALT	2007	DBLP DOI BibTeX RDF
27	Kenji Doya	Designing the Reward System: Computational and Biological Principles.	FOCI	2007	DBLP DOI BibTeX RDF
27	Fang He, Souren Paul	Time Pressure and Reward Inspiration as Outcome Controls for Information Sharing in Problem-Solving Virtual Teams.	HICSS	2007	DBLP DOI BibTeX RDF
27	Ambuj Tewari, Peter L. Bartlett	Bounded Parameter Markov Decision Processes with Average Reward Criterion.	COLT	2007	DBLP DOI BibTeX RDF
27	Adam Ponzi	Neural Network Model of Forward Shift of CA1 Place Fields Towards Reward Location.	ICONIP (1)	2007	DBLP DOI BibTeX RDF
27	N. Sato, Kishor S. Trivedi	Accurate and efficient stochastic reliability analysis of composite services using their compact Markov reward model representations.	IEEE SCC	2007	DBLP DOI BibTeX RDF
27	Anne Remke, Boudewijn R. Haverkort, Lucia Cloth	A versatile infinite-state Markov reward model to study bottlenecks in 2-hop ad hoc networks.	QEST	2006	DBLP DOI BibTeX RDF
27	Jian Li, Laiwan Chan	Reward Adjustment Reinforcement Learning for Risk-averse Asset Allocation.	IJCNN	2006	DBLP DOI BibTeX RDF
27	Laëtitia Matignon, Guillaume J. Laurent, Nadine Le Fort-Piat	Reward Function and Initial Values: Better Choices for Accelerated Goal-Directed Reinforcement Learning.	ICANN (1)	2006	DBLP DOI BibTeX RDF
27	Colin Molter, Naoyuki Sato, Utku Salihoglu, Yoko Yamaguchi	How Reward Can Induce Reverse Replay of Behavioral Sequences in the Hippocampus.	ICONIP (1)	2006	DBLP DOI BibTeX RDF
27	Hyungil Ahn, Rosalind W. Picard	Affective-Cognitive Learning and Decision Making: A Motivational Reward Framework for Affective Agents.	ACII	2005	DBLP DOI BibTeX RDF
27	Raúl Rodríguez-Colín, Jesús Ariel Carrasco-Ochoa, José Francisco Martínez Trinidad	Reward-Punishment Editing for Mixed Data.	CIARP	2005	DBLP DOI BibTeX RDF
27	Jie Yang 0005, Lei Shu 0001, Xiaoling Wu 0004, Jinsung Cho, Sungyoung Lee, Sangman Han	ETRI-QM: Reward Oriented Query Model for Wireless Sensor Networks.	EUC	2005	DBLP DOI BibTeX RDF
27	Tomás Brázdil, Antonín Kucera 0001	Computing the Expected Accumulated Reward and Gain for a Subclass of Infinite Markov Chains.	FSTTCS	2005	DBLP DOI BibTeX RDF
27	Vinu Vijay Kumar, Rashi Verma, John C. Lach, Joanne Bechta Dugan	A Markov Reward Model for Reliable Synchronous Dataflow System Design.	DSN	2004	DBLP DOI BibTeX RDF
27	Annalisa Franco, Davide Maltoni, Loris Nanni	Reward-Punishment Editing.	ICPR (4)	2004	DBLP DOI BibTeX RDF
27	Karel Sladký, Nico M. van Dijk	Total Reward Variance in Discrete and Continuous Time Markov Chains.	OR	2004	DBLP DOI BibTeX RDF
27	Frédéric Kaplan, Pierre-Yves Oudeyer	Maximizing Learning Progress: An Internal Reward System for Development.	Embodied Artificial Intelligence	2003	DBLP DOI BibTeX RDF
27	Orit Hazzan	Computer science students' conception of the relationship between reward (grade) and cooperation.	ITiCSE	2003	DBLP DOI BibTeX RDF	software engineering, cooperation, teamwork
27	Ming Zu, Albert Mo Kim Cheng	Real-Time Scheduling of Hierarchical Reward-Based Tasks.	IEEE Real Time Technology and Applications Symposium	2003	DBLP DOI BibTeX RDF
27	Sándor Rácz, Béla P. Tóth, Miklós Telek	MRMSolve: A Tool for Transient Analysis of Large Markov Reward Models.	Computer Performance Evaluation / TOOLS	2000	DBLP DOI BibTeX RDF
27	Susann C. Allmaier, David Kreische	Parallel Approaches to the Numerical Transient Analysis of Stochastic Reward Nets.	ICATPN	1999	DBLP DOI BibTeX RDF
27	Aad P. A. van Moorsel, Latha A. Kant, William H. Sanders	Computation of the Asymptotic Bias and Variance for Simulation of Markov Reward Models.	Annual Simulation Symposium	1996	DBLP DOI BibTeX RDF
24	Eleni Vasilaki, Stefano Fusi, Xiao-Jing Wang, Walter Senn	Learning flexible sensori-motor mappings in a complex network.	Biol. Cybern.	2009	DBLP DOI BibTeX RDF	Reward-modulated, Hebbian, Visuomotor task, Learning, Multilayer
24	Clemens Moser, Jian-Jia Chen, Lothar Thiele	Optimal service level allocation in environmentally powered embedded systems.	SAC	2009	DBLP DOI BibTeX RDF	energy harvesting systems, embedded systems, reward maximization, solar cells
24	Luoyi Fu, Xinbing Wang, Qian Zhang 0001	Unified fixed point analysis of IEEE 802.11(e) WLAN under saturated and unsaturated conditions.	IWCMC	2009	DBLP DOI BibTeX RDF	fixed point analysis, renewal-reward theorem, unsaturated condition
24	Oscar Díaz-Alcántara	U-Training. A Framework to Create Ubiquitous Training Portals for Higher Education Teachers.	ICIW	2008	DBLP DOI BibTeX RDF	U-Training, Metric Control Programme, Reward Management Programme, e-Learning
24	Xiaoxian He, Yunlong Zhu, Kunyuan Hu, Ben Niu 0002	A Swarm-Based Learning Method Inspired by Social Insects.	ICIC (2)	2007	DBLP DOI BibTeX RDF	Neighbor-Information-Reference (NIR) learning, i-interval neighbor, discounted reward, swarm intelligence, Q-learning
24	Hiroaki Wagatsuma, Yoko Yamaguchi	Context-Dependent Adaptive Behavior Generated in the Theta Phase Coding Network.	ICONIP (2)	2007	DBLP DOI BibTeX RDF	amygdala, prefrontal cortex, theta phase precession, reward-evaluation, Khepera-robot, cognitive map, hippocampus, action-selection, place cells
24	Levente Bodrog, Gábor Horváth 0002, Sándor Rácz, Miklós Telek	A tool support for automatic analysis based on the tagged customer approach.	QEST	2006	DBLP DOI BibTeX RDF	Tagged customer approach, Numerical analysis, Markov reward models
24	Mourad Rabah, Karama Kanoun	Performability Evaluation of Multipurpose Multiprocessor Systems: The "Separation of Concerns" Approach.	IEEE Trans. Computers	2003	DBLP DOI BibTeX RDF	Dependability and performability evaluation, multipurpose multiprocessors systems, distributed shared memory, clustered systems, stochastic reward nets, modular modeling
24	Cosmin Rusu, Rami G. Melhem, Daniel Mossé	Maximizing rewards for real-time applications with energy constraints.	ACM Trans. Embed. Comput. Syst.	2003	DBLP DOI BibTeX RDF	reward-based, scheduling, real-time, operating systems, Power management
24	Aaron Wilson, Margaret M. Burnett, Laura Beckwith, Orion Granatir, Ledah Casburn, Curtis R. Cook, Mike Durham, Gregg Rothermel	Harnessing curiosity to increase correctness in end-user programming.	CHI	2003	DBLP DOI BibTeX RDF	forms/3, surprise-explain-reward strategy, assertions, end-user software engineering, curiosity
24	Wing Ho A. Yuen, Roy D. Yates, Chi Wan Sung	Effect of node mobility on highway mobile infostation networks.	MSWiM	2003	DBLP DOI BibTeX RDF	highway network, mobile infostation, renewal reward theory, ad hoc network, mobility, renewal processes, infostation
24	Dong Chen, Selvamuthu Dharmaraja, Dongyan Chen, Lei Li, Kishor S. Trivedi, Raphael R. Some, Allen P. Nikora	Reliability and Availability Analysis for the JPL Remote Exploration and Experimentation System.	DSN	2002	DBLP DOI BibTeX RDF	Fault-tolerance, Distributed systems, Markov chains, Transient faults, Hierarchical modeling, Fault trees, Dependability modeling, Stochastic reward nets
24	Mira Park 0001, Jesse S. Jin, Laurence S. Wilson	Fast Content-Based Image Retrieval Using Quasi-Gabor Filter and Reduction of Image Feature Dimension.	SSIAI	2002	DBLP DOI BibTeX RDF	Quasi-Gabor Filter, 2D FFT, Reward-Punishment algorithm, Feature Dimension Reduction, Content-Based Image Retrieval
24	Anne M. P. Canuto, Gareth Howells 0001, Michael C. Fairhurst	An Investigation of the Effects of Variable Vigilance within the RePART Neuro-Fuzzy Network.	J. Intell. Robotic Syst.	2000	DBLP DOI BibTeX RDF	reward/punishment parameter, RePART, fuzzy multi-layer perceptron, radial RAM, variable vigilance parameter, fuzzy ARTMAP, handwritten numeral recognition
24	Osman Abul, Faruk Polat, Reda Alhajj	Function approximation based multi-agent reinforcement learning.	ICTAI	2000	DBLP DOI BibTeX RDF	multi-agent based domain independent coordination mechanisms, coordination information, reward distribution, region-wide joint rewards, Adversarial Food-Collecting World, multi-agent environments, multi-agent systems, learning (artificial intelligence), function approximation, function approximation, state transitions, multi-agent reinforcement learning
24	Mario Dal Cin, Gábor Huszerl, Konstantinos Kosmidis	Quantitative Evaluation of Dependability Critical Systems Based on Guarded Statechart Models.	HASE	1999	DBLP DOI BibTeX RDF	stochasic reward nets, Embedded systems, statecharts, dependability analysis
24	Paulo J. L. Adeodato, John G. Taylor	Stability analysis of pRAM reinforcement learning.	SBRN	1997	DBLP DOI BibTeX RDF	pRAM networks, RAM-based neural networks, penalty/reward ratio, neural net chip, pattern recognition, stability, reinforcement learning, noise, generalisation, neural chips, time domain, basins of attraction
24	Hsing Mei	Scheduling dependent real-time multimedia tasks on distributed systems.	COMPSAC	1995	DBLP DOI BibTeX RDF	real-time multimedia task scheduling, periodic dependent real-time multimedia tasks, Multimedia Task Graph model, system reward value, scheduling, Quality of Services, distributed systems, real-time systems, resource allocation, distributed processing, software quality, synchronisation, processor scheduling, deadlines, multimedia computing, execution time, average response time, synchronization methods
24	Lorrie A. Tomek, Jogesh K. Muppala, Kishor S. Trivedi	Modeling Correlation in Software Recovery Blocks.	IEEE Trans. Software Eng.	1993	DBLP DOI BibTeX RDF	software recovery blocks, software fault-tolerance technique, successive acceptance tests, correct module outputs, pairwise correlation, beta-binomial density, Stochastic Reward Network, Stochastic Petri Net Package, SPNP, Petri nets, fault tolerant computing, software reliability, software reliability, statistical analysis, correlation, Markov models, stochastic modeling, system recovery, stochastic Petri nets, recovery blocks, functional specification
24	Anja Austermann, Seiji Yamada, Kotaro Funakoshi, Mikio Nakano	How do users interact with a pet-robot and a humanoid.	CHI Extended Abstracts	2010	DBLP DOI BibTeX RDF	asimo, robots, user studies, human-robot interaction, aibo
24	Minija Tamosiunaite, James Ainge, Tomas Kulvicius, Bernd Porr, Paul Dudchenko, Florentin Wörgötter	Path-finding in real and simulated rats: assessing the influence of path characteristics on navigation learning.	J. Comput. Neurosci.	2008	DBLP DOI BibTeX RDF	SARSA, Place field system, Weight decay, Reinforcement learning, Function approximation
24	Akshat Verma, Rohit Jain, Sugata Ghosal	A utility-based unified disk scheduling framework for shared mixed-media services.	ACM Trans. Storage	2008	DBLP DOI BibTeX RDF	GSP, shortest path, disk scheduling, Profit maximization
24	Patrick D. Roberts, Roberto A. Santiago, Gerardo Lafferriere	An implementation of reinforcement learning based on spike timing dependent plasticity.	Biol. Cybern.	2008	DBLP DOI BibTeX RDF	Learning, Computational neuroscience, Synaptic plasticity, Spiking neuron model
24	Wenlong Ni, Wei Wayne Li, Mansoor Alam	Optimal Call Admission Control Policy for the RCS Schemes in Wireless Networks.	ICC	2008	DBLP DOI BibTeX RDF
24	Guomin Zhang, Jianping Yin, En Zhu, Ling Mao	On the Selection of Multi Optimal Imaging Frames in Single Time Slot for Earth Observation Satellite.	ICYCS	2008	DBLP DOI BibTeX RDF
24	Haibo Wang, Hans-Peter Schwefel, Thomas Skjødeberg Toftegaard	History-Based Adaptive Modulation for a Downlink Multicast Channel in OFDMA Systems.	WCNC	2008	DBLP DOI BibTeX RDF
24	Eduardo Rodrigues Gomes, Ryszard Kowalczyk	Non-symmetric Preferences in the IPA Market with Reinforcement Learning.	IAT	2008	DBLP DOI BibTeX RDF
24	Paul Chorley, Anil K. Seth	Closing the Sensory-Motor Loop on Dopamine Signalled Reinforcement Learning.	SAB	2008	DBLP DOI BibTeX RDF
24	Nguyen Hoang Viet, Ngo Anh Vien, TaeChoong Chung	Policy Gradient SMDP for Resource Allocation and Routing in Integrated Services Networks.	ICNSC	2008	DBLP DOI BibTeX RDF
24	Tuan Zea Tan, Gary Kee Khoon Lee, Shie-Yui Liong, Tian Kuay Lim, Jiawei Chu, Terence Hung	Rainfall intensity prediction by a spatial-temporal ensemble.	IJCNN	2008	DBLP DOI BibTeX RDF
24	N. Boris Margolin, Brian Neil Levine	Informant: Detecting Sybils Using Incentives.	Financial Cryptography	2007	DBLP DOI BibTeX RDF
24	Sirinart Tangruamsub, Proadpran Punyabukkana, Atiwong Suchato	Thai Speech Keyword Spotting using Heterogeneous Acoustic Modeling.	RIVF	2007	DBLP DOI BibTeX RDF
24	Sudipto Guha, Kamesh Munagala	Approximation Algorithms for Partial-Information Based Stochastic Control with Markovian Rewards.	FOCS	2007	DBLP DOI BibTeX RDF
24	Trevor Walker, Lisa Torrey, Jude W. Shavlik, Richard Maclin	Building Relational World Models for Reinforcement Learning.	ILP	2007	DBLP DOI BibTeX RDF
24	Eiji Uchibe, Kenji Doya	Finding Exploratory Rewards by Embodied Evolution and Constrained Reinforcement Learning in the Cyber Rodents.	ICONIP (2)	2007	DBLP DOI BibTeX RDF
24	Parosh Aziz Abdulla, Noomene Ben Henda, Richard Mayr, Sven Sandberg	Eager Markov Chains.	ATVA	2006	DBLP DOI BibTeX RDF
24	Paolo Arena, Luigi Fortuna, Mattia Frasca, Luca Patané, Marco Pavone	Towards autonomous adaptive behavior in a bio-inspired CNN-controlled robot.	ISCAS	2006	DBLP DOI BibTeX RDF
24	Christos Dimitrakakis	Nearly Optimal Exploration-Exploitation Decision Thresholds.	ICANN (1)	2006	DBLP DOI BibTeX RDF
24	Naoki Abe, Alan W. Biermann, Philip M. Long	Reinforcement Learning with Immediate Rewards and Linear Hypotheses.	Algorithmica	2003	DBLP DOI BibTeX RDF	Immediate rewards, Reinforcement learning, Online algorithms, Online learning, Decision theory, Dialogue systems, Computational learning theory
24	Shie Mannor, Nahum Shimkin	On-Line Learning with Imperfect Monitoring.	COLT	2003	DBLP DOI BibTeX RDF
24	Christopher H. Brooks, Edmund H. Durfee	Using Landscape Theory to Measure Learning Difficulty for Adaptive Agents.	Adaptive Agents and Multi-Agents Systems	2002	DBLP DOI BibTeX RDF
24	Andrei Z. Broder, Michael Mitzenmacher	Optmial plans for aggregation.	PODC	2002	DBLP DOI BibTeX RDF
24	Natwar Modani, Parul A. Mittal, Amit Anil Nanavati, Biplav Srivastava	Series of Dynamic Targeted Recommendations.	EC-Web	2002	DBLP DOI BibTeX RDF	recommender systems, E-commerce, targeting
24	Marcus Hutter	Self-Optimizing and Pareto-Optimal Policies in General Environments Based on Bayes-Mixtures.	COLT	2002	DBLP DOI BibTeX RDF
24	Christel Baier, Boudewijn R. Haverkort, Holger Hermanns, Joost-Pieter Katoen	Automated Performance and Dependability Evaluation Using Model Checking.	Performance	2002	DBLP DOI BibTeX RDF
24	Weidong Zhou, Richard J. Coggins	Computational Models of the Amygdala and the Orbitofrontal Cortex: A Hierarchical Reinforcement Learning System for Robotic Control.	Australian Joint Conference on Artificial Intelligence	2002	DBLP DOI BibTeX RDF
24	Hiroyuki Okada, Hiroshi Yamakawa, Takashi Omori	Two Dimensional Evaluation Reinforcement Learning.	IWANN (1)	2001	DBLP DOI BibTeX RDF
24	Charles Lee Isbell Jr., Christian R. Shelton, Michael J. Kearns, Satinder Singh 0001, Peter Stone	A social reinforcement learning agent.	Agents	2001	DBLP DOI BibTeX RDF
24	Sheng-Tzong Cheng, Chi-Ming Chen, Ing-Ray Chen	Dynamic Quota-Based Admission Control with Sub-Rating in Multimedia Servers.	Multim. Syst.	2000	DBLP DOI BibTeX RDF