(史济怀) 数学分析教程上册第 3 版-练习题 1.10
2(1)只需找到对应的子列 ${a_{k_n}}$ , 然后运用极限的四则运算即可.
(2)由 1.8 节得 $\inf_{k\geqslant n}-a_k=-\sup_{k\geqslant n}a_k$ . 因此等式显然成立.
(3) $a_n>a^*-\sqrt\epsilon, b_n>b^*-\sqrt\epsilon$ , 于是就有 $a_nb_n>a_b_$ , 第一个左边不等式显然成立. 而又有 $\mathop{\lim\inf}{n\to\infty}a_nb_n\leqslant\mathop{\lim\inf{n\to\infty} a_nb^*}=b^*\mathop{\lim\inf a_n}_{n\to\infty}$ 显然第一个右边不等式也成立. 利用同样方法可以证明接下来的不等式.
(4)同 (1).
3依题意得存在 $N, n>N$ 时有 $a_n<(1+\epsilon)^n$ , 由此可得 $\lim_{n\to\infty}a_n/l^n=0$ . 这个关系是等价的.
(史济怀) 数学分析教程上册第 3 版-练习题 1.8
3由于 $(n/(n-1))^{(n-1)}<\mathrm e<3\leqslant4-1\leqslant n-1,n\geqslant4$ 因此有 $\sqrt[n]{n}<\sqrt[n-1]{n-1}$ . 然后又有 $1<\sqrt{2}=\sqrt[4]{4}<\sqrt[3]{3}$ . 所以上确界是 $\sqrt[3]{3}$ , 下确界是 $1$ .
4根据上下确界的定义, 可以找到两个子列极限分别为上下确界, 数列自然不收敛.
5一个有界数列 ${a_n}$ , 我们找出它任意一个上界 $A$ 与下界 $B$ , 取用二分法将 $[A,B]$ 分为两个区间, 显然两个区间之中至少有一个有无穷多个数列的项在其中. 不停重复这个过程, 根据闭区间套定理可得一个极限 $a$ , 由我们选取的过程可得存在子列趋近于 $a$ .
《强化学习》(第 2 版) 习题 4
4.1$$q_\pi(11,\text{down})=-1$$
4.2都是 $-20$ .
事实上只需要算出第一个 $-20$ 就可以了, 状态 13 与状态 15 具有相同的状态价值, 状态 13 的动态特性变化并不影响它的价值 ($\text{down}$ 都是 $-20$) .
4.3
$$
\begin{aligned}
q_\pi(s,a)&{\dot{=}}\mathbb{E}_\pi[G_t\mid S_t=s,A_t=a]\\
&{=}\mathbb{E_{\pi}}[R_{t+1}+\gamma G_{t+1}\mid S_t=s,A_t=a]\\
&{=}\mathbb{E}_\pi[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\
&{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_\pi(s',a')\right]
\end{aligned}
$$
$$
\begin{aligned}
q_{k+1}( ...
(史济怀) 数学分析教程上册第 3 版-练习题 1.7
1是. 因为
$$
|a_m-a_n|\leqslant|a_m-a_N|+|a_N-a_n|N$ 时, 有
$$
L-\sum_{i=1}^n\frac{1}{i^2}\sum_{i=1}^n\frac{1}{i^2}\right)
$$
那么对于这样的 $\epsilon$ , 当 $m>n>N$ 时, 就有
$$
|a_m-a_n|k\epsilon
$$
左右同时取极限得
$$
\lim_{k\to\infty}b_k=+\infty
$$
与题设矛盾.
5存在 $\epsilon>0$ , 使得对任意的 $N\in\mathbb{Z}^*$ , 都存在 $m>n>N$ 使得 $|a_m-a_n|>\epsilon$ .
6
即 $\{a_n\}$ 不是基本列, 那么就存在 $\epsilon>0$ , 使得对任意的 $N\in\mathbb{Z}^*$ , 都存在 $m>n>N$ 使得 $|a_m-a_n|>\epsilon$ . 像第 4 题一样, 取 $N_1
《强化学习》(第 2 版) 习题 3
3.11.确定游戏闯关小游戏 (类似森林冰火人那种) , 游戏是确定的, 即你每次都可以用同样的方式获得同种分数
动作为上下左右, 可以考虑用相同时间间隔来进行离散处理, 通关给出正收益, 被攻击, 死亡给出负收益.
2.对弈棋类游戏, 给定对手, 那么对手的行为的概率就是可预测的, 那么环境 (棋盘) 就可预测.
3.随机游戏 比如 2048.
2不能. 环境信息决定于智能体的感知能力, 如果感知能力不够强 (不是上帝视角) , 那么同样的环境信息就可能是不同的情况, 那么这样的任务就不是 $\text{MDP}$ 框架.
3个人觉得是第一个层次 (即方向盘) . 首先要考虑 “动作” 操控 (实际操作) 的难度. 比如说轮胎、肌肉、思想这种层面, 即使训练好了, 如何方便之前的做出这种动作仍是一种困难. 而且要控制动作的数量. 肌肉要控制的地方太多了, 会导致训练的参数很多, 收敛慢. 而且还要便于人类理解. 人类就是操控方向盘来与环境交互的, 以方向盘层次作为训练的动作更容易理解.
4
这是我在别的地方找到的答案. 但我认为这样的答案是错误的 (或者是题目没有出得足够严谨) .
...
(史济怀) 数学分析教程上册第 3 版-练习题 1.6
1(1)
$$
\lim_{n\to\infty}\left(1+\frac{1}{n-2}\right)^n=\lim_{n\to\infty}\left(1+\frac{1}{n-2}\right)^{n-2}\left(1+\frac{1}{n-2}\right)^2=\mathrm{e}
$$
2显然当 $k=1$ 时成立. 假设对于 $k=i$ 成立, 那么有
$$
\lim_{n\to\infty}\left(1+\frac{i+1}{n}\right)^n=\lim_{n\to\infty}\left(1+\frac{i}{n+1}\right)^n\left(1+\frac{1}{n}\right)^n=\mathrm{e}^{i+1}
$$
因此对于 $i+1$ 同样成立, 得证.
3利用提示.
4利用提示.
5易证.
6由上一题可得.
7右边不等式易证, 因此只证左边.
$$
\left(\frac{n}{n+k}\right)^{n+k}=1\cdot \left(\frac{n}{n+k}\right)\dots \left(\frac{n}{n+ ...
(史济怀) 数学分析教程上册第 3 版-练习题 1.5
1(1)当 $n>10$ 时, 数列单调递减, 而 $x_n>0$ , 因此极限存在.
(2)数列单调递减, $x_n>0$ , 极限存在.
2显然该数列单调递增, 但有 $x_n<2$ (由数学归纳法得) , 因此极限存在.
3设数列 ${a_n}$ 是单调递增的, 若子列 ${a_{k_n}}$ 收敛, 说明 $a_{k_n}<A$ 即有界, 那么任取 $1\leqslant t<k_n$ , 都有 $a_1\leqslant a_t<a_{k_n}<A$ , 由于 $k_n$ 可以任取, 也就是说对于任意的 $t\in\mathbb{Z}^*$ 都有该结论, 即数列收敛.
对递减数列同理.
4已经有提示了.
易得 $a_{n+1}>a_n$ , 即 ${a_n}$ 是单调数列, 由题意知有界, 因此有$$(1-\lim_{n\to\infty}a_n)\lim_{n\to\infty}a_n\geqslant\frac{1}{4}, (1-\lim_{n\to\infty}a_n)\lim_{n\to\infty}a_n\le ...
(史济怀) 数学分析教程上册第 3 版-练习题 1.4
1当 $x$ 足够大, 时有$$p(x)=x^3(1-\frac{4}{x}+\frac{5}{x^2}-\frac{6}{x^x})>\frac{x^3}{2}$$显然 $\lim_{n\to\infty}p(n)=+\infty$ .
而当 $x$ 足够小时同理.
2$$\frac{1}{n}(1+2+\dots+n)=\frac{1+n}{2}$$
显然.
3由求和公式显然.
4$$n(\sqrt n-\sqrt{n+1})=-\frac{n}{\sqrt n+\sqrt{n+1}}<-\frac{n}{2\sqrt{n+1}}=-\frac{\sqrt{n+1}}{2}+\frac{1}{2\sqrt{n+1}}$$
两边取极限可得.
5$$\sum_{i=1}^n\frac{1}{\sqrt{n+i}}>\frac{n}{2\sqrt{2n}}=\frac{\sqrt{n}}{2\sqrt 2}$$
两边取极限可得.
《强化学习》(第 2 版) 习题 2
2.1$1/4$.
2.24, 5必定发生了, 其余都可能发生.
2.3首先应该要确定, 只要 $\epsilon$ 不取 $0$ , 经过足够长的时间应该都能够收敛到最优情况, 于是最优动作的概率为 $(1-\epsilon)\frac{\epsilon}{10}]$ , 而贪心取最优动作的概率取决于最开始的动作, 从期望值来看, 这个概率是 $1/10$ . 那么平均收益即可计算.
$\epsilon-贪心$ :$$(1-\epsilon)\mathbb{E}[q_*(a_t)]+\epsilon\sum_{i=1}^{10}\mathbb{E}[q_*(a_i)]$$其中 $a_t$ 是最优动作
贪心:$$\frac{1}{10}\sum_{i=1}^{10}\mathbb{E}]q_*(a_i)]$$
2.4$$\alpha_i\prod_{j=i+1}^{n}(1-\alpha_j)$$
2.5多臂赌博机
可以明显看出常数步长对于非平稳问题的优势.
2.6因为其会探索得更多, 因此会更糟, 但同时由于其还拥有贪心的本质, 因此在不同臂收益差距明显时, 会出现峰值.
2.7只需 ...
《强化学习》(第 2 版) 习题 1
1.1 左右互搏(1)一开始应该收敛得很慢.
(2)应该不会, 我觉得它应该会收敛到必定不输的那个策略.
1.2 对称性(1)可以在更新价值表格时同时更新其对称位置.
(2)应该会更快收敛.
(3)不应该. 因为如果对手有偏好, 那么我们对对称的位置应该有不同的考虑.
(4)不一定, 这与对手的策略有关.
1.3 贪心策略(1)如果是一开始就贪心, 当然是更差 (根本没有训练) . 如果已经收敛, 就会玩得更好.
(2)贪心难以收敛到最优策略.
1.4 从试探中学习我认为从试探中学习的方式应该… 不太正确. 应该来说无论是学习还是胜率考虑都是不从试探中学习的更优.
1.5 其他提升方法(1)不能.
(2)直接几个 if 判断就好了.