云玩家 - Yunist

$(史济怀) 数学分析教程上册第 3 版-练习题 1.10$

发表于2021-07-13|数学数学分析数学分析教程|数学•习题•数学分析| 条评论

2(1)只需找到对应的子列 ${a_{k_n}}$ , 然后运用极限的四则运算即可. (2)由 1.8 节得 $\inf_{k\geqslant n}-a_k=-\sup_{k\geqslant n}a_k$ . 因此等式显然成立. (3) $a_n>a^*-\sqrt\epsilon, b_n>b^*-\sqrt\epsilon$ , 于是就有 $a_nb_n>a_b_$ , 第一个左边不等式显然成立. 而又有 $\mathop{\lim\inf}{n\to\infty}a_nb_n\leqslant\mathop{\lim\inf{n\to\infty} a_nb^*}=b^*\mathop{\lim\inf a_n}_{n\to\infty}$ 显然第一个右边不等式也成立. 利用同样方法可以证明接下来的不等式. (4)同 (1). 3依题意得存在 $N, n>N$ 时有 $a_n<(1+\epsilon)^n$ , 由此可得 $\lim_{n\to\infty}a_n/l^n=0$ . 这个关系是等价的.

$(史济怀) 数学分析教程上册第 3 版-练习题 1.8$

(史济怀) 数学分析教程上册第 3 版-练习题 1.8

发表于2021-07-08|数学数学分析数学分析教程|数学•习题•数学分析| 条评论

3由于 $(n/(n-1))^{(n-1)}<\mathrm e<3\leqslant4-1\leqslant n-1,n\geqslant4$ 因此有 $\sqrt[n]{n}<\sqrt[n-1]{n-1}$ . 然后又有 $1<\sqrt{2}=\sqrt[4]{4}<\sqrt[3]{3}$ . 所以上确界是 $\sqrt[3]{3}$ , 下确界是 $1$ . 4根据上下确界的定义, 可以找到两个子列极限分别为上下确界, 数列自然不收敛. 5一个有界数列 ${a_n}$ , 我们找出它任意一个上界 $A$ 与下界 $B$ , 取用二分法将 $[A,B]$ 分为两个区间, 显然两个区间之中至少有一个有无穷多个数列的项在其中. 不停重复这个过程, 根据闭区间套定理可得一个极限 $a$ , 由我们选取的过程可得存在子列趋近于 $a$ .

《强化学习》(第 2 版) 习题 4

发表于2021-07-02|机器学习强化学习《强化学习》|机器学习•强化学习•习题| 条评论

4.1$$q_\pi(11,\text{down})=-1$$ 4.2都是 $-20$ . 事实上只需要算出第一个 $-20$ 就可以了, 状态 13 与状态 15 具有相同的状态价值, 状态 13 的动态特性变化并不影响它的价值 ($\text{down}$ 都是 $-20$) . 4.3 $$ \begin{aligned} q_\pi(s,a)&{\dot{=}}\mathbb{E}_\pi[G_t\mid S_t=s,A_t=a]\\ &{=}\mathbb{E_{\pi}}[R_{t+1}+\gamma G_{t+1}\mid S_t=s,A_t=a]\\ &{=}\mathbb{E}_\pi[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\ &{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_\pi(s',a')\right] \end{aligned} $$ $$ \begin{aligned} q_{k+1}( ...

$(史济怀) 数学分析教程上册第 3 版-练习题 1.7$

(史济怀) 数学分析教程上册第 3 版-练习题 1.7

发表于2021-06-29|数学数学分析数学分析教程|数学•习题•数学分析| 条评论

1是. 因为 $$ |a_m-a_n|\leqslant|a_m-a_N|+|a_N-a_n|N$ 时, 有 $$ L-\sum_{i=1}^n\frac{1}{i^2}\sum_{i=1}^n\frac{1}{i^2}\right) $$ 那么对于这样的 $\epsilon$ , 当 $m>n>N$ 时, 就有 $$ |a_m-a_n|k\epsilon $$ 左右同时取极限得 $$ \lim_{k\to\infty}b_k=+\infty $$ 与题设矛盾. 5存在 $\epsilon>0$ , 使得对任意的 $N\in\mathbb{Z}^*$ , 都存在 $m>n>N$ 使得 $|a_m-a_n|>\epsilon$ . 6 即 $\{a_n\}$ 不是基本列, 那么就存在 $\epsilon>0$ , 使得对任意的 $N\in\mathbb{Z}^*$ , 都存在 $m>n>N$ 使得 $|a_m-a_n|>\epsilon$ . 像第 4 题一样, 取 $N_1

《强化学习》(第 2 版) 习题 3

发表于2021-06-27|机器学习强化学习《强化学习》|机器学习•强化学习•习题| 条评论

3.11.确定游戏闯关小游戏 (类似森林冰火人那种) , 游戏是确定的, 即你每次都可以用同样的方式获得同种分数动作为上下左右, 可以考虑用相同时间间隔来进行离散处理, 通关给出正收益, 被攻击, 死亡给出负收益. 2.对弈棋类游戏, 给定对手, 那么对手的行为的概率就是可预测的, 那么环境 (棋盘) 就可预测. 3.随机游戏比如 2048. 2不能. 环境信息决定于智能体的感知能力, 如果感知能力不够强 (不是上帝视角) , 那么同样的环境信息就可能是不同的情况, 那么这样的任务就不是 $\text{MDP}$ 框架. 3个人觉得是第一个层次 (即方向盘) . 首先要考虑 “动作” 操控 (实际操作) 的难度. 比如说轮胎、肌肉、思想这种层面, 即使训练好了, 如何方便之前的做出这种动作仍是一种困难. 而且要控制动作的数量. 肌肉要控制的地方太多了, 会导致训练的参数很多, 收敛慢. 而且还要便于人类理解. 人类就是操控方向盘来与环境交互的, 以方向盘层次作为训练的动作更容易理解. 4 这是我在别的地方找到的答案. 但我认为这样的答案是错误的 (或者是题目没有出得足够严谨) . ...

$(史济怀) 数学分析教程上册第 3 版-练习题 1.6$

(史济怀) 数学分析教程上册第 3 版-练习题 1.6

发表于2021-06-24|数学数学分析数学分析教程|数学•习题•数学分析| 条评论

1(1) $$ \lim_{n\to\infty}\left(1+\frac{1}{n-2}\right)^n=\lim_{n\to\infty}\left(1+\frac{1}{n-2}\right)^{n-2}\left(1+\frac{1}{n-2}\right)^2=\mathrm{e} $$ 2显然当 $k=1$ 时成立. 假设对于 $k=i$ 成立, 那么有 $$ \lim_{n\to\infty}\left(1+\frac{i+1}{n}\right)^n=\lim_{n\to\infty}\left(1+\frac{i}{n+1}\right)^n\left(1+\frac{1}{n}\right)^n=\mathrm{e}^{i+1} $$ 因此对于 $i+1$ 同样成立, 得证. 3利用提示. 4利用提示. 5易证. 6由上一题可得. 7右边不等式易证, 因此只证左边. $$ \left(\frac{n}{n+k}\right)^{n+k}=1\cdot \left(\frac{n}{n+k}\right)\dots \left(\frac{n}{n+ ...

$(史济怀) 数学分析教程上册第 3 版-练习题 1.5$

(史济怀) 数学分析教程上册第 3 版-练习题 1.5

发表于2021-06-22|数学数学分析数学分析教程|数学•习题•数学分析| 条评论

1(1)当 $n>10$ 时, 数列单调递减, 而 $x_n>0$ , 因此极限存在. (2)数列单调递减, $x_n>0$ , 极限存在. 2显然该数列单调递增, 但有 $x_n<2$ (由数学归纳法得) , 因此极限存在. 3设数列 ${a_n}$ 是单调递增的, 若子列 ${a_{k_n}}$ 收敛, 说明 $a_{k_n}<A$ 即有界, 那么任取 $1\leqslant t<k_n$ , 都有 $a_1\leqslant a_t<a_{k_n}<A$ , 由于 $k_n$ 可以任取, 也就是说对于任意的 $t\in\mathbb{Z}^*$ 都有该结论, 即数列收敛. 对递减数列同理. 4已经有提示了. 易得 $a_{n+1}>a_n$ , 即 ${a_n}$ 是单调数列, 由题意知有界, 因此有$$(1-\lim_{n\to\infty}a_n)\lim_{n\to\infty}a_n\geqslant\frac{1}{4}, (1-\lim_{n\to\infty}a_n)\lim_{n\to\infty}a_n\le ...

$(史济怀) 数学分析教程上册第 3 版-练习题 1.4$

(史济怀) 数学分析教程上册第 3 版-练习题 1.4

发表于2021-06-20|数学数学分析数学分析教程|数学•习题•数学分析| 条评论

1当 $x$ 足够大, 时有$$p(x)=x^3(1-\frac{4}{x}+\frac{5}{x^2}-\frac{6}{x^x})>\frac{x^3}{2}$$显然 $\lim_{n\to\infty}p(n)=+\infty$ . 而当 $x$ 足够小时同理. 2$$\frac{1}{n}(1+2+\dots+n)=\frac{1+n}{2}$$ 显然. 3由求和公式显然. 4$$n(\sqrt n-\sqrt{n+1})=-\frac{n}{\sqrt n+\sqrt{n+1}}<-\frac{n}{2\sqrt{n+1}}=-\frac{\sqrt{n+1}}{2}+\frac{1}{2\sqrt{n+1}}$$ 两边取极限可得. 5$$\sum_{i=1}^n\frac{1}{\sqrt{n+i}}>\frac{n}{2\sqrt{2n}}=\frac{\sqrt{n}}{2\sqrt 2}$$ 两边取极限可得.

《强化学习》(第 2 版) 习题 2

发表于2021-06-18|机器学习强化学习《强化学习》|机器学习•强化学习•习题| 条评论

2.1$1/4$. 2.24, 5必定发生了, 其余都可能发生. 2.3首先应该要确定, 只要 $\epsilon$ 不取 $0$ , 经过足够长的时间应该都能够收敛到最优情况, 于是最优动作的概率为 $(1-\epsilon)\frac{\epsilon}{10}]$ , 而贪心取最优动作的概率取决于最开始的动作, 从期望值来看, 这个概率是 $1/10$ . 那么平均收益即可计算. $\epsilon-贪心$ :$$(1-\epsilon)\mathbb{E}[q_*(a_t)]+\epsilon\sum_{i=1}^{10}\mathbb{E}[q_*(a_i)]$$其中 $a_t$ 是最优动作贪心:$$\frac{1}{10}\sum_{i=1}^{10}\mathbb{E}]q_*(a_i)]$$ 2.4$$\alpha_i\prod_{j=i+1}^{n}(1-\alpha_j)$$ 2.5多臂赌博机可以明显看出常数步长对于非平稳问题的优势. 2.6因为其会探索得更多, 因此会更糟, 但同时由于其还拥有贪心的本质, 因此在不同臂收益差距明显时, 会出现峰值. 2.7只需 ...

《强化学习》(第 2 版) 习题 1

发表于2021-06-17|机器学习强化学习《强化学习》|机器学习•强化学习•习题| 条评论

1.1 左右互搏(1)一开始应该收敛得很慢. (2)应该不会, 我觉得它应该会收敛到必定不输的那个策略. 1.2 对称性(1)可以在更新价值表格时同时更新其对称位置. (2)应该会更快收敛. (3)不应该. 因为如果对手有偏好, 那么我们对对称的位置应该有不同的考虑. (4)不一定, 这与对手的策略有关. 1.3 贪心策略(1)如果是一开始就贪心, 当然是更差 (根本没有训练) . 如果已经收敛, 就会玩得更好. (2)贪心难以收敛到最优策略. 1.4 从试探中学习我认为从试探中学习的方式应该… 不太正确. 应该来说无论是学习还是胜率考虑都是不从试探中学习的更优. 1.5 其他提升方法(1)不能. (2)直接几个 if 判断就好了.