网络工程师排错笔记-长更
zabbix agent对远端ping的监控
问题
有一条专线故障,但是没有报警,因为zabbix server没有代理在当地,只有一个zabbix-agent
配置
需要用zabbix-agent进行ping,然后将结果返回给zabbix-server进行报警
1.在zabbix-agent配置一个userparameter
UserParameter=avaya.ping[*],/usr/bin/ping -c 1 -w 1 $1 > /dev/null 2>&1 ; echo $?
2.在zabbix系统配置监控项
3.创建触发器
4.结果
juniper srx防火墙ip-monitor切换失败
问题
公网故障,ip-monitor没有进行切换
分析过程
查看service rpm发现有失败检测,但是路由表没有变化,看了一下ip-monitor没有运行,原因是systeme-health-management进程挂了
rpm-status
ip-monitor status
处理方式
重启system-health-management进程
防范
1.syslog发送到es并报警zabbix
2.创建crontab用脚本巡检syshmd进程是否存在
zabbix api problem.get过滤已知问题和禁用主机问题
需求
需要通过api抓出来正在发生的问题过滤掉已知问题
配置
需要在filter下面进行配置,如下图
linux使用iptables做dnat-记录于20230901
需求
需要把每个vlan配置一个ip,只要用户访问到这个ip就转发到另一个ip
拓扑:
client1—-linux-ip1—-server
client2—-linux-ip2—-server
client3—-linux-ip3—-server
分析
首先确定使用iptables来实现功能,那么需要服务器配置多个ip,那么有两种方式,一个是多网卡,另一个是vlan,多网卡的话如果网段过多无法实现,所以使用vlan的方式实现
配置
配置8021q
1 |
|
配置端口ip
1 |
|
vlan4作为主管理ip,所以使用子ip作为dnat的地址,不然会无法访问服务器
配置ipv4转发及iptables并记录日志
1 |
|
看到如下说明基本ok了
效果实现
可以看到访问其中一个ip的地址已经被转到了目标server
client1—-linux-ip1—-server
192.168.5.98—-192.168.212.12—-192.168.5.12
windows radius服务器拿计费日志到es-记录于20230825
需求
需要获取统一认证服务器的计费信息,对应用户名ip关系
分析
windows nps服务器可以作为计费服务器使用,将计费日志使用filebeats收集到es,再从es用python拿出来即可做到实时搜索通过radius认证的用户名&ip
实现效果
h3c v5对接windows nps做802.1x接入认证使用ssh登录-记录于20230816
问题描述
之前使用telnet登录,一切正常,修改成ssh后无法登录
排查方法
h3c v5配置跟其他radius client设备有一点不一样的是授权,这个是使用telnet时已经配置好的,当时也费了半天查找,如下:
后来因为需要改ssh登录,就想着把login-service改成ssh,但是默认是没有的,需要先修改一下nps的xml文件
修改完成后重启电脑即可,之前telnet时选择的是telnet,ssh修改完xml后重启才能用
也就是说,radius rfc 2865里面标准的值是没有ssh的,需要自己手动修改,如果以后有其他设备限制登陆也应该可以用这种办法
h3c policy-based-route-记录于20230815
问题描述
使用H3c交换机在interface vlan接口做了一个policy-based-route,在一个acl里面的前面写了deny souce和destination,然后在policy-based-route调用后发现不管用
排查方法
因为policy-based-route能写node num,那么在前面写一个没有apply的行为是否可以呢,答案是可以
policy-based-route如下:
acl如下:
openwrt使用pptp vpn连接到阿里云进行出网-记录于20230815
问题描述
openwrt使用pptp连接到阿里云ecs进行上网,但是会出现连接被reset
排查方法
一开始以为iptables转发问题,后来从ecs抓包发现包已经转发出去了,然后就看了包的内容,发现包是这样的
翻译过来是tcp 上一个段未捕获(常见于捕获开始时)
为什么是未捕获,包哪去了?也没有丢包啊,网络状态很好,那包哪去了,是不是mtu的问题,后来想到确实pptp需要改mtu,所以把openwrt的mtu改成了1440,然后问题解决
mtu分析
待。。。
域账号到期,导致windows nps无法认证通过-记录于20230810
问题描述
用户反馈无法连接无线网络,无线认证用的802.1x结核windows nps,使用域账户进行认证
排查方法
1.通过wireshark抓包,只能看到wireshark有request和nps回复的reject,安全日志没有体现日志,是否有其他位置体现日志暂未发现。
2.更改账号有效期
avaya板卡arp表地址不更新-记录于20230810
问题描述
因为dhcp冲突导致avaya板卡无法使用,释放出来ip后,ip还是无法ping通
排查方法
查看核心交换机arp表,发现arp表还未更新,此时距离释放ip已经过去30分钟,只能手动清理arp表进行更新
无线网络缓慢-记录于20230809
问题描述
昨天有用户反映无线网络缓慢,下载文件几十kb/s,微信接收图片,发送文字转圈
排查方法
1.远程到用户侧电脑,分别ping公网、内网网关,发现都出现丢包现象,所以肯定内网出现了问题
2.通过ac查看用户所连接ap的负载,信号强度,发现都是正常状态,只是连接速率偏低,但不该慢到这种程度和丢包,所以可以排除ap的问题
3.本来想查看ac测是否有大流量导致,直接show了接口信息,发现大量crc报错,基本问题已经定位到,换掉此端口网线后问题解决
问题规避
crc基本一出现就会影响网络正常运行,而解决方法比较简单,就是换网线,可以适当监控是否有端口存在crc