Python爬虫

hgame的爬虫题,做到一半就卡住了,菜是原罪,整理一下关于爬虫的知识,requests库、urllib库、re库和Beautifulsoup库。
咕~

hgame里的baby-spider,一开始直接被反日,虚拟机关机,提醒写爬虫要加浏览器伪造,后来一直显示you are wrong,最后看了别人的脚本才发现是css上出了问题,把第十次之后的cookie打印下来再传到浏览器上可以发现爬取的题目与显示的题目无关,网页上的渲染把题目修改了,加载公式时在network里可以看到引用了一个新的字体,利用python 里的函数 str.maketrans() 可以把css渲染后的字体转换出来

fuck = str.maketrans('01345679', '10694357')  
question = getquestion1()
b = question.translate(fuck)

第三步

    .question-container span{
display: none;
}
.question-container{
font-family: Ariali;
font-weight: bold;
}
.question-container:after{
content:"(776299203/883952569)+(547789483)*683263066-(215127140)=?";
}

直接爬取style.css里的 .question-container:after里的content内容

0%