当前位置: 首页 > news >正文

睢宁县凌城做网站的网站搭建外贸

睢宁县凌城做网站的,网站搭建外贸,曲靖网站建设,一键优化清理在爬取网页信息时,需要注意网页爬虫规范文件robots.txt eg:csdn的爬虫规范文件 csdn.net/robots.txt User-agent: 下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。 Disallow&…

        在爬取网页信息时,需要注意网页爬虫规范文件robots.txt

        eg:csdn的爬虫规范文件 csdn.net/robots.txt

User-agent: 
        下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。

Disallow:

        禁止爬虫访问的路径

1、首先下载python的相关类库

pip install requests
pip install beautifulsoup4

        requests 是一个http库,可以发送网络请求 。

        beautifulsoup4 主要用来解析html文档。

2、引入相关库 

import requests    
from bs4 import BeautifulSoup  

3、编写相关代码

url = 'https://www.....com'    
response = requests.get(url)    html_content = response.text  
soup = BeautifulSoup(html_content, 'html.parser')  titles = soup.select('h2') 
for title in titles:  print(title.text)

        url : 需要爬的页面路径

        response = requests.get(url)  发送get请求并接受

        html_content = response.text 取出页面主体

        soup = BeautifulSoup(html_content, 'html.parser')  由beautifulsoup对主体中的h5标签解析

        titles = soup.select('h2')   选择所有的h2标签

        最后循环遍历打印出所有h2 标签

4、测试

http://www.mmbaike.com/news/109430.html

相关文章:

  • 湖南网站建设网络公司2023年7月最新疫情
  • 网站建设架构推广文章的步骤
  • wordpress 并发西安seo关键词排名优化
  • 做网站有什么关于财务的问题网络营销课程个人总结
  • 网站域名如何查询市场营销的对象有哪些
  • 如何申请网站宁波正规优化seo软件
  • 站内推广和站外推广的区别ip反查域名网站
  • wordpress $user_id商丘网站seo
  • 怎么自己做论坛网站吗今日新闻头条
  • 好多网站权重都没了百度知道网页入口
  • wordpress播放歌广州seo外包公司
  • 网站制作与防护费用搜索引擎优化的英文缩写是什么
  • 珠海中企网站建设seo赚钱暴利
  • 河池网站建设软文代写网
  • 网站建站网站域名申请荥阳seo
  • 品牌标志设计的风格包括北京关键词优化报价
  • 辽宁省建设工程信息网官网新网站入口官方百度收录网址
  • 自己开的网站 可以做代销吗百度云网盘登录入口
  • tinymce wordpress晨阳seo顾问
  • 河南省工程建设信息官方网站百度导航下载2022最新版官网
  • 怎么用手机做网站教程海会网络做的网站怎么做优化
  • 网站制作公司运作方案怎么注册域名
  • 网站导航是做链接赚钱么百度推广优化中心
  • 网站后台登陆模板今日国内新闻头条
  • 公司网站怎么做网站备案直接进入网站的代码
  • 怎么做和美团一样的网站宁波seo优化公司
  • 淮安谁家做网站百度小说搜索风云榜
  • 高端h5网站开发营销方法有哪些
  • 西安市社交网站制作公司网络整合营销方案
  • 微信公众号微网站制作泰州seo外包公司