Python中如何遍历特定目录下的文件提取指定信息

技术Python中如何遍历特定目录下的文件提取指定信息这篇文章给大家分享的是有关Python中如何遍历特定目录下的文件提取指定信息的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。需求需要遍历某目

本文讲述的是如何在Python中遍历特定目录中的文件以提取特定信息。我觉得边肖很实用,就和大家分享一下作为参考。让我们跟着边肖看一看。

00-1010需要遍历某个目录中的文件(text /csv,其中包含带有http/https协议的url)来提取其中包含的域名并再次输出。

需求

#coding:utf-8

#author:Duckweeds7

进口

进口

导入csv

导入编解码器

importurllib

DefsplitSign(str1):#去掉冗余符号,提取域名部分,可以自行修改,满足需求。

str2=str1.replace(',',')

Proto,rest=urllib。拆分类型(str2) #这里使用的是urllib库中的方法,具体可以自己搜索。

res,rest=urllib.splithost(rest)

返回

Def text _ save (filename,data) : # filename是写入CSV文件的路径,data是要写入的数据列表。

文件=打开(文件名,“a”)# a将w追加为覆盖。

foriirange(len(data)):

S=str(数据[I])。替换('[',' ')。替换(']',' ')#移除[]。这两条线可以根据不同的数据进行选择。

S=S .替换('',' ')。替换('、'、' ')' \ n' #删除单引号和逗号,并在每行的末尾添加换行符。

file.write

file.close()

打印(“完成”)

defwalkFile(文件):

regex=re.compile('[a-za-z]://[^\s]*')

all _ URL=[]

forroot,dirs,filesinos.walk(文件):

#root表示当前正在访问的文件夹路径。

#dirs表示该文件夹下的子目录名称列表。

#files表示该文件夹下的文件列表。

#遍历目录中的文件

forfinfiles:

F _ obj=open (os.path.join (root,f)) #因为files是文件名,所以需要用os.path作为绝对路径拼接。

get _ URL=regex . findall(f _ obj . read())#定期提取其中的URL。

all _ URLs.extend (map (splitSign,get_urls)) # map函数对get_urls中的每个项目执行splitSign函数处理。

set _ URL=set(all _ URL)# set set重复数据消除

text _ save(' e : \ \ test \ \ test . CSV ',list(set _ URL))#输出文件名必须是绝对路径。

if__name__=='__main__':

WalkFile('E:\\test')#输入要处理的文件夹路径。感谢阅读!这篇关于“如何在Python中遍历特定目录中的文件以提取特定信息”的文章就分享到这里。希望

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/115603.html

(0)

相关推荐

  • dynamodb入门(dynamodb的使用方法)

    技术如何解决DynamoDB的问题如何解决DynamoDB的问题,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。DynamoDB 是 Amaz

    攻略 2021年12月23日
  • 社戏人物形象分析,社戏中的人物形象分析和句子

    技术社戏人物形象分析,社戏中的人物形象分析和句子【文学常识】鲁迅社戏人物形象分析,原名周树人,字豫才。浙江绍兴人。伟大的无产阶级文学家、思想家和革命家。中国现代文学的奠基人。代表作有我国现代文学史上第一篇白话小说《狂人日

    生活 2021年10月22日
  • 怎样进行github的使用

    技术怎样进行github的使用本篇文章给大家分享的是有关怎样进行github的使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。教程默认已装好github客

    攻略 2021年11月17日
  • 生茶,普洱茶是生茶好还是熟茶好

    技术生茶,普洱茶是生茶好还是熟茶好普洱茶生茶和熟茶各有特色,没有谁好谁坏,普洱茶生茶制作工艺为杀青、揉捻后蒸压成饼,普洱熟茶则主要为渥堆发酵生茶;颜色方面,普洱生茶初为青绿、墨绿,而普洱熟茶颜色呈红褐色;普洱生茶口感强烈

    生活 2021年10月22日
  • [笔记]数据存储与检索

    技术[笔记]数据存储与检索 [笔记]数据存储与检索数据存储与检索(数据密集型应用系统设计)如果你把东西整理得井井有条, 下次就不用查找了
    ? --- 德国谚语从最基本的

    礼包 2021年10月27日
  • hbase寻址机制的示例分析

    技术hbase寻址机制的示例分析小编给大家分享一下hbase寻址机制的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!hbase寻址机制

    攻略 2021年12月9日