!pip install -q sec-api

API_KEY = 'YOUR_API_KEY'

from sec_api import QueryApiqueryApi = QueryApi(api_key=API_KEY)

import pandas as pddef standardize_filing_url(url):  return url.replace('ix?doc=/', '')def get_10K_metadata(start_year = 2021, end_year = 2022):  frames = []  for year in range(start_year, end_year + 1):    number_of_objects_downloaded = 0    for month in range(1, 13):      padded_month = str(month).zfill(2) # "1" -> "01"      date_range_filter = f'filedAt:[{year}-{padded_month}-01 TO {year}-{padded_month}-31]'      form_type_filter  = f'formType:"10-K" AND NOT formType:("10-K/A", NT)'      lucene_query = date_range_filter + ' AND ' + form_type_filter      query_from = 0      query_size = 200      while True:        query = {          "query": lucene_query,          "from": query_from,          "size": query_size,          "sort": [{ "filedAt": { "order": "desc" } }]        }        response = queryApi.get_filings(query)        filings = response['filings']        if len(filings) == 0:          break        else:          query_from += query_size        metadata = list(map(lambda f: {'ticker': f['ticker'],                                       'cik': f['cik'],                                       'formType': f['formType'],                                       'filedAt': f['filedAt'],                                       'filingUrl': f['linkToFilingDetails']                                      }, filings))        df = pd.DataFrame.from_records(metadata)        # remove all entries without a ticker symbol        df = df[df['ticker'].str.len() > 0]        df['filingUrl'] = df['filingUrl'].apply(standardize_filing_url)        frames.append(df)        number_of_objects_downloaded += len(df)    print(f'✅ Downloaded {number_of_objects_downloaded} metadata objects for year {year}')  result = pd.concat(frames)  print(f'✅ Download completed. Metadata downloaded for {len(result)} filings.')  return result

metadata_10K = get_10K_metadata(start_year=2020, end_year=2022)

✅ Downloaded 5019 metadata objects for year 2020✅ Downloaded 5890 metadata objects for year 2021✅ Downloaded 6454 metadata objects for year 2022✅ Download completed. Metadata downloaded for 17363 filings.

metadata_10K

metadata_10K.to_csv('metadata_10K.csv', index=False)

metadata_10K[metadata_10K['ticker'] == 'AAPL']

def get_10Q_metadata(start_year = 2021, end_year = 2022):  frames = []  for year in range(start_year, end_year + 1):    number_of_objects_downloaded = 0    for month in range(1, 13):      padded_month = str(month).zfill(2) # "1" -> "01"      date_range_filter = f'filedAt:[{year}-{padded_month}-01 TO {year}-{padded_month}-31]'      form_type_filter  = f'formType:"10-Q" AND NOT formType:("10-Q/A", NT)'      lucene_query = date_range_filter + ' AND ' + form_type_filter      query_from = 0      query_size = 200      while True:        query = {          "query": lucene_query,          "from": query_from,          "size": query_size,          "sort": [{ "filedAt": { "order": "desc" } }]        }        response = queryApi.get_filings(query)        filings = response['filings']        if len(filings) == 0:          break        else:          query_from += query_size        metadata = list(map(lambda f: {'ticker': f['ticker'],                                       'cik': f['cik'],                                       'formType': f['formType'],                                       'filedAt': f['filedAt'],                                       'filingUrl': f['linkToFilingDetails']                                      }, filings))        df = pd.DataFrame.from_records(metadata)        # remove all entries without a ticker symbol        df = df[df['ticker'].str.len() > 0]        df['filingUrl'] = df['filingUrl'].apply(standardize_filing_url)        frames.append(df)        number_of_objects_downloaded += len(df)    print(f'✅ Downloaded {number_of_objects_downloaded} metadata objects for year {year}')  result = pd.concat(frames)  print(f'✅ Download completed. Metadata downloaded for {len(result)} filings.')  return result

metadata_10Q = get_10Q_metadata(start_year=2020, end_year=2020)

✅ Downloaded 15638 metadata objects for year 2020✅ Download completed. Metadata downloaded for 15638 filings.

metadata_10Q

from sec_api import RenderApirenderApi = RenderApi(api_key=API_KEY)

import osdef download_filing(metadata):  ticker = metadata['ticker']  url = metadata['filingUrl']  try:    new_folder = './filings/' + ticker    date = metadata['filedAt'][:10]    file_name = date + '_' + metadata['formType'] + '_' + url.split('/')[-1]    if not os.path.isdir(new_folder):      os.makedirs(new_folder)    file_content = renderApi.get_filing(url)    with open(new_folder + "/" + file_name, "w") as f:      f.write(file_content)  except:     print(f"❌ {ticker}: downloaded failed: {url}")

download_filing(metadata_10K.iloc[0])print('✅ Sample 10-K filing downloaded for {}'.format(metadata_10K.iloc[0]['ticker']))

✅ Sample 10-K filing downloaded for DOMH

!pip install -q pandarallel

from pandarallel import pandarallelnumber_of_workers = 4pandarallel.initialize(progress_bar=True, nb_workers=number_of_workers, verbose=0)

# uncomment to run a quick sample and download 500 filingssample = metadata_10K.sort_values('ticker').head(500)sample.parallel_apply(download_filing, axis=1)# download all filings# metadata_10K.parallel_apply(download_filing, axis=1)print('✅ Download completed')

VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=125), Label(value='0 / 125'))), HB…

✅ Download completed

import requestsPDF_GENERATOR_API = 'https://api.sec-api.io/filing-reader'def download_pdf(metadata):  ticker = metadata['ticker']  filing_url = metadata['filingUrl']  try:    new_folder = './filings/' + ticker    date = metadata['filedAt'][:10]    file_name = date + '_' + metadata['formType'] + '_' + filing_url.split('/')[-1] + '.pdf'    if not os.path.isdir(new_folder):      os.makedirs(new_folder)    api_url = f"{PDF_GENERATOR_API}?token={API_KEY}&type=pdf&url={filing_url}"    response = requests.get(api_url, stream=True)    response.raise_for_status()    with open(new_folder + "/" + file_name, "wb") as file:      for chunk in response.iter_content(chunk_size=8192):          file.write(chunk)  except:     print(f"❌ {ticker}: downloaded failed: {filing_url}")

sample2 = metadata_10K.sort_values('ticker').head(10)sample2.parallel_apply(download_pdf, axis=1)# download all filings as PDFs# metadata_10K.parallel_apply(download_pdf, axis=1)print('✅ Download completed')

VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=3), Label(value='0 / 3'))), HBox(c…

✅ Download completed

	ticker	cik	formType	filedAt	filingUrl
0	DOMH	12239	10-K	2020-01-31T18:42:32-05:00	https://www.sec.gov/Archives/edgar/data/12239/...
1	SCRH	831489	10-K	2020-01-31T17:25:50-05:00	https://www.sec.gov/Archives/edgar/data/831489...
2	EBAY	1065088	10-K	2020-01-31T16:53:51-05:00	https://www.sec.gov/Archives/edgar/data/106508...
4	BA	12927	10-K	2020-01-31T13:23:40-05:00	https://www.sec.gov/Archives/edgar/data/12927/...
5	NOBH	72205	10-K	2020-01-31T11:54:47-05:00	https://www.sec.gov/Archives/edgar/data/72205/...
...	...	...	...	...	...
154	TGL	1905956	10-K	2022-12-05T16:38:57-05:00	https://www.sec.gov/Archives/edgar/data/190595...
155	DLHC	785557	10-K	2022-12-05T16:16:18-05:00	https://www.sec.gov/Archives/edgar/data/785557...
156	VERU	863894	10-K	2022-12-05T15:23:56-05:00	https://www.sec.gov/Archives/edgar/data/863894...
157	MCLE	1827855	10-K	2022-12-02T16:27:58-05:00	https://www.sec.gov/Archives/edgar/data/182785...
159	RGCO	1069533	10-K	2022-12-02T14:47:39-05:00	https://www.sec.gov/Archives/edgar/data/106953...

	ticker	cik	formType	filedAt	filingUrl
1	SOBR	1425627	10-Q	2020-01-31T17:38:31-05:00	https://www.sec.gov/Archives/edgar/data/142562...
2	BTTR	1471727	10-Q	2020-01-31T17:19:14-05:00	https://www.sec.gov/Archives/edgar/data/147172...
3	KOSS	56701	10-Q	2020-01-31T16:37:01-05:00	https://www.sec.gov/Archives/edgar/data/56701/...
4	FLEX	866374	10-Q	2020-01-31T16:24:59-05:00	https://www.sec.gov/Archives/edgar/data/866374...
5	CVCO	278166	10-Q	2020-01-31T16:21:17-05:00	https://www.sec.gov/Archives/edgar/data/278166...
...	...	...	...	...	...
181	HOME	1646228	10-Q	2020-12-02T06:29:18-05:00	https://www.sec.gov/Archives/edgar/data/164622...
182	KDCE	1049011	10-Q	2020-12-01T19:18:45-05:00	https://www.sec.gov/Archives/edgar/data/104901...
183	NIHK	1084475	10-Q	2020-12-01T14:09:58-05:00	https://www.sec.gov/Archives/edgar/data/108447...
184	TJX	109198	10-Q	2020-12-01T11:19:23-05:00	https://www.sec.gov/Archives/edgar/data/109198...
185	GSGG	1668523	10-Q	2020-12-01T11:11:48-05:00	https://www.sec.gov/Archives/edgar/data/166852...

Download SEC Filings from EDGAR

Getting Started

Create a List of URLs for All EDGAR Filings

Define the Filing Search Query

Response of the Query API

Create a List of 10-K URLs on EDGAR

Create a List of 10-Q URLs on EDGAR

Download EDGAR Filings to Disk

Download EDGAR Filings as PDFs

	ticker	cik	formType	filedAt	filingUrl
4	AAPL	320193	10-K	2020-10-29T18:06:25-04:00	https://www.sec.gov/Archives/edgar/data/320193...
12	AAPL	320193	10-K	2021-10-28T18:04:28-04:00	https://www.sec.gov/Archives/edgar/data/320193...
28	AAPL	320193	10-K	2022-10-27T18:01:14-04:00	https://www.sec.gov/Archives/edgar/data/320193...